當(dāng)數(shù)據(jù)存儲(chǔ)在多個(gè)數(shù)據(jù)庫中,如何查詢數(shù)據(jù)?特別是當(dāng)這些數(shù)據(jù)庫是由不同的人分別設(shè)計(jì)。這是第一個(gè)全面介紹數(shù)據(jù)集成的書,由業(yè)界三個(gè)最受人尊敬的專家撰寫。這本書講解數(shù)據(jù)集成技術(shù)的理論知識(shí),使用大量實(shí)例來解釋基本概念。數(shù)據(jù)集成是解決跨多個(gè)數(shù)據(jù)源(如數(shù)據(jù)庫,網(wǎng)頁)的問題。目前在多種環(huán)境中都涉及數(shù)據(jù)集成問題,包括企業(yè)信息集成,在網(wǎng)絡(luò)上的查詢處理,政府機(jī)構(gòu)之間的協(xié)調(diào)和科學(xué)家之間的合作。在某些情況下,數(shù)據(jù)集成是某個(gè)領(lǐng)域取得進(jìn)展的關(guān)鍵。本書提供了數(shù)據(jù)集成的概念和工具,可用于數(shù)據(jù)集成的具體實(shí)現(xiàn)。本書作者是威斯康星大學(xué)麥迪遜分校計(jì)算機(jī)科學(xué)副教授,同時(shí)在微軟AdCenter實(shí)驗(yàn)室與雅虎研究實(shí)驗(yàn)室擔(dān)任咨詢顧問。
出版者的話
中文版序
譯者序
前言
第1章 緒論1
1.1 什么是數(shù)據(jù)集成1
1.2 數(shù)據(jù)集成面臨的挑戰(zhàn)5
1.2.1 系統(tǒng)原因5
1.2.2 邏輯原因5
1.2.3 社會(huì)和管理原因6
1.2.4 設(shè)定預(yù)期7
1.3 數(shù)據(jù)集成架構(gòu)7
1.3.1 數(shù)據(jù)集成系統(tǒng)的組成部分7
1.3.2 數(shù)據(jù)集成實(shí)例9
1.4 全書概覽12
參考文獻(xiàn)注釋13
第一部分 數(shù)據(jù)集成技術(shù)基礎(chǔ)
第2章 查詢表達(dá)式及運(yùn)算16
2.1 數(shù)據(jù)庫概念回顧16
2.1.1 數(shù)據(jù)模型16
2.1.2 完整性約束18
2.1.3 查詢和應(yīng)答19
2.1.4 合取查詢20
2.1.5 datalog查詢21
2.2 查詢展開22
2.3 查詢包含與等價(jià)23
2.3.1 形式化定義23
2.3.2 合取查詢的包含24
2.3.3 合取查詢的并集25
2.3.4 帶有比較謂詞的合取查詢26
2.3.5 帶有否定的合取查詢28
2.3.6 包語義、分組和聚集30
2.4 基于視圖計(jì)算查詢32
2.4.1 問題定義33
2.4.2 視圖與查詢計(jì)算的相關(guān)性34
2.4.3 查詢重寫的可能長(zhǎng)度34
2.4.4 桶算法和MiniCon算法35
2.4.5 邏輯方法:逆規(guī)則算法41
2.4.6 算法比較42
2.4.7 基于視圖的查詢應(yīng)答43
參考文獻(xiàn)注釋46
第3章 數(shù)據(jù)源描述47
3.1 概述和必要條件47
3.2 模式映射語言49
3.2.1 模式映射語言規(guī)則49
3.2.2 全局視圖50
3.2.3 局部視圖53
3.2.4 全局-局部視圖55
3.2.5 元組生成依賴56
3.3 訪問模式限制57
3.3.1 構(gòu)建訪問模式限制58
3.3.2 生成可執(zhí)行計(jì)劃58
3.4 中介模式上的完整性約束61
3.4.1 帶有完整性約束的LAV61
3.4.2 帶有完整性約束的GAV62
3.5 結(jié)果完備性63
3.5.1 局部完備性63
3.5.2 結(jié)果完備性檢測(cè)64
3.6 數(shù)據(jù)級(jí)的異構(gòu)性65
3.6.1 標(biāo)度差異性66
3.6.2 相同實(shí)體的多重表示66
參考文獻(xiàn)注釋67
第4章 字符串匹配68
4.1 問題描述68
4.2 相似度度量69
4.2.1 基于序列的相似度度量69
4.2.2 基于集合的相似度度量75
4.2.3 混合相似度度量77
4.2.4 語音相似度度量79
4.3 可擴(kuò)展的字符串匹配80
4.3.1 字符串上的倒排索引81
4.3.2 大小過濾81
4.3.3 前綴過濾82
4.3.4 位置過濾84
4.3.5 邊界過濾85
4.3.6 其他相似度度量方法的可擴(kuò)展技術(shù)86
參考文獻(xiàn)注釋86
第5章 模式匹配與模式映射88
5.1 問題定義88
5.1.1 語義映射89
5.1.2 語義匹配89
5.1.3 模式匹配與模式映射90
5.2 模式匹配和模式映射的挑戰(zhàn)90
5.3 匹配和映射系統(tǒng)概述92
5.3.1 模式匹配系統(tǒng)92
5.3.2 模式映射系統(tǒng)94
5.4 匹配器94
5.4.1 名字匹配器94
5.4.2 實(shí)例匹配器96
5.5 組合匹配預(yù)測(cè)97
5.6 施加域完整性約束98
5.6.1 域完整性約束99
5.6.2 搜索匹配組合空間100
5.7 匹配選擇器104
5.8 匹配重用105
5.8.1 學(xué)習(xí)匹配106
5.8.2 學(xué)習(xí)器107
5.8.3 訓(xùn)練元學(xué)習(xí)器108
5.9 多對(duì)多匹配109
5.10 由匹配到映射111
參考文獻(xiàn)注釋116
第6章 通用模式操作118
6.1 模型管理操作119
6.2 合并操作120
6.3 模型生成操作121
6.4 逆映射操作123
6.5 模型管理系統(tǒng)124
參考文獻(xiàn)注釋124
第7章 數(shù)據(jù)匹配126
7.1 問題定義126
7.2 規(guī)則匹配127
7.3 學(xué)習(xí)匹配129
7.4 聚類匹配131
7.5 概率匹配133
7.5.1 貝葉斯網(wǎng)絡(luò)133
7.5.2 基于樸素貝葉斯的數(shù)據(jù)匹配138
7.5.3 特征相關(guān)性140
7.5.4 文本中的實(shí)體指代匹配141
7.6 協(xié)同匹配144
7.6.1 基于聚類的協(xié)同匹配146
7.6.2 協(xié)同匹配文檔中的實(shí)體指代146
7.7 數(shù)據(jù)匹配的可擴(kuò)展性148
7.7.1 規(guī)則匹配擴(kuò)展148
7.7.2 其他匹配方法的擴(kuò)展149
參考文獻(xiàn)注釋150
第8章 查詢處理152
8.1 背景:DBMS查詢處理153
8.1.1 選擇查詢執(zhí)行計(jì)劃154
8.1.2 執(zhí)行查詢計(jì)劃156
8.2 背景:分布式查詢處理157
8.2.1 數(shù)據(jù)放置和轉(zhuǎn)移158
8.2.2 兩階段連接158
8.3 數(shù)據(jù)集成查詢處理160
8.4 生成初始查詢計(jì)劃161
8.5 互聯(lián)網(wǎng)數(shù)據(jù)的查詢執(zhí)行161
8.5.1 多線程、流水線、數(shù)據(jù)流架構(gòu)161
8.5.2 有自治數(shù)據(jù)源的接口162
8.5.3 故障處理163
8.6 自適應(yīng)查詢處理163
8.7 事件驅(qū)動(dòng)自適應(yīng)策略164
8.7.1 數(shù)據(jù)源故障和延遲處理165
8.7.2 處理流水線操作結(jié)束時(shí)突發(fā)的基數(shù)問題166
8.8 性能驅(qū)動(dòng)的自適應(yīng)策略168
8.8.1 Eddy:基于隊(duì)列的計(jì)劃選擇169
8.8.2 校正查詢處理:基于代價(jià)的重新優(yōu)化171
參考文獻(xiàn)注釋175
第9章 包裝器176
9.1 引言176
9.1.1 包裝器的構(gòu)建177
9.1.2 包裝器構(gòu)建面臨的挑戰(zhàn)177
9.1.3 構(gòu)建方法的分類178
9.2 手動(dòng)的包裝器構(gòu)建179
9.3 基于學(xué)習(xí)的包裝器構(gòu)建180
9.3.1 HLRT包裝器181
9.3.2 Stalker包裝器182
9.4 無模式的包裝器學(xué)習(xí)186
9.4.1 建模數(shù)據(jù)源模式TS和抽取程序EW187
9.4.2 推導(dǎo)數(shù)據(jù)模式TS和抽取程序EW187
9.5 交互的包裝器構(gòu)建191
9.5.1 使用Stalker交互標(biāo)記頁面192
9.5.2 使用Poly識(shí)別正確的抽取規(guī)則193
9.5.3 用Lixto創(chuàng)建抽取規(guī)則195
參考文獻(xiàn)注釋197
第10章 數(shù)據(jù)倉(cāng)庫與緩存199
10.1 數(shù)據(jù)倉(cāng)庫200
10.1.1 數(shù)據(jù)倉(cāng)庫設(shè)計(jì)201
10.1.2 ETL:抽取/轉(zhuǎn)換/加載201
10.2 數(shù)據(jù)交換:描述性倉(cāng)庫203
10.2.1 數(shù)據(jù)交換設(shè)置203
10.2.2 數(shù)據(jù)交換解204
10.2.3 通用解204
10.2.4 核心通用解206
10.2.5 查詢物化信息庫207
10.3 緩存及部分物化207
10.4 本地、外部數(shù)據(jù)的直接分析208
參考文獻(xiàn)注釋210
第二部分 擴(kuò)展數(shù)據(jù)表示集成
第11章 XML214
11.1 數(shù)據(jù)模型215
11.2 XML結(jié)構(gòu)和模式定義217
11.2.1 文檔類型定義218
11.2.2 XML模式219
11.3 查詢語言220
11.3.1 先驅(qū):DOM和SAX221
11.3.2 XPath:XML查詢?cè)Z221
11.3.3 XQuery:XML查詢能力225
11.4 XML查詢處理229
11.4.1 XML路徑匹配231
11.4.2 XML輸出232
11.4.3 XML查詢優(yōu)化233
11.5 XML模式映射233
11.5.1 嵌套映射233
11.5.2 帶嵌套映射的查詢重寫236
參考文獻(xiàn)注釋236
第12章 本體和知識(shí)表示238
12.1 數(shù)據(jù)集成中的知識(shí)表示舉例238
12.2 描述邏輯239
12.2.1 描述邏輯的語法240
12.2.2 描述邏輯的語義241
12.2.3 描述邏輯的推理242
12.2.4 描述邏輯和數(shù)據(jù)庫推理的比較244
12.3 語義Web245
12.3.1 資源描述框架245
12.3.2 RDF模式249
12.3.3 Web本體語言249
12.3.4 RDF查詢:SPARQL語言250
參考文獻(xiàn)注釋251
第13章 不確定性數(shù)據(jù)集成253
13.1 不確定性表示254
13.1.1 概率數(shù)據(jù)表示255
13.1.2 從不確定性到概率256
13.2 不確定模式映射建模257
13.2.1 概率映射257
13.2.2 概率映射的語義258
13.2.3 表語義259
13.2.4 元組語義260
13.3 不確定性和數(shù)據(jù)溯源261
參考文獻(xiàn)注釋261
第14章 數(shù)據(jù)溯源263
14.1 溯源的兩種表示方法263
14.1.1 使用數(shù)據(jù)標(biāo)注表示溯源263
14.1.2 使用數(shù)據(jù)關(guān)系圖表示溯源264
14.1.3 兩種表示方法的可交換性265
14.2 數(shù)據(jù)溯源的應(yīng)用265
14.3 溯源半環(huán)266
14.3.1 半環(huán)形式化模型266
14.3.2 半環(huán)模型的應(yīng)用268
14.4 溯源的存儲(chǔ)270
參考文獻(xiàn)注釋271
第三部分 新型集成系統(tǒng)
第15章 Web數(shù)據(jù)集成274
15.1 Web數(shù)據(jù)的用途276
15.2 深層網(wǎng)絡(luò)277
15.2.1 垂直搜索278
15.2.2 深層網(wǎng)絡(luò)淺層化280
15.3 主題門戶網(wǎng)站282
15.4 Web數(shù)據(jù)的輕量級(jí)集成284
15.4.1 發(fā)現(xiàn)Web中的結(jié)構(gòu)化數(shù)據(jù)285
15.4.2 導(dǎo)入數(shù)據(jù)287
15.4.3 合并多個(gè)數(shù)據(jù)集288
15.4.4 重用他人工作成果288
15.5 “即付即用”數(shù)據(jù)管理289
參考文獻(xiàn)注釋289
第16章 關(guān)鍵字搜索:按需集成293
16.1 結(jié)構(gòu)化數(shù)據(jù)中的關(guān)鍵字搜索293
16.1.1 數(shù)據(jù)圖293
16.1.2 關(guān)鍵字匹配和評(píng)分模型295
16.2 結(jié)果排名計(jì)算296
16.2.1 圖擴(kuò)展算法296
16.2.2 基于閾值的合并297
16.3 數(shù)據(jù)集成中的關(guān)鍵字搜索299
16.3.1 以可擴(kuò)展的方式自動(dòng)地構(gòu)建邊300
16.3.2 可擴(kuò)展的查詢應(yīng)答301
16.3.3 通過學(xué)習(xí)算法調(diào)整邊和節(jié)點(diǎn)的權(quán)重301
參考文獻(xiàn)注釋302
第17章 對(duì)等數(shù)據(jù)集成303
17.1 對(duì)等節(jié)點(diǎn)和映射303
17.2 映射的語義307
17.3 PDMS查詢應(yīng)答的復(fù)雜性307
17.3.1 有環(huán)PDMS308
17.3.2 對(duì)等映射中的比較謂詞308
17.4 查詢重寫算法309
17.5 組合映射312
17.6 采用松散映射進(jìn)行對(duì)等數(shù)據(jù)管理314
17.6.1 基于相似度的映射314
17.6.2 映射表315
參考文獻(xiàn)注釋317
第18章 支持協(xié)同的集成318
18.1 協(xié)同因何而不同318
18.2 處理校正和反饋319
18.2.1 直接向下傳播的用戶更新319
18.2.2 回溯傳播的反饋或更新319
18.3 協(xié)同標(biāo)注與表達(dá)320
18.3.1 映射作為標(biāo)注:軌跡320
18.3.2 評(píng)論和討論作為標(biāo)注321
18.4 動(dòng)態(tài)數(shù)據(jù):協(xié)同數(shù)據(jù)共享322
18.4.1 基本架構(gòu)324
18.4.2 映射更新與物化實(shí)例325
18.4.3 沖突協(xié)調(diào)328
參考文獻(xiàn)注釋328
第19章 數(shù)據(jù)集成的未來330
19.1 不確定性、溯源和清理330
19.2 眾包和“人計(jì)算”330
19.3 構(gòu)建大規(guī)模結(jié)構(gòu)化Web數(shù)據(jù)庫331
19.4 輕量級(jí)集成331
19.5 集成數(shù)據(jù)可視化332
19.6 社交媒體集成332
19.7 基于集群和云的并行處理與緩存332
參考文獻(xiàn)333
索引360