“中國制造2025”出版工程--大數據管理系統(tǒng)
定 價:78 元
叢書名:“中國制造2025”出版工程
- 作者:江大偉、高云君、陳剛 編著
- 出版時間:2019/4/1
- ISBN:9787122333278
- 出 版 社:化學工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:248
- 紙張:
- 版次:01
- 開本:小16開
本書詳細討論大數據管理技術的各個分支及其實現技術, 包括大數據建模技術、大數據存儲和索引技術、大數據查詢處理技術、大數據事務處理技術和大數據總線技術, 并在此基礎上, 對大數據應用系統(tǒng)進行了全面分析。
本書面向大數據應用的開發(fā)人員、大數據管理系統(tǒng)的開發(fā)人員以及大數據管理技術的研究人員, 也適用于高等院校相關專業(yè)師生學習。
陳剛,浙江大學計算機科學與技術學院,教授,博士生導師。主要研究方向為數據庫、大數據處理、云計算、CPS系統(tǒng)等。2013年獲得浙江省青年科技獎,2012年獲得國內軟件領域“中創(chuàng)軟件人才獎”,入選2007度“教育部新世紀人才支持計劃”。主持國家科技支撐計劃、國家核高基**專項、國家自然科學基金、國家863計劃、國防預研計劃等20余項國家、省部級科研項目。擔任了包括數據庫領域TOP會議VLDB在內的近十個國際會議程序委員會委員,以及TKDE、VLDBJ、TPDS、JCST等國際期刊的評審專家。
第1篇 大數據管理系統(tǒng)基礎
第1章 大數據技術簡介 / 2
1.1 大數據技術的起源 / 2
1.2 大數據與云計算 / 3
參考文獻 / 4
第2章 大數據管理系統(tǒng)架構 / 5
2.1 大數據管理系統(tǒng)不能采用單一架構 / 5
2.1.1 大數據的5V特征 / 5
2.1.2 關系數據庫系統(tǒng)架構的缺陷 / 6
2.2 基于Hadoop生態(tài)系統(tǒng)的大數據管理系統(tǒng)架構 / 8
2.2.1 Hadoop簡介 / 8
2.2.2 HDFS分布式文件系統(tǒng) / 9
2.2.3 MapReduce數據處理系統(tǒng) / 10
2.3 面向領域的大數據管理系統(tǒng) / 12
2.3.1 什么是面向領域的大數據管理系統(tǒng) / 12
2.3.2 面向領域的大數據管理系統(tǒng)架構 / 13
參考文獻 / 16
第3章 大數據模型型 / 17
3.1 關系數據模型 / 17
3.1.1 關系數據模式 / 17
3.1.2 關系大數據存儲模型 / 17
3.1.3 查詢語言 / 18
3.1.4 典型系統(tǒng) / 18
3.2 鍵值數據模型 / 19
3.2.1 鍵值數據模式 / 19
3.2.2 鍵值數據存儲模型 / 19
3.2.3 查詢語言 / 19
3.2.4 典型系統(tǒng) / 20
3.3 列族數據模型 / 20
3.3.1 列族數據模式 / 20
3.3.2 列族數據存儲模型 / 21
3.3.3 查詢語言 / 21
3.3.4 典型系統(tǒng) / 21
3.4 文檔數據模型 / 22
3.4.1 文檔數據模式 / 22
3.4.2 文檔數據存儲模型 / 23
3.4.3 查詢語言 / 23
3.4.4 典型系統(tǒng) / 24
3.5 圖數據模型 / 24
3.5.1 圖數據模式 / 24
3.5.2 圖數據存儲模型 / 25
3.5.3 查詢語言 / 25
3.5.4 典型系統(tǒng) / 26
參考文獻 / 27
第4章 大數據應用開發(fā) / 28
4.1 大數據應用開發(fā)流程 / 28
4.2 大數據庫設計 / 31
4.2.1 頂層設計 / 31
4.2.2 數據存儲格式 / 32
4.2.3 數據模式設計 / 34
4.2.4 元數據管理 / 35
4.2.5 元數據存儲 / 36
參考文獻 / 37
第2篇 大數據管理系統(tǒng)實現技術
第5章 大數據存儲和索引技術 / 40
5.1 大數據存儲技術 / 40
5.1.1 分布式文件系統(tǒng) / 40
5.1.2 關系數據存儲 / 45
5.1.3 列族大數據存儲技術 / 48
5.2 大數據索引技術 / 50
5.2.1 系統(tǒng)概述 / 50
5.2.2 CG索引 / 53
參考文獻 / 57
第6章 大數據查詢處理技術 / 59
6.1 大數據批處理技術 / 59
6.1.1 MapReduce技術簡介 / 59
6.1.2 基于MapReduce的多表連接技術 / 62
6.2 大數據流處理技術 / 83
6.2.1 系統(tǒng)設計動機與需求 / 84
6.2.2 MillWheel編程模型 / 85
6.2.3 MillWheel編程接口 / 86
6.2.4 計算 / 86
6.2.5 鍵 / 87
6.2.6 流 / 87
6.2.7 持久態(tài) / 87
6.2.8 低水位 / 87
6.2.9 定時器 / 87
6.3 大圖數據處理技術 / 88
6.3.1 Pregel大圖處理系統(tǒng) / 89
6.3.2 系統(tǒng)實現 / 94
6.3.3 GRAPE大圖處理系統(tǒng) / 97
6.4 混合大數據處理技術 / 104
6.4.1 背景介紹 / 104
6.4.2 EPIC框架概述 / 105
6.4.3 模型抽象 / 109
6.4.4 實現方案與技術細節(jié) / 118
6.4.5 實驗 / 122
6.5 群組查詢處理技術 / 128
6.5.1 簡介 / 128
6.5.2 群組查詢的非侵入式方法 / 131
6.5.3 群組查詢基礎 / 133
6.5.4 群組查詢引擎COHANA / 138
6.5.5 性能分析 / 143
6.5.6 總結 / 149
參考文獻 / 149
第7章 大數據事務處理技術 / 151
7.1 基于鍵組的事務處理技術 / 151
7.1.1 鍵組 / 151
7.1.2 鍵值分組協議 / 152
7.1.3 系統(tǒng)實現 / 153
7.2 基于時間戳的事務處理技術 / 155
7.2.1 Spanner事務處理簡介 / 155
7.2.2 TrueTime應用接口 / 155
7.2.3 基于時間戳的事務處理 / 156
7.3 確定性分布式事務處理技術 / 157
7.4 基于數據遷移的事務處理技術 / 162
7.4.1 LEAP / 164
7.4.2 L-Store / 170
參考文獻 / 174
第8章 大數據總線技術 / 176
8.1 為什么需要大數據總線 / 176
8.1.1 兩個復雜性問題 / 176
8.1.2 從N-to-N到N-to-One / 177
8.2 基于日志的數據總線 / 178
8.2.1 數據庫中的日志 / 179
8.2.2 分布式系統(tǒng)中的日志 / 179
8.3 Kafka系統(tǒng)簡介 / 181
8.3.1 單個分區(qū)的效率 / 182
8.3.2 分布式協調 / 184
8.3.3 交付保證 / 186
參考文獻 / 187
第3篇 面向領域應用的大數據管理系統(tǒng)
第9章 面向決策支持的云展大數據倉庫系統(tǒng) / 190
9.1 決策支持簡介 / 190
9.2 云展大數據倉庫系統(tǒng)架構 / 191
9.2.1 云展大數據倉庫系統(tǒng)總覽 / 191
9.2.2 SINGA分布式深度學習平臺 / 192
9.2.3 CDAS眾包數據分析系統(tǒng) / 198
9.3 應用實例 / 202
9.3.1 簡介 / 202
9.3.2 綜合醫(yī)療分析系統(tǒng)架構 / 205
9.3.3 聯合患者檔案 / 207
9.3.4 案例分析:患者返院預測 / 210
參考文獻 / 211
第10章 面向大規(guī)模軌跡數據的分析系統(tǒng)TrajBase / 212
10.1 軌跡數據處理系統(tǒng)簡介 / 212
10.1.1 軌跡數據處理技術簡介 / 212
10.1.2 集中式軌跡數據處理系統(tǒng) / 213
10.1.3 分布式多維數據處理系統(tǒng) / 214
10.1.4 分布式時空數據處理系統(tǒng) / 214
10.2 軌跡概念介紹 / 215
10.3 TrajBase系統(tǒng)架構 / 216
10.4 軌跡數據處理技術 / 218
10.4.1 軌跡數據表達技術 / 218
10.4.2 軌跡數據存儲技術 / 218
10.4.3 軌跡數據索引和查詢技術 / 219
10.4.4 軌跡數據挖掘技術 / 222
參考文獻 / 223
第11章 基于超圖的交互式圖像檢索與標記系統(tǒng)HIRT / 225
11.1 圖像檢索與標記方法簡介 / 225
11.1.1 基于文本的圖片檢索方法 / 225
11.1.2 基于內容的圖片檢索方法 / 226
11.1.3 基于超圖的圖片檢索方法 / 226
11.2 HIRT系統(tǒng)架構 / 230
11.2.1 超圖構建 / 231
11.2.2 矩陣計算 / 232
11.2.3 Top-k查詢 / 237
11.3 交互式圖像檢索技術 / 237
11.3.1 并行查詢方法 / 238
11.3.2 近似查詢方法 / 241
11.3.3 交互式查詢方法 / 243
參考文獻 / 246
索引 / 247