《數(shù)據(jù)應(yīng)用工程:方法論與實(shí)踐》4位資深專家撰寫,為企業(yè)數(shù)據(jù)治理和應(yīng)用提供工程化方法和先進(jìn)經(jīng)驗(yàn),10余位專家力薦
定 價(jià):129 元
叢書名:大數(shù)據(jù)技術(shù)叢書
- 作者:鐘大偉 高鐸 王鵬 宋超 著
- 出版時(shí)間:2022/6/1
- ISBN:9787111704096
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:424
- 紙張:
- 版次:
- 開本:16
內(nèi)容簡(jiǎn)介
這是一本講解組織數(shù)據(jù)能力建設(shè)與數(shù)據(jù)應(yīng)用工程化的著作,它旨在為企業(yè)應(yīng)用和管理數(shù)據(jù)提供組織建設(shè)、技術(shù)體系和行業(yè)解決方案方面的理論指導(dǎo)和實(shí)踐經(jīng)驗(yàn)。本書是幾位作者在數(shù)據(jù)領(lǐng)域十幾年工作經(jīng)驗(yàn)的總結(jié),得到了業(yè)界10余位專家的一致好評(píng)。無論是像互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)原生類企業(yè),還是正在數(shù)字化轉(zhuǎn)型的傳統(tǒng)企業(yè),本書將為他們大規(guī)模、工程化地發(fā)揮數(shù)據(jù)的價(jià)值提供有意的參考。
本書的內(nèi)容大致分為如下四個(gè)方面:
(1)行業(yè)分析
從宏觀角度闡述了數(shù)字化變革帶來的問題和不確定性,并引出了解決這些問題需要掌握的理論和方法。
(2)理論方法
一方面,詳細(xì)講解了企業(yè)和組織的技術(shù)能力建設(shè)發(fā)方法、發(fā)展規(guī)律以及成熟度評(píng)估,幫助企業(yè)打下應(yīng)用數(shù)據(jù)的堅(jiān)實(shí)基礎(chǔ);一方面,詳細(xì)介紹了數(shù)據(jù)應(yīng)用成熟度模型的評(píng)估、運(yùn)用和設(shè)計(jì),以及數(shù)據(jù)工程的過程和方法。
(3)知識(shí)體系
詳細(xì)講解了數(shù)據(jù)治理與管理的方法,以及整個(gè)大數(shù)據(jù)體系的技術(shù)與架構(gòu)。
(4)實(shí)踐案例
通過4個(gè)綜合案例分別講解了數(shù)據(jù)工程與治理、業(yè)務(wù)數(shù)據(jù)化以及數(shù)據(jù)的工程化應(yīng)用,既有企業(yè)級(jí)別的數(shù)據(jù)管理案例,還有業(yè)務(wù)級(jí)別的營(yíng)銷案例,不僅有To B場(chǎng)景,還有To G場(chǎng)景。
贊譽(yù)
前言
第一部分 行業(yè)分析
第1章 數(shù)字化時(shí)代的變革與挑戰(zhàn) 2
1.1 數(shù)字經(jīng)濟(jì)與生產(chǎn)變革 2
1.1.1 從農(nóng)業(yè)經(jīng)濟(jì)到數(shù)字經(jīng)濟(jì),從土地到數(shù)據(jù) 3
1.1.2 從規(guī);a(chǎn)到個(gè)性化定制生產(chǎn),從IT到DT 8
1.2 數(shù)字化時(shí)代的變革動(dòng)能 10
1.2.1 技術(shù)發(fā)展創(chuàng)造變革 11
1.2.2 “新基建”提速變革 14
1.2.3 商業(yè)競(jìng)爭(zhēng)驅(qū)動(dòng)變革 16
1.2.4 社會(huì)治理需要變革 20
1.2.5 政府政策引導(dǎo)變革 22
1.3 數(shù)字化變革中的不確定性與挑戰(zhàn) 25
1.3.1 環(huán)境不確定性 25
1.3.2 數(shù)字化變革的挑戰(zhàn) 30
1.4 本章小結(jié) 37
第二部分 理論方法
第2章 技術(shù)變革與組織應(yīng)用技術(shù)的規(guī)律 40
2.1 組織面對(duì)技術(shù)變革的三大挑戰(zhàn) 40
2.1.1 新技術(shù)不斷涌現(xiàn),技術(shù)選擇的挑戰(zhàn) 41
2.1.2 創(chuàng)新風(fēng)險(xiǎn)很高,技術(shù)應(yīng)用發(fā)展規(guī)劃的挑戰(zhàn) 45
2.1.3 發(fā)展常遇瓶頸,持續(xù)提升的挑戰(zhàn) 47
2.2 事物發(fā)展的“第一性原理” 48
2.2.1 成熟度 48
2.2.2 成熟度模型 49
2.2.3 成熟度模型分類 51
2.3 技術(shù)創(chuàng)新規(guī)律與成熟度評(píng)估 56
2.3.1 技術(shù)發(fā)展生命周期規(guī)律 56
2.3.2 基于就緒水平的技術(shù)研發(fā)成熟度評(píng)估 57
2.3.3 考慮宣傳期望的技術(shù)發(fā)展成熟度曲線 59
2.4 組織技術(shù)應(yīng)用的發(fā)展規(guī)律與成熟度評(píng)估 61
2.4.1 指導(dǎo)早期信息化規(guī)劃的諾蘭成長(zhǎng)階段模型 62
2.4.2 諾蘭模型在網(wǎng)絡(luò)時(shí)代與智能時(shí)代的擴(kuò)展 63
2.5 組織技術(shù)應(yīng)用的能力建設(shè)規(guī)律與成熟度評(píng)估 65
2.5.1 從質(zhì)量方法發(fā)展來的能力成熟度模型 65
2.5.2 能力成熟度模型的基礎(chǔ)原理 68
2.5.3 軟件領(lǐng)域廣泛應(yīng)用的能力成熟度模型 73
2.5.4 數(shù)據(jù)領(lǐng)域廣泛應(yīng)用的能力成熟度模型 75
2.6 本章小結(jié) 81
第3章 數(shù)據(jù)應(yīng)用成熟度模型 82
3.1 模型開發(fā)背景 82
3.2 數(shù)據(jù)應(yīng)用成熟度模型框架 86
3.2.1 模型框架說明 86
3.2.2 模型階段與維度說明 87
3.3 數(shù)據(jù)應(yīng)用成熟度模型評(píng)估 88
3.3.1 發(fā)展評(píng)估—數(shù)據(jù)應(yīng)用維度 88
3.3.2 能力評(píng)估—數(shù)據(jù)工程維度 92
3.3.3 能力評(píng)估—數(shù)據(jù)治理維度 94
3.3.4 數(shù)據(jù)應(yīng)用成熟度綜合評(píng)估 96
3.4 數(shù)據(jù)應(yīng)用成熟度模型的運(yùn)用 101
3.4.1 模型運(yùn)用流程 101
3.4.2 成熟度進(jìn)階建議和措施 102
3.5 數(shù)據(jù)工程過程 104
3.5.1 數(shù)據(jù)工程過程概述 105
3.5.2 數(shù)據(jù)理解過程 108
3.5.3 數(shù)據(jù)設(shè)計(jì)過程 111
3.5.4 數(shù)據(jù)處理過程—數(shù)據(jù)開發(fā) 114
3.5.5 數(shù)據(jù)處理過程—數(shù)據(jù)分析與數(shù)據(jù)科學(xué)建模 124
3.5.6 數(shù)據(jù)部署過程 129
3.5.7 數(shù)據(jù)運(yùn)營(yíng)過程 131
3.5.8 數(shù)據(jù)工程支持過程 133
3.6 數(shù)據(jù)治理過程?? 134
3.6.1 數(shù)據(jù)治理維度概述 134
3.6.2 宏觀決策域 135
3.6.3 核心治理域—基本治理過程 137
3.6.4 核心治理域—綜合治理過程 141
3.7 本章小結(jié) 143
第三部分 知識(shí)體系
第4章 數(shù)據(jù)治理與管理 146
4.1 元數(shù)據(jù)管理 147
4.1.1 元數(shù)據(jù)概述 147
4.1.2 元數(shù)據(jù)定義 147
4.1.3 元數(shù)據(jù)分類 148
4.1.4 元數(shù)據(jù)管理詳解 152
4.2 數(shù)據(jù)質(zhì)量管理 154
4.2.1 數(shù)據(jù)質(zhì)量概述 154
4.2.2 數(shù)據(jù)質(zhì)量問題 156
4.2.3 數(shù)據(jù)質(zhì)量測(cè)量與評(píng)價(jià) 159
4.2.4 數(shù)據(jù)質(zhì)量問題的解決方法 170
4.2.5 如何做好數(shù)據(jù)質(zhì)量管理 173
4.3 數(shù)據(jù)安全管理 175
4.3.1 數(shù)據(jù)安全的內(nèi)容與特點(diǎn) 175
4.3.2 數(shù)據(jù)安全管理流程 179
4.3.3 數(shù)據(jù)合規(guī)要求的法規(guī)體系 181
4.3.4 數(shù)據(jù)安全的基礎(chǔ)合規(guī)要求 183
4.3.5 個(gè)人信息處理的專門合規(guī)要求 186
4.3.6 數(shù)據(jù)安全管理的技術(shù)和方法 196
4.4 本章小結(jié) 207
第5章 大數(shù)據(jù)技術(shù)詳解 208
5.1 大數(shù)據(jù)技術(shù)的方法和流行開源組件 208
5.1.1 大數(shù)據(jù)的4V特性與技術(shù)挑戰(zhàn) 208
5.1.2 大數(shù)據(jù)技術(shù)的主要方法 209
5.1.3 大數(shù)據(jù)技術(shù)的流行開源組件 211
5.2 大數(shù)據(jù)系統(tǒng)架構(gòu) 212
5.2.1 MPP數(shù)據(jù)庫架構(gòu) 212
5.2.2 Hadoop體系的架構(gòu) 215
5.2.3 兩種架構(gòu)的對(duì)比 218
5.2.4 存儲(chǔ)與計(jì)算分離及云化的未來架構(gòu) 220
5.3 大數(shù)據(jù)存儲(chǔ)技術(shù) 221
5.3.1 分布式文件存儲(chǔ)系統(tǒng) 222
5.3.2 分布式數(shù)據(jù)庫系統(tǒng) 225
5.3.3 分布式消息傳遞系統(tǒng) 232
5.4 大數(shù)據(jù)計(jì)算技術(shù) 234
5.4.1 離線批處理 234
5.4.2 實(shí)時(shí)流處理 236
5.5 大數(shù)據(jù)分析技術(shù) 239
5.5.1 OLAP技術(shù)介紹 239
5.5.2 實(shí)時(shí)OLAP系統(tǒng)的兩種架構(gòu)模型 240
5.5.3 OLAP相關(guān)技術(shù)分類 241
5.5.4 OLAP技術(shù)典型流行產(chǎn)品示例 242
5.6 數(shù)據(jù)科學(xué)技術(shù) 244
5.6.1 機(jī)器學(xué)習(xí)的基礎(chǔ)概念 244
5.6.2 有監(jiān)督機(jī)器學(xué)習(xí)算法 250
5.6.3 無監(jiān)督機(jī)器學(xué)習(xí)算法 260
5.7 本章小結(jié) 264
第四部分 實(shí)踐案例
第6章 數(shù)據(jù)工程與治理案例——移動(dòng)大數(shù)據(jù)的數(shù)據(jù)處理實(shí)踐 266
6.1 統(tǒng)一的大數(shù)據(jù)工程與治理架構(gòu) 266
6.2 數(shù)據(jù)倉庫設(shè)計(jì) 268
6.2.1 數(shù)據(jù)模型架構(gòu)設(shè)計(jì) 269
6.2.2 數(shù)據(jù)管理規(guī)范設(shè)計(jì) 270
6.2.3 數(shù)據(jù)規(guī)格設(shè)計(jì) 276
6.3 大數(shù)據(jù)日志收集技術(shù) 278
6.3.1 Web日志收集技術(shù) 278
6.3.2 移動(dòng)端日志收集技術(shù) 280
6.3.3 埋點(diǎn)技術(shù)與埋點(diǎn)實(shí)現(xiàn) 283
6.4 數(shù)據(jù)處理設(shè)計(jì) 291
6.4.1 數(shù)據(jù)處理技術(shù)架構(gòu)設(shè)計(jì) 291
6.4.2 數(shù)據(jù)處理流程設(shè)計(jì) 293
6.5 數(shù)據(jù)科學(xué)建模 295
6.5.1 數(shù)據(jù)科學(xué)建模工程流程示例 295
6.5.2 面向數(shù)據(jù)安全的Embedding數(shù)據(jù)特征提取方法與應(yīng)用實(shí)例 300
6.5.3 基于移動(dòng)設(shè)備行為數(shù)據(jù)的人口屬性性別標(biāo)簽預(yù)測(cè)模型迭代實(shí)例 304
6.6 數(shù)據(jù)治理 309
6.6.1 數(shù)據(jù)治理平臺(tái)的目標(biāo) 309
6.6.2 數(shù)據(jù)治理平臺(tái)的功能架構(gòu) 310
6.6.3 元數(shù)據(jù)管理 314
6.6.4 血緣查詢與告警 317
6.6.5 數(shù)據(jù)資產(chǎn)統(tǒng)計(jì) 318
6.6.6 其他功能模塊示例 322
6.7 本章小結(jié) 325
第7章 數(shù)據(jù)工程過程案例——企業(yè)CDP建設(shè)中的數(shù)據(jù)工程實(shí)踐 326
7.1 CDP平臺(tái)的數(shù)據(jù)源梳理 328
7.1.1 數(shù)據(jù)源梳理過程的輸入和輸出 329
7.1.2 了解客戶的業(yè)務(wù)及流程 330
7.1.3 了解客戶的系統(tǒng) 330
7.1.4 了解客戶的數(shù)據(jù) 331
7.2 CDP平臺(tái)的標(biāo)簽體系及其口徑梳理 333
7.2.1 標(biāo)簽體系及其口徑梳理過程的輸入和輸出 333
7.2.2 標(biāo)簽體系內(nèi)容說明 334
7.2.3 標(biāo)簽體系梳理 336
7.2.4 標(biāo)簽口徑梳理 339
7.3 CDP平臺(tái)的數(shù)據(jù)同步接口定義 341
7.3.1 數(shù)據(jù)同步接口定義過程的輸入和輸出 341
7.3.2 關(guān)于ETL和ELT 342
7.3.3 數(shù)據(jù)同步接口定義 342
7.4 CDP平臺(tái)的數(shù)據(jù)模型設(shè)計(jì) 345
7.4.1 關(guān)于數(shù)據(jù)模型設(shè)計(jì)過程的輸入與輸出 345
7.4.2 數(shù)據(jù)模型設(shè)計(jì) 346
7.4.3 數(shù)據(jù)模型的應(yīng)用 351
7.5 CDP平臺(tái)的ETL設(shè)計(jì) 352
7.5.1 ETL設(shè)計(jì)過程的輸入和輸出 353
7.5.2 ETL設(shè)計(jì) 353
7.6 CDP平臺(tái)的ETL開發(fā) 357
7.6.1 ETL開發(fā)過程的輸入和輸出 357
7.6.2 ETL開發(fā)流程 358
7.7 CDP平臺(tái)的數(shù)據(jù)運(yùn)維 359
7.7.1 運(yùn)維過程的輸入與輸出 359
7.7.2 運(yùn)維工作內(nèi)容 360
7.8 本章小結(jié) 362
第8章 數(shù)據(jù)應(yīng)用案例——大數(shù)據(jù)統(tǒng)計(jì)分析與個(gè)性化營(yíng)銷 363
8.1 統(tǒng)計(jì)級(jí)大數(shù)據(jù)應(yīng)用——移動(dòng)應(yīng)用統(tǒng)計(jì)分析系統(tǒng) 363
8.1.1 業(yè)務(wù)背景 364
8.1.2 產(chǎn)品技術(shù)設(shè)計(jì) 367
8.1.3 具體實(shí)現(xiàn)示例與說明 379
8.2 個(gè)體級(jí)大數(shù)據(jù)應(yīng)用——營(yíng)銷數(shù)據(jù)管理平臺(tái) 382
8.2.1 產(chǎn)品背景 382
8.2.2 產(chǎn)品設(shè)計(jì) 382
8.2.3 具體實(shí)現(xiàn)示例 391
8.3 本章小結(jié) 392
第9章 數(shù)據(jù)應(yīng)用案例——基于空間大數(shù)據(jù)的土地資源數(shù)字化精準(zhǔn)監(jiān)管 393
9.1 案例背景 393
9.2 數(shù)據(jù)處理過程 394
9.3 數(shù)字化的土地執(zhí)法監(jiān)管應(yīng)用 398
9.4 本章小結(jié) 401
附錄
附錄A 成熟度模型的構(gòu)建方法 404
附錄B 數(shù)據(jù)應(yīng)用成熟度模型設(shè)計(jì)說明 408
附錄C 數(shù)據(jù)合規(guī)要求的法規(guī)文件匯總 411