為促進中國城市軌道交通自動化水平及系統(tǒng)設備研發(fā)制造能力的提升,逐步形成全自動運行系統(tǒng)及其配套的產(chǎn)業(yè)鏈,并滿足城市軌道交通全自動運行的需求,中國城市軌道交通協(xié)會組織編寫了城市軌道交通全自動運行系統(tǒng)規(guī)范。本書的內(nèi)容包括范圍、規(guī)范性引用文件、術語與縮略語、一般要求、測試環(huán)境及條件、測試需求等。
引導性:引領讀者進入大數(shù)據(jù)領域的基礎性讀物
前瞻性:介紹大數(shù)據(jù)新技術及其行業(yè)應用
經(jīng)典性:關注大數(shù)據(jù)技術經(jīng)典算法
全球范圍內(nèi),運用大數(shù)據(jù)推動經(jīng)濟發(fā)展、完善社會治理、提升政府服務和監(jiān)管能 力正成為趨勢,國內(nèi)外政府相繼制定實施大數(shù)據(jù)戰(zhàn)略性文件,大力推動大數(shù)據(jù)發(fā)展和 應用。與之相關的職業(yè)需求也呈爆發(fā)式增長,根據(jù) IDC(國際數(shù)據(jù)公司)和 Gartner(高 德納咨詢公司)等發(fā)布的相關報告顯示,目前全球云計算、大數(shù)據(jù)市場規(guī)模已超過 3 000 億美元,而未來潛在市場價值將達到萬億美元規(guī)模,大數(shù)據(jù)與云計算專業(yè)將為全 球帶來 440 萬個 IT 新崗位和上千萬個非 IT 崗位。2019 年,我國互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng) 用戶規(guī)模居全球第一,擁有豐富的數(shù)據(jù)資源和應用市場優(yōu)勢,大數(shù)據(jù)部分關鍵技術研 發(fā)取得突破,涌現(xiàn)出一批互聯(lián)網(wǎng)創(chuàng)新企業(yè)和創(chuàng)新應用,2015 年 11 月 3 日發(fā)布的《中 共中央關于制定國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃的建議》明確提出實施國家大 數(shù)據(jù)戰(zhàn)略。椐預測,2019 年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模為 7 000 億元,2020 年將突破萬億元。
大數(shù)據(jù)成為了繼互聯(lián)網(wǎng)蓬勃發(fā)展以來的又一輪 IT 工業(yè)革命,被人們寄予厚望。大 數(shù)據(jù)技術包括數(shù)據(jù)的采集、存儲、處理、分析和可視化,本書對上述內(nèi)容做了詳細介紹。 數(shù)據(jù)采集部分主要介紹了網(wǎng)絡數(shù)據(jù)采集技術和日志數(shù)據(jù)采集技術,同時討論了數(shù)據(jù)清 洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等數(shù)據(jù)預處理技術;數(shù)據(jù)存儲部分主要介紹了大 數(shù)據(jù)分析中所用到的主流分布式文件存儲系統(tǒng),包括 HBase 分布式數(shù)據(jù)庫、MongoDB 分布式數(shù)據(jù)庫和 Hive 分布式數(shù)據(jù)倉庫,數(shù)據(jù)處理部分討論了數(shù)據(jù)處理平臺的架構設 計,并分別著重介紹了批處理、流處理和混合處理 3 種流行的大數(shù)據(jù)計算框架以及它們所對應的典型系統(tǒng):Hadoop、Storm、Spark;大數(shù)據(jù)分析部分重點討論了常用的統(tǒng) 計數(shù)據(jù)分析方法,包括描述統(tǒng)計、相關分析、回歸分析和主成分分析,同時主要介紹 了幾種經(jīng)典的數(shù)據(jù)挖掘算法,包括 ID3 算法、C4.5 算法、CART 算法、K-Means 算法、 Apriori 算法和神經(jīng)網(wǎng)絡的常用訓練算法;數(shù)據(jù)可視化部分主要介紹了文本可視化、網(wǎng) 絡可視化、時空數(shù)據(jù)可視化及多維數(shù)據(jù)可視化等常用可視化方法及相關工具。與此同 時,針對大數(shù)據(jù)隱私與安全,介紹了數(shù)據(jù)安全、數(shù)據(jù)隱私、數(shù)據(jù)信息共享與隱私信息 融合以及云環(huán)境下的大數(shù)據(jù)安全與隱私保護。針對大數(shù)據(jù)應用,相繼討論了大數(shù)據(jù)在 互聯(lián)網(wǎng)商業(yè)中的應用,包括用戶畫像、大數(shù)據(jù)精準營銷和互聯(lián)網(wǎng)金融;大數(shù)據(jù)在行業(yè) 中的應用,包括教育行業(yè)、電力行業(yè)、醫(yī)療行業(yè)和軍事領域;大數(shù)據(jù)在人工智能方面 的應用,包括語音識別和機器翻譯、共享經(jīng)濟和智慧城市。zui后,在大數(shù)據(jù)思維部分, 討論了大數(shù)據(jù)時代面臨的挑戰(zhàn),探討了大數(shù)據(jù)時代的思維變革、大數(shù)據(jù)激發(fā)的創(chuàng)造力, 并對數(shù)據(jù)科學進行了展望。
本書的編寫得到了河南省高等學校計算機教育研究會,中國鐵道出版社有限公司 領導和編輯的大力支持。中國科學院計算技術研究所張廣軍研究員、鄭州輕工業(yè)大學 的吳懷廣博士和張偉偉博士對本書的編寫提出了許多寶貴的意見和建議,本書的編寫 得到了鄭州輕工業(yè)大學、鄭州工程技術學院等院校的大力支持,在此一并表示衷心的 感謝。
本書由甘勇和陶紅偉確定內(nèi)容的選取和組織,由史雯雋、尚松濤、陳浩然、陶紅偉、 劉家磊和馬江濤具體執(zhí)筆。史文雋編寫第 1 章,尚松濤編寫第 2、3 章,陳浩然編寫第 4 章, 陶紅偉編寫第 5 章,劉家磊編寫第 6、7 章,馬江濤編寫第 8、9 章,zui后由甘勇和陶 紅偉定稿。
本書作者力圖將數(shù)據(jù)科學與大數(shù)據(jù)的原理、技術及其應用介紹清楚,但由于時間、 精力、知識結構有限,書中難免有疏漏之處,懇請讀者批評指正。
編 者 2019 年 6 月
甘勇:教授、鄭州工程技術學院副校長,長期工作在教學科研一線,主持的大學計算機和程序設計基礎課程被評為河南省精品課程、河南省精品資源共享課,擔任教育部計算機課程教學指導委員會委員、河南省計算機類專業(yè)和網(wǎng)絡空間安全專業(yè)教學指導委員會副主任,兼任中國計算機學會理事、河南省計算機學會副理事長、河南省計算機教育研究會副理事長。榮獲過優(yōu)秀教學成果二等獎、2項河南省優(yōu)秀教學成果特等獎、3項河南省優(yōu)秀教學成果二等獎。陶紅偉:鄭州輕工業(yè)大學計算機與通信工程學院副教授、博士,主要研究方向包括大數(shù)據(jù)分析、軟件可信度量與評估、信息安全。主持省部級以及橫向項目5項,作為主要成員參與國家863重點項目子課題、國家自然科學基金重大研究計劃集成項目子課題、國家863項目和國家自然科學基金項目等。
第1章 大數(shù)據(jù)與數(shù)據(jù)科學 / 1
1.1 大數(shù)據(jù)概述 / 1
1.1.1 大數(shù)據(jù)的概念 / 2
1.1.2 大數(shù)據(jù)的特征 / 2
1.1.3 大數(shù)據(jù)的結構類型 / 3
1.2 大數(shù)據(jù)的發(fā)展 / 4
1.3 大數(shù)據(jù)處理的挑戰(zhàn) / 5
1.4 數(shù)據(jù)科學的概念 / 6
1.5 數(shù)據(jù)科學的由來 / 7
1.6 數(shù)據(jù)科學的應用場景 / 9
1.6.1 行業(yè)數(shù)據(jù) / 9
1.6.2 數(shù)據(jù)服務 / 10
小結 / 11
習題 / 11
第2章 數(shù)據(jù)采集與數(shù)據(jù)預處理 / 12
2.1 數(shù)據(jù)采集和數(shù)據(jù)預處理概述 / 12
2.1.1 數(shù)據(jù)采集概述 / 12
2.1.2 數(shù)據(jù)預處理概述 / 13
2.2 數(shù)據(jù)采集技術 / 15
2.2.1 網(wǎng)絡數(shù)據(jù)采集技術 / 15
2.2.2 日志數(shù)據(jù)采集技術 / 23
2.3 數(shù)據(jù)預處理技術 / 28
2.3.1 數(shù)據(jù)清洗 / 28
2.3.2 數(shù)據(jù)集成 / 30
2.3.3 數(shù)據(jù)變換 / 30
2.3.4 數(shù)據(jù)規(guī)約 / 32
小結 / 33
習題 / 33
第3章 數(shù)據(jù)存儲 / 34
3.1 數(shù)據(jù)存儲概述 34
3.1.1 數(shù)據(jù)存儲的發(fā)展歷程 / 34
3.1.2 數(shù)據(jù)存儲模型 / 36
3.2 大數(shù)據(jù)存儲 / 36
3.2.1 海量數(shù)據(jù)存儲關鍵技術 / 37
3.2.2 分布式文件系統(tǒng) / 37
3.3 分布式數(shù)據(jù)庫 / 41
3.3.1 HBase 分布式數(shù)據(jù)庫 / 42
3.3.2 MongoDB 分布式 數(shù)據(jù)庫 / 45
3.3.3 Hive 分布式數(shù)據(jù) 倉庫 / 47
小結 / 49
習題 / 49
第4章 大數(shù)據(jù)處理平臺 / 50
4.1 概述 / 50
4.2 大數(shù)據(jù)的處理平臺架構 / 51
4.2.1 技術架構 / 51
4.2.2 開源平臺 / 52
4.3 大數(shù)據(jù)的批量處理 / 54
4.3.1 批量計算的概念 / 54
4.3.2 批量計算的軟件系統(tǒng) / 55
4.4 大數(shù)據(jù)的流式計算 / 63
4.4.1 流式計算的概念 / 63
4.4.2 流式計算的軟件系統(tǒng) / 64
4.5 大數(shù)據(jù)的混合處理計算 / 68
4.5.1 混合處理計算的概念 / 68
4.5.2 混合處理計算的軟件系統(tǒng) / 69
小結 / 78
習題 / 79
第5章 數(shù)據(jù)分析 / 80
5.1 數(shù)據(jù)分析概述 / 80
5.1.1 數(shù)據(jù)分析的概念和作用 / 80
5.1.2 數(shù)據(jù)分析的類型 / 81
5.1.3 數(shù)據(jù)分析的流程 / 81
5.2 統(tǒng)計數(shù)據(jù)分析方法 / 83
5.2.1 描述統(tǒng)計 / 83
5.2.2 相關分析 / 84
5.2.3 回歸分析 / 88
5.2.4 主成分分析 / 92
5.3 數(shù)據(jù)挖掘算法 / 96
5.3.1 決策樹 / 96
5.3.2 K-Means 算法 / 101
5.3.3 Apriori 算法 / 106
5.3.4 神經(jīng)網(wǎng)絡 / 111
5.4 數(shù)據(jù)分析工具 / 113
小結 / 114
習題 / 114
第6章 數(shù)據(jù)可視化 / 117
6.1 數(shù)據(jù)可視化概述 / 117
6.1.1 數(shù)據(jù)可視化的基本特征 / 119
6.1.2 數(shù)據(jù)可視化的作用 / 120
6.1.3 數(shù)據(jù)可視化的流程 / 123
6.2 數(shù)據(jù)可視化方法 / 126
6.2.1 文本可視化 / 126
6.2.2 網(wǎng)絡可視化 / 129
6.2.3 時空數(shù)據(jù)可視化 / 131
6.2.4 多維數(shù)據(jù)可視化 / 134
6.3 數(shù)據(jù)可視化軟件與工具 / 136
6.3.1 Excel / 137
6.3.2 NodeXL / 137
6.3.3 Processing / 138
6.3.4 R / 139
6.3.5 ECharts / 139
6.3.6 Wolfram Mathematica / 141
小結 / 141
習題 / 142
第7章 數(shù)據(jù)安全與隱私 / 143
7.1 大數(shù)據(jù)安全概述 / 143
7.1.1 大數(shù)據(jù)安全體系結構 / 148
7.1.2 大數(shù)據(jù)安全 / 150
7.2 數(shù)據(jù)安全協(xié)議 / 157
7.3 數(shù)據(jù)隱私 / 159
7.4 數(shù)據(jù)信息共享與隱私信息融合 / 160
7.5 云環(huán)境下的大數(shù)據(jù)安全與隱私保護 / 163
小結 / 165
習題 / 165
第8章 大數(shù)據(jù)應用 / 166
8.1 互聯(lián)網(wǎng)商業(yè)應用 / 166
8.1.1 用戶畫像 / 166
8.1.2 大數(shù)據(jù)精準營銷 / 169
8.1.3 互聯(lián)網(wǎng)金融 / 171
8.2 行業(yè)大數(shù)據(jù) / 173
8.2.1 教育大數(shù)據(jù) / 173
8.2.2 電力大數(shù)據(jù) / 174
8.2.3 醫(yī)療大數(shù)據(jù) / 177
8.3 人工智能應用 / 179
8.3.1 語音識別和機器翻譯 / 179
8.3.2 共享經(jīng)濟 / 180
8.3.3 智慧城市 / 183
小結 / 187
習題 / 188
第9章 數(shù)據(jù)思維 / 189
9.1 大數(shù)據(jù)時代的挑戰(zhàn) / 189
9.2 大數(shù)據(jù)時代的思維變革 / 194
9.2.1 第四范式 / 194
9.2.2 數(shù)據(jù)的混雜性 / 195
9.2.3 樣本與總體 / 196
9.2.4 數(shù)據(jù)的相關關系與因果關系 / 197
9.2.5 大數(shù)據(jù)與幸存者偏差 / 198
9.3 大數(shù)據(jù)激發(fā)創(chuàng)造力 / 199
9.3.1 大數(shù)據(jù)預測電影票房 / 199
9.3.2 利用大數(shù)據(jù)治理紐約 / 200
9.3.3 大數(shù)據(jù)助力總統(tǒng)競選 / 202
9.4 數(shù)據(jù)科學展望 / 204
9.4.1 開放數(shù)據(jù)運動 / 204
9.4.2 數(shù)據(jù)科學家所需的專業(yè)技能 / 206
9.4.3 數(shù)據(jù)科學的發(fā)展前景 / 208
小結 210
習題 210
參考文獻 / 211