大數(shù)據(jù)技術(shù)與應(yīng)用
定 價:79 元
- 作者:趙亮 等
- 出版時間:2023/4/1
- ISBN:9787121453083
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:348
- 紙張:
- 版次:01
- 開本:16開
“大數(shù)據(jù)技術(shù)與應(yīng)用”是一門大數(shù)據(jù)知識入門課程,是數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)、計算機科學與技術(shù)、軟件工程等專業(yè)的重要前沿理論課程,對于信息類專業(yè)的學生掌握大數(shù)據(jù)相關(guān)理論知識并與企業(yè)工程實踐接軌具有十分重要的作用。本書共包含9章,第1章為初識大數(shù)據(jù),第2章為大數(shù)據(jù)采集,第3章為大數(shù)據(jù)預處理,第4章為大數(shù)據(jù)存儲,第5章為大數(shù)據(jù)計算,第6章為大數(shù)據(jù)挖掘,第7章為大數(shù)據(jù)安全,第8章為大數(shù)據(jù)可視化,第9章為大數(shù)據(jù)應(yīng)用案例。本書以大數(shù)據(jù)生命周期為主線,通過理論學習+應(yīng)用案例,使學生參與到大數(shù)據(jù)實際處理、分析中來,有利于學生深入理解大數(shù)據(jù)技術(shù)、綜合應(yīng)用大數(shù)據(jù)技術(shù)和面向產(chǎn)業(yè)實踐大數(shù)據(jù)技術(shù)。本書可作為本科院校相關(guān)專業(yè)課程的教材,也可供相關(guān)技術(shù)人員參考。
趙亮,博士,大連理工大學控制科學與工程學院副教授,碩士生導師。從事工業(yè)互聯(lián)網(wǎng)、智能控制及建筑能源系統(tǒng)信息化等方面的研究,IEC國際標委會委員,遼寧省優(yōu)秀博士學位論文獲得者,英國Staffordshire University訪問學者。負責國家自然科學基金項目1項、國家工信部綠色制造系統(tǒng)集成項目1項、遼寧省科技創(chuàng)新重大專項項目1項,負責企業(yè)委托開發(fā)項目多項,參與國家863重點項目、國家科技支撐項目1項、國家自然科學基金項目等多項,獲日內(nèi)瓦國際發(fā)明金獎1項、遼寧省科技進步三等獎1項,獲得專利2項,軟件著作權(quán)登記5項,發(fā)表論文50余篇。
第1章 初識大數(shù)據(jù) 1
1.1 大數(shù)據(jù)的概述 1
1.1.1 大數(shù)據(jù)時代的背景及定義 1
1.1.2 大數(shù)據(jù)的特征 3
1.1.3 大數(shù)據(jù)的數(shù)據(jù)類型 4
1.2 大數(shù)據(jù)的發(fā)展 6
1.2.1 大數(shù)據(jù)概念的發(fā)展 6
1.2.2 大數(shù)據(jù)技術(shù)的發(fā)展 8
1.3 大數(shù)據(jù)的關(guān)鍵技術(shù) 9
1.3.1 大數(shù)據(jù)采集 9
1.3.2 大數(shù)據(jù)預處理 10
1.3.3 大數(shù)據(jù)存儲 10
1.3.4 大數(shù)據(jù)計算 12
1.3.5 大數(shù)據(jù)挖掘 13
1.3.6 大數(shù)據(jù)安全 14
1.3.7 大數(shù)據(jù)可視化 16
1.4 大數(shù)據(jù)的應(yīng)用案例 17
1.4.1 大數(shù)據(jù)在金融領(lǐng)域中的應(yīng)用 17
1.4.2 大數(shù)據(jù)在醫(yī)療領(lǐng)域中的應(yīng)用 17
1.4.3 大數(shù)據(jù)在交通領(lǐng)域中的應(yīng)用 18
1.4.4 大數(shù)據(jù)在土地資源領(lǐng)域中的應(yīng)用 19
1.4.5 大數(shù)據(jù)的其他應(yīng)用 19
1.5 大數(shù)據(jù)面臨的挑戰(zhàn) 20
1.5.1 數(shù)據(jù)隱私和安全 20
1.5.2 數(shù)據(jù)存儲和處理 20
1.5.3 數(shù)據(jù)共享機制 20
1.5.4 價值挖掘問題 21
1.5.5 其他挑戰(zhàn) 21
1.6 大數(shù)據(jù)的發(fā)展趨勢 22
思考題 24
第2章 大數(shù)據(jù)采集 25
2.1 大數(shù)據(jù)采集的基礎(chǔ) 25
2.1.1 傳統(tǒng)數(shù)據(jù)采集 25
2.1.2 大數(shù)據(jù)采集的概述 26
2.2 大數(shù)據(jù)采集的架構(gòu) 27
2.2.1 Scribe 28
2.2.2 Chukwa 29
2.2.3 Kafka 30
2.2.4 Flume 35
2.3 互聯(lián)網(wǎng)數(shù)據(jù)抓取與處理技術(shù) 37
2.3.1 App端數(shù)據(jù)采集 38
2.3.2 網(wǎng)絡(luò)爬蟲 39
2.3.3 常用的網(wǎng)絡(luò)爬蟲方法 43
2.3.4 文本數(shù)據(jù)處理 48
思考題 56
第3章 大數(shù)據(jù)預處理 57
3.1 數(shù)據(jù)基礎(chǔ)的概念 57
3.1.1 數(shù)據(jù)對象與屬性類型 57
3.1.2 數(shù)據(jù)的統(tǒng)計描述 58
3.1.3 數(shù)據(jù)相似性和相異性的度量方法 62
3.2 數(shù)據(jù)預處理的概述 65
3.2.1 數(shù)據(jù)質(zhì)量 66
3.2.2 主要任務(wù) 66
3.3 數(shù)據(jù)清洗 67
3.3.1 缺失值處理 67
3.3.2 光滑噪聲數(shù)據(jù)處理 68
3.3.3 檢測偏差與糾正偏差 70
3.4 數(shù)據(jù)集成 70
3.4.1 模式識別和對象匹配 71
3.4.2 冗余問題 71
3.4.3 元組重復 73
3.4.4 數(shù)據(jù)值沖突的檢測與處理 73
3.5 數(shù)據(jù)規(guī)約 74
3.5.1 離散小波變換 74
3.5.2 主成分分析 75
3.5.3 屬性子集選擇 75
3.5.4 回歸和對數(shù)線性模型 76
3.5.5 直方圖 77
3.5.6 聚類 78
3.5.7 抽樣 78
3.5.8 數(shù)據(jù)立方體聚集 79
3.6 數(shù)據(jù)轉(zhuǎn)換 80
3.6.1 通過規(guī)范化變換數(shù)據(jù) 81
3.6.2 通過離散化變換數(shù)據(jù) 82
3.6.3 標稱數(shù)據(jù)的概念分層變換 83
思考題 84
第4章 大數(shù)據(jù)存儲 85
4.1 HDFS 85
4.1.1 HDFS的概述 85
4.1.2 HDFS的相關(guān)概念 88
4.1.3 HDFS的體系結(jié)構(gòu) 91
4.1.4 HDFS的存儲原理 93
4.1.5 HDFS的數(shù)據(jù)讀/寫過程 96
4.2 分布式數(shù)據(jù)庫HBase 98
4.2.1 概述 98
4.2.2 HBase訪問接口 100
4.2.3 HBase列族數(shù)據(jù)模型 101
4.2.4 HBase的實現(xiàn) 106
4.2.5 HBase的運行機制 110
4.3 NoSQL 114
4.3.1 NoSQL的簡介 114
4.3.2 NoSQL的三大基石 118
思考題 122
第5章 大數(shù)據(jù)計算 123
5.1 批處理計算 123
5.1.1 MapReduce的概述 124
5.1.2 Map和Reduce 124
5.1.3 MapReduce的工作流程 125
5.1.4 MapReduce實例 129
5.2 流計算 133
5.2.1 流計算的概述 133
5.2.2 Storm 134
5.2.3 增量算法 136
5.3 圖計算 137
5.3.1 圖計算的概述 137
5.3.2 Pregel 138
5.4 查詢分析計算 141
5.5 云計算 143
5.5.1 云計算的概述 143
5.5.2 云計算的關(guān)鍵技術(shù) 144
5.5.3 云計算與大數(shù)據(jù) 145
5.6 大數(shù)據(jù)計算平臺 146
5.6.1 Hadoop 146
5.6.2 Spark 154
思考題 160
第6章 大數(shù)據(jù)挖掘 162
6.1 數(shù)據(jù)挖掘的基礎(chǔ) 162
6.1.1 數(shù)據(jù)挖掘的概述 162
6.1.2 數(shù)據(jù)挖掘的主要任務(wù) 164
6.1.3 數(shù)據(jù)挖掘的對象 168
6.1.4 數(shù)據(jù)挖掘的工具 168
6.2 聚類分析 171
6.2.1 聚類分析的概述 171
6.2.2 基于劃分的聚類算法 174
6.2.3 基于層次的聚類算法 183
6.2.4 基于密度的聚類算法 190
6.2.5 基于模型的聚類算法 194
6.3 分類分析 195
6.3.1 分類的基礎(chǔ)知識 195
6.3.2 決策樹分類 197
6.3.3 最近鄰分類器 202
6.3.4 貝葉斯分類器 204
6.3.5 支持向量機預測 205
6.3.6 神經(jīng)網(wǎng)絡(luò)預測 214
6.4 回歸分析 220
6.4.1 回歸分析的概述 220
6.4.2 線性回歸模型 221
6.4.3 支持向量回歸模型 223
6.4.4 邏輯回歸模型 225
6.5 關(guān)聯(lián)分析 227
6.5.1 關(guān)聯(lián)分析的概述 228
6.5.2 Apriori算法 230
6.5.3 FP增長算法 235