大數(shù)據(jù)技術(shù)基礎(chǔ)與實(shí)戰(zhàn)
定 價(jià):59.8 元
叢書名:高等學(xué)校信息技術(shù)人才能力培養(yǎng)系列教材
- 作者:薛志東 張雙雙 盧?Z祥 等
- 出版時(shí)間:2021/9/1
- ISBN:9787115567192
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開本:128開
本書從技術(shù)實(shí)戰(zhàn)的角度,帶領(lǐng)讀者一步一步掌握大數(shù)據(jù)的相關(guān)技能。本書不僅提供相應(yīng)命令、配置文件,還提供模擬環(huán)境演示等,并盡可能通過(guò)案例和實(shí)操降低大數(shù)據(jù)學(xué)習(xí)的門檻,力求讓讀者學(xué)以致用。
本書主要內(nèi)容包括大數(shù)據(jù)技術(shù)概述、Linux基礎(chǔ)與集群搭建、Hadoop集群配置、HDFS、MapReduce分布式編程、Hive大數(shù)據(jù)倉(cāng)庫(kù)、HBase數(shù)據(jù)庫(kù)部署與操作、數(shù)據(jù)獲取與Flume應(yīng)用、基于Spark的內(nèi)存計(jì)算,以及利用大數(shù)據(jù)平臺(tái)處理圖像及視頻。
1.全書通過(guò)實(shí)踐操作講解大數(shù)據(jù)開發(fā)的基礎(chǔ)知識(shí),不僅提供相應(yīng)命令、配置文件,還提供模擬環(huán)境演示等,盡可能通過(guò)案例和實(shí)操,降低大數(shù)據(jù)學(xué)習(xí)的門檻,力求讓讀者學(xué)以致用。
2.內(nèi)容全:大數(shù)據(jù)技術(shù)概述、Linux基礎(chǔ)與集群搭建、Hadoop集群配置、Hadoop分布式文件系統(tǒng)、MapReduce分布式編程、Hive大數(shù)據(jù)倉(cāng)庫(kù)、HBase數(shù)據(jù)庫(kù)部署與操作、數(shù)據(jù)獲取與采集、基于Spark的內(nèi)存計(jì)算以及利用大數(shù)據(jù)平臺(tái)處理圖像及視頻
薛志東,博士,研究員,現(xiàn)在華中科技大學(xué)軟件學(xué)院工作,長(zhǎng)期從事大數(shù)據(jù)相關(guān)教學(xué)與科研工作。先后講授多門本科生、研究生課程,承擔(dān)多項(xiàng)國(guó)家自然科學(xué)基金、湖北省自然科學(xué)基金、華為技術(shù)公司委托等重要項(xiàng)目。目前的研究主要涉及大數(shù)據(jù)處理相關(guān)領(lǐng)域等,如基于云計(jì)算的圖像與視頻等信息處理技術(shù)、醫(yī)學(xué)與生物信息處理與分析、文本挖掘、深度學(xué)習(xí)、GPU開發(fā)等;同時(shí)對(duì)移動(dòng)應(yīng)用、康復(fù)游戲、無(wú)人機(jī)、機(jī)器人應(yīng)用軟件開發(fā)等有濃厚的興趣。
第1章 大數(shù)據(jù)技術(shù)概述 1
1.1 大數(shù)據(jù)的概念與基本特性 1
1.2 大數(shù)據(jù)處理流程 2
1.3 Hadoop大數(shù)據(jù)技術(shù) 3
1.3.1 Hadoop簡(jiǎn)介 3
1.3.2 Hadoop的發(fā)行版本 5
1.4 實(shí)踐環(huán)境準(zhǔn)備 7
習(xí)題 15
第2章 Linux基礎(chǔ)與集群搭建 16
2.1 Linux常用命令 16
2.1.1 用戶和用戶組 16
2.1.2 文件與目錄 18
2.1.3 主機(jī)名 24
2.1.4 分區(qū)管理 25
2.2 網(wǎng)絡(luò)配置 27
2.2.1 基本網(wǎng)絡(luò)配置 27
2.2.2 集群網(wǎng)絡(luò)配置 28
2.3 Linux集群配置 31
2.3.1 SSH免密碼登錄 31
2.3.2 Java環(huán)境安裝 33
2.3.3 MySQL服務(wù) 34
2.3.4 配置時(shí)鐘同步 35
2.4 快速配置Linux集群 37
2.4.1 導(dǎo)入虛擬機(jī) 37
2.4.2 快速配置 39
習(xí)題 42
第3章 Hadoop集群配置 43
3.1 Hadoop集群安裝 43
3.1.1 基礎(chǔ)環(huán)境準(zhǔn)備 43
3.1.2 配置Java環(huán)境 49
3.1.3 安裝Hadoop 51
3.1.4 啟動(dòng)Hadoop 58
3.2 Hadoop集群初始化和日志查看 62
3.2.1 初始化文件系統(tǒng) 62
3.2.2 集群的啟動(dòng)與停止 62
3.2.3 查看日志 63
習(xí)題 64
第4章 HDFS 65
4.1 HDFS簡(jiǎn)介 65
4.1.1 HDFS的基本概念 65
4.1.2 HDFS文件的讀取 66
4.1.3 HDFS文件的寫入 67
4.1.4 HDFS 數(shù)據(jù)備份 68
4.2 HDFS基本命令 69
4.3 HDFS數(shù)據(jù)平衡優(yōu)化 72
4.3.1 編程原則 73
4.3.2 平衡邏輯 73
4.3.3 數(shù)據(jù)平衡案例 74
4.4 HDFS API的使用方法 75
習(xí)題 81
第5章 MapReduce分布式編程
82
5.1 MapReduce簡(jiǎn)介 82
5.2 詞頻統(tǒng)計(jì)編程實(shí)例 83
5.3 MapReduce Shuffle過(guò)程開發(fā) 89
5.3.1 MapReduce數(shù)據(jù)類型 90
5.3.2 Partitioner負(fù)載平衡編程 90
5.3.3 Sort排序編程 92
5.3.4 Combiner減少中間數(shù)據(jù)編程 93
5.4 MapReduce的性能優(yōu)化 94
5.4.1 Hadoop配置參數(shù)調(diào)優(yōu) 94
5.4.2 使用合適的數(shù)據(jù)類型 95
5.4.3 基準(zhǔn)性能測(cè)試工具 96
5.5 YARN數(shù)據(jù)處理框架 99
5.5.1 YARN常用命令 100
5.5.2 使用Web GUI監(jiān)控實(shí)例 102
5.6 MapReduce實(shí)戰(zhàn):繪制頻度分布 104
5.6.1 實(shí)戰(zhàn)概述 104
5.6.2 實(shí)戰(zhàn)步驟 104
5.6.3 源碼分析 109
習(xí)題 114
第6章 Hive大數(shù)據(jù)倉(cāng)庫(kù) 115
6.1 Hive簡(jiǎn)介 115
6.2 Hive安裝及配置 116
6.3 從創(chuàng)建數(shù)據(jù)庫(kù)到創(chuàng)建表 118
6.3.1 數(shù)據(jù)類型 118
6.3.2 創(chuàng)建數(shù)據(jù)庫(kù) 119
6.3.3 創(chuàng)建表 119
6.3.4 刪除表 121
6.3.5 修改表 121
6.4 數(shù)據(jù)查詢及自定義函數(shù)運(yùn)算 123
6.4.1 HiveQL操作 123
6.4.2 JOIN語(yǔ)句 124
6.4.3 內(nèi)置操作符和函數(shù) 125
6.5 Hive自定義函數(shù)編程 128
6.5.1 數(shù)據(jù)準(zhǔn)備 128
6.5.2 編程實(shí)現(xiàn) 129
6.5.3 使用自定義函數(shù) 130
6.6 Hive實(shí)戰(zhàn) 132
6.6.1 數(shù)據(jù)準(zhǔn)備 133
6.6.2 實(shí)戰(zhàn)步驟 133
習(xí)題 136
第7章 HBase數(shù)據(jù)庫(kù)部署與操作
138
7.1 HBase簡(jiǎn)介 138
7.1.1 HBase表 138
7.1.2 HBase基本知識(shí) 138
7.2 HBase的安裝 139
7.2.1 必要條件 139
7.2.2 安裝配置HBase 140
7.2.3 啟動(dòng)HBase 142
7.3 HBase Shell操作 143
7.3.1 普通命令 145
7.3.2 DDL操作 146
7.3.3 DML操作 148
7.3.4 工具命令 150
7.3.5 復(fù)制命令 151
7.4 HBase客戶端API 151
7.4.1 CRUD操作 151
7.4.2 批量處理 155
7.4.3 行鎖 156
7.4.4 掃描 157
7.4.5 數(shù)據(jù)過(guò)濾 158
7.5 HBase客戶端選擇及配置優(yōu)化 159
7.6 HBase與MapReduce集成 159
7.7 HBase集群監(jiān)控 160
7.8 HBase實(shí)戰(zhàn):公有云網(wǎng)盤系統(tǒng)管理 164
7.8.1 部署公有云網(wǎng)盤 165
7.8.2 網(wǎng)盤核心代碼分析 168
習(xí)題 171
第8章 數(shù)據(jù)獲取與Flume應(yīng)用 172
8.1 公開數(shù)據(jù)資源獲取 172
8.2 使用網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù) 173
8.2.1 爬蟲的工作原理 173
8.2.2 爬蟲的搜索策略 174
8.2.3 爬蟲的簡(jiǎn)單應(yīng)用 175
8.3 使用Flume獲取數(shù)據(jù) 177
8.3.1 Flume簡(jiǎn)介 177
8.3.2 Flume運(yùn)行機(jī)制 177
8.3.3 Flume安裝部署 179
8.3.4 Flume簡(jiǎn)單應(yīng)用 180
8.4 綜合案例 182
習(xí)題 186
第9章 基于Spark的內(nèi)存計(jì)算 187
9.1 Spark簡(jiǎn)介 187
9.2 Spark快速部署 188
9.2.1 Spark單機(jī)模式部署 188
9.2.2 Spark分布式集群部署 189
9.3 Spark程序 192
9.3.1 Spark Shell 192
9.3.2 在IDEA中編寫詞頻統(tǒng)計(jì) 193
9.4 Spark RDD編程 197
9.4.1 RDD簡(jiǎn)介 197
9.4.2 RDD的操作算子 198
9.4.3 RDD的持久化 204
9.5 Spark生態(tài)系統(tǒng) 205
9.5.1 Spark Core 206
9.5.2 Spark SQL 206
9.5.3 Spark Streaming 206
9.5.4 MLlib 206
9.5.5 GraphX 207
9.6 Spark應(yīng)用案例 207
9.6.1 案例概述 207
9.6.2 代碼實(shí)現(xiàn) 208
9.6.3 運(yùn)行結(jié)果 208
習(xí)題 209
第10章 利用大數(shù)據(jù)平臺(tái)處理圖像
210
10.1 圖像的基本概念 210
10.2 Hadoop處理圖像的問(wèn)題與對(duì)策 211
10.2.1 Hadoop直接處理圖像存在
的問(wèn)題 211
10.2.2 解決途徑 212
10.3 HIPI安裝與部署 212
10.4 使用HIPI進(jìn)行圖像處理 214
10.5 HIPI工具h(yuǎn)ibDownload 222
10.5.1 編譯hibDownload 222
10.5.2 hibDownload的使用方法 222
10.5.3 hibDownload的工作原理 222
10.5.4 hibDownload的使用示例 230
習(xí)題 235
參考文獻(xiàn) 236