Hadoop大數(shù)據(jù)平臺(tái)搭建與應(yīng)用(工作手冊式)(微課版)
定 價(jià):55 元
叢書名:高等職業(yè)教育大數(shù)據(jù)工程技術(shù)系列教材
- 作者:時(shí)東曉
- 出版時(shí)間:2023/8/1
- ISBN:9787121461446
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:272
- 紙張:
- 版次:01
- 開本:16開
本書為高等職業(yè)教育計(jì)算機(jī)類新形態(tài)——工作手冊式教材,內(nèi)容包括基礎(chǔ)環(huán)境的搭建與配置,Hadoop完全分布式集群的搭建與運(yùn)行,Hadoop 核心組件的應(yīng)用案例,Hive 組件的安裝、配置與應(yīng)用,ZooKeeper的安裝、配置與應(yīng)用,HBase 的安裝、配置與應(yīng)用,Sqoop 組件的安裝、配置與應(yīng)用,F(xiàn)lume 組件的安裝、配置與應(yīng)用,Kafka 的安裝、配置與應(yīng)用,Spark 的安裝、配置與應(yīng)用,廣電大數(shù)據(jù)用戶畫像。本書采用項(xiàng)目式設(shè)計(jì),以項(xiàng)目學(xué)習(xí)目標(biāo)、任務(wù)描述、任務(wù)分析和任務(wù)實(shí)施作為立體化工作指南。本書由校企聯(lián)合開發(fā),融合了大數(shù)據(jù)平臺(tái)運(yùn)維的“1+X”技能考證、大數(shù)據(jù)運(yùn)維工程師崗位證書考試等內(nèi)容,從實(shí)用出發(fā),通俗易懂,難度適宜,便于開展理論實(shí)踐一體化、崗課賽證融通教學(xué)。本書配有電子教學(xué)課件、微課視頻、項(xiàng)目素材(代碼和數(shù)據(jù)等)和考試題庫等數(shù)字資源。
時(shí)東曉,男,1967年3月出生,中共黨員,1987年7月畢業(yè)于西安電子科技大學(xué)計(jì)算機(jī)工程專業(yè),獲工學(xué)學(xué)士學(xué)位,武漢大學(xué)軟件工程碩士。1998年6月評(píng)聘為高級(jí)工程師,工信部認(rèn)證CIO,信息安全工程師(高級(jí)),具有豐富的行業(yè)企業(yè)實(shí)踐經(jīng)驗(yàn)和職業(yè)教育教學(xué)經(jīng)驗(yàn)。
項(xiàng)目1 基礎(chǔ)環(huán)境的搭建與配置 1
任務(wù)1.1 搭建虛擬機(jī) 2
1.1.1 安裝虛擬機(jī)軟件 2
1.1.2 安裝master節(jié)點(diǎn)虛擬機(jī) 4
1.1.3 配置master節(jié)點(diǎn)的網(wǎng)絡(luò) 7
1.1.4 克隆slave節(jié)點(diǎn) 10
任務(wù)1.2 配置連接工具 13
1.2.1 測試Windows操作系統(tǒng)連接虛擬機(jī) 14
1.2.2 使用Xshell工具 15
1.2.3 使用Xftp工具 18
任務(wù)1.3 配置Hadoop平臺(tái)基礎(chǔ)環(huán)境 20
1.3.1 設(shè)置服務(wù)器的主機(jī)名 20
1.3.2 關(guān)閉并禁用防火墻 21
1.3.3 修改主機(jī)IP地址映射文件 23
1.3.4 配置SSH免密登錄 24
1.3.5 設(shè)置集群時(shí)間同步 29
1.3.6 安裝Java環(huán)境 32
項(xiàng)目總結(jié) 35
項(xiàng)目2 Hadoop完全分布式的搭建與運(yùn)行 36
任務(wù)2.1 搭建Hadoop完全分布式集群 37
任務(wù)2.2 運(yùn)行Hadoop集群 46
2.2.1 格式化NameNode 46
2.2.2 啟動(dòng)和關(guān)閉Hadoop集群 47
2.2.3 使用瀏覽器查看節(jié)點(diǎn)狀態(tài) 49
項(xiàng)目總結(jié) 50
項(xiàng)目3 Hadoop核心組件的應(yīng)用案例 51
任務(wù)3.1 Hadoop Java API讀取序列化日志文件 51
3.1.1 配置開發(fā)環(huán)境 52
3.1.2 創(chuàng)建Maven工程 55
3.1.3 讀取序列化文件 57
任務(wù)3.2 預(yù)測M電影網(wǎng)站用戶性別 60
3.2.1 獲取數(shù)據(jù) 61
3.2.2 數(shù)據(jù)變換 62
3.2.3 數(shù)據(jù)清洗 77
3.2.4 劃分?jǐn)?shù)據(jù)集 79
3.2.5 實(shí)現(xiàn)用戶性別聚類 83
項(xiàng)目總結(jié) 91
項(xiàng)目4 Hive組件的安裝、配置與應(yīng)用 92
任務(wù)4.1 安裝與配置MySQL數(shù)據(jù)庫 93
4.1.1 安裝MySQL數(shù)據(jù)庫 93
4.1.2 配置MySQL數(shù)據(jù)庫 96
任務(wù)4.2 安裝與配置Hive組件 99
4.2.1 安裝Hive組件 99
4.2.2 配置Hive環(huán)境 101
4.2.3 初始化Hive數(shù)據(jù)庫 103
任務(wù)4.3 Hive Shell的基本操作 104
4.3.1 啟動(dòng)Hive 105
4.3.2 操作Hive數(shù)據(jù)庫 105
4.3.3 操作Hive內(nèi)部表 106
任務(wù)4.4 統(tǒng)計(jì)分析餐飲數(shù)據(jù) 110
4.4.1 數(shù)據(jù)說明 110
4.4.2 創(chuàng)建表并導(dǎo)入數(shù)據(jù) 111
4.4.3 統(tǒng)計(jì)分析任務(wù)實(shí)現(xiàn) 112
項(xiàng)目總結(jié) 117
項(xiàng)目5 ZooKeeper的安裝、配置與應(yīng)用 118
任務(wù)5.1 分布式搭建部署與管理ZooKeeper 119
5.1.1 在master節(jié)點(diǎn)上安裝ZooKeeper組件 119
5.1.2 在master節(jié)點(diǎn)上配置ZooKeeper組件 121
5.1.3 在slave節(jié)點(diǎn)上安裝與配置ZooKeeper組件 122
5.1.4 管理ZooKeeper服務(wù) 123
任務(wù)5.2 監(jiān)控服務(wù)器上下線動(dòng)態(tài) 124
5.2.1 創(chuàng)建Maven工程并連接ZooKeeper集群 125
5.2.2 任務(wù)實(shí)現(xiàn) 125
項(xiàng)目總結(jié) 128
項(xiàng)目6 HBase的安裝、配置與應(yīng)用 129
任務(wù)6.1 安裝與配置HBase 130
6.1.1 在master節(jié)點(diǎn)上安裝HBase組件 130
6.1.2 在master節(jié)點(diǎn)上修改配置文件 132
6.1.3 在slave節(jié)點(diǎn)上安裝HBase組件 134
6.1.4 啟動(dòng)HBase集群 134
任務(wù)6.2 HBase Shell的基本操作 136
6.2.1 應(yīng)用HBase Shell 136
6.2.2 操作HBase表 138
6.2.3 操作HBase數(shù)據(jù) 139
任務(wù)6.3 設(shè)計(jì)手游信息的數(shù)據(jù)存儲(chǔ) 141
6.3.1 設(shè)計(jì)表結(jié)構(gòu) 142
6.3.2 創(chuàng)建表結(jié)構(gòu) 142
6.3.3 設(shè)計(jì)業(yè)務(wù)邏輯 147
項(xiàng)目總結(jié) 156
項(xiàng)目7 Sqoop組件的安裝、配置與應(yīng)用 157
任務(wù)7.1 安裝與配置Sqoop組件 158
7.1.1 安裝Sqoop組件 158
7.1.2 修改Sqoop組件配置文件 160
7.1.3 測試Sqoop組件的安裝情況 161
任務(wù)7.2 Sqoop組件的導(dǎo)入與導(dǎo)出應(yīng)用操作 162
7.2.1 準(zhǔn)備MySQL數(shù)據(jù)庫數(shù)據(jù) 162
7.2.2 在Hive中準(zhǔn)備表 163
7.2.3 將MySQL數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入Hive 164
7.2.4 將MySQL數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入HDFS 165
7.2.5 從Hive中導(dǎo)出數(shù)據(jù)至MySQL數(shù)據(jù)庫 168
任務(wù)7.3 查詢與傳輸用戶日志數(shù)據(jù) 170
7.3.1 查詢MySQL數(shù)據(jù)庫的用戶日志數(shù)據(jù)表中的記錄數(shù) 170
7.3.2 增量導(dǎo)入MySQL數(shù)據(jù)庫中的用戶日志數(shù)據(jù)至Hive 171
7.3.3 導(dǎo)出Hive中的瀏覽信息篩選結(jié)果至MySQL數(shù)據(jù)庫 172
項(xiàng)目總結(jié) 173
項(xiàng)目8 Flume組件的安裝、配置與應(yīng)用 174
任務(wù)8.1 安裝與配置Flume組件 175
8.1.1 安裝Flume組件 175
8.1.2 配置Flume組件 177
8.1.3 創(chuàng)建代理配置文件 178
8.1.4 啟動(dòng)Flume并傳輸數(shù)據(jù) 179
8.1.5 查看Flume傳輸?shù)奈募䲠?shù)據(jù) 179
任務(wù)8.2 廣告日志數(shù)據(jù)采集系統(tǒng) 180
8.2.1 采集系統(tǒng)日志數(shù)據(jù) 182
8.2.2 采集廣告曝光日志數(shù)據(jù) 183
項(xiàng)目總結(jié) 186
項(xiàng)目9 Kafka的安裝、配置與應(yīng)用 187
任務(wù)9.1 安裝與配置Kafka 188
9.1.1 在master節(jié)點(diǎn)上安裝與配置Kafka組件 188
9.1.2 在slave節(jié)點(diǎn)上安裝Kafka組件 190
9.1.3 管理Kafka服務(wù) 191
9.1.4 演示Kafka分布式發(fā)布訂閱消息 192
任務(wù)9.2 實(shí)時(shí)傳輸廣告日志數(shù)據(jù) 194
9.2.1 創(chuàng)建腳本文件 194
9.2.2 創(chuàng)建Kafka主題 196
9.2.3 Flume采集日志 196
項(xiàng)目總結(jié) 198
項(xiàng)目10 Spark的安裝、配置與應(yīng)用 199
任務(wù)10.1 安裝與配置Scala 200
10.1.1 在master節(jié)點(diǎn)上安裝Scala 200
10.1.2 在slave節(jié)點(diǎn)上安裝Scala 202
10.1.3 測試Scala的安裝情況 202
任務(wù)10.2 安裝與配置Spark組件 203
10.2.1 在master節(jié)點(diǎn)上安裝Spark組件 203
10.2.2 修改Spark配置文件 205
10.2.3 在slave節(jié)點(diǎn)上安裝Spark組件 206
10.2.4 運(yùn)行Spark集群 206
任務(wù)10.3 應(yīng)用舉例spark-shell 208
10.3.1 上傳數(shù)據(jù)文件 208
10.3.2 運(yùn)行spark-shell單詞統(tǒng)計(jì)程序 209
任務(wù)10.4 聚類分析超市客戶 212
10.4.1 安裝Scala插件 212
10.4.2 配置Spark運(yùn)行環(huán)境 214
10.4.3 探索數(shù)據(jù)與構(gòu)建特征 217
10.4.4 保存數(shù)據(jù)至Hive 221
10.4.5 構(gòu)建K-means聚類模型 221
項(xiàng)目總結(jié) 224
項(xiàng)目11 廣電大數(shù)據(jù)用戶畫像 225
任務(wù)11.1 說明與存儲(chǔ)數(shù)據(jù) 225
任務(wù)11.2 數(shù)據(jù)探索與數(shù)據(jù)預(yù)處理 231
11.2.1 總體概述 232
11.2.2 探索異常數(shù)據(jù) 234
11.2.3 探索主要業(yè)務(wù)數(shù)據(jù) 236
11.2.4 探索標(biāo)簽閾值 239
11.2.5 數(shù)據(jù)預(yù)處理 245
任務(wù)11.3 構(gòu)建SVM預(yù)測模型與用戶畫像 250
11.3.1 構(gòu)建特征列和標(biāo)簽列數(shù)據(jù) 250
11.3.2 構(gòu)建SVM模型、評(píng)價(jià)模型效果并預(yù)測用戶是否挽留 253
11.3.3 構(gòu)建用戶畫像 255
項(xiàng)目總結(jié) 261
附錄A 選用組件版本列表 262