Spark大數(shù)據(jù)實時分析實戰(zhàn)
《Spark大數(shù)據(jù)實時分析實戰(zhàn)》分為六個項目,通過真實大數(shù)據(jù)實時分析項目的導(dǎo)入,引導(dǎo)讀者完成大數(shù)據(jù)實時分析平臺Spark的搭建,通過對基于Hadoop生態(tài)圈中Yarn資源調(diào)度框架,搭建Spark日志管理系統(tǒng),搭建Kafka分布式消息系統(tǒng),在工作中實現(xiàn)使用SparkStreaming實時讀取Kafka中的數(shù)據(jù)進行實時處理。
《Spark大數(shù)據(jù)實時分析實戰(zhàn)》適用于大數(shù)據(jù)技術(shù)與應(yīng)用、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)等電子信息類專業(yè)教學(xué)的教材,也可作為工程技術(shù)人員的參考書。
近年來,智能設(shè)備和智能應(yīng)用迅猛發(fā)展,極大地方便了人們的工作和日常生活,同時,也產(chǎn)生了大量的數(shù)據(jù)。這些應(yīng)用和服務(wù)的成功得益于大數(shù)據(jù)和日益完善的實時分析技術(shù)。大數(shù)據(jù)實時分析技術(shù)的出現(xiàn),可以對這些數(shù)據(jù)進行快速的分析,讓決策者能夠迅速地把握用戶的關(guān)鍵需求,并能夠及時響應(yīng)用戶的需求變化。未來幾年,將有數(shù)以億計的智能設(shè)備接人互聯(lián)網(wǎng),從智能手機、臺式機、汽車到智能家居,都會接入互聯(lián)網(wǎng)。未來的數(shù)據(jù)分析將對實時性要求越來越高。
針對大數(shù)據(jù)的迅猛發(fā)展,本書結(jié)合實際應(yīng)用案例,選用高性能的Spark技術(shù)作為大數(shù)據(jù)實時分析的工具,介紹了實時大數(shù)據(jù)分析的實現(xiàn)過程,為讀者提供了快速安裝、搭建大數(shù)據(jù)分析集群和進行實時數(shù)據(jù)分析所需的技術(shù)。
本書采用項目驅(qū)動的編寫方式,精心設(shè)計了6個項目,覆蓋了Spark大數(shù)據(jù)實時分析技術(shù)所涉及的基礎(chǔ)技術(shù)介紹、集群搭建,以及日志服務(wù)器搭建等知識技能點。書中深入淺出地介紹了Spark技術(shù)的基本原理、集群的構(gòu)建與安裝、基于Yam的Spark集群搭建、Spark日志服務(wù)器的搭建、Kafka集群的構(gòu)建與安裝,并通過案例對Kafka集群進行了測試。具體內(nèi)容為:
項目一從數(shù)據(jù)存儲技術(shù)、分析技術(shù)、批數(shù)據(jù)和實時數(shù)據(jù)等數(shù)據(jù)分析背景知識人手,介紹了實時數(shù)據(jù)處理的價值、Spark實時數(shù)據(jù)分析技術(shù)。
項目二通過具體的案例操作,詳細介紹了Spark集群規(guī)劃、安裝準備、集群搭建、驗證及客戶端應(yīng)用的搭建。
項目三通過案例介紹了基于Yarn的Spark集群的搭建、配置和驗證的方法。
項目四介紹了Spark日志服務(wù)器的配置及驗證日志服務(wù)器的方法。
項目五和項目六通過案例介紹了集群搭建、集群規(guī)劃、安裝配置,并對Kafka集群進行了測試。
本書由重慶電子工程職業(yè)學(xué)院付雯、聶強擔任主編,重慶電子工程職業(yè)學(xué)院武春嶺、李俊翰、王寧憶、李清蓮、譚博文及濰坊職業(yè)學(xué)院鄭偉擔任副主編,來自重慶課外島科技發(fā)展有限公司的文紅亞高級工程師也參與了本書的部分編寫工作。
項目一 初識Spark技術(shù)
任務(wù)1.1 數(shù)據(jù)處理系統(tǒng)
1.1.1 數(shù)據(jù)存儲技術(shù)
1.1.2 數(shù)據(jù)分析技術(shù)
1.1.3 批數(shù)據(jù)和實時數(shù)據(jù)
1.1.4 數(shù)據(jù)價值挖掘
任務(wù)1.2 實時數(shù)據(jù)處理
1.2.1 實時數(shù)據(jù)的價值
1.2.2 實時數(shù)據(jù)處理技術(shù)
1.2.3 Spark實時數(shù)據(jù)處理
項目二 Spark集群的構(gòu)建與安裝
任務(wù)2.1 Spark集群搭建
2.1.1 平臺選擇
2.1.2 軟件選擇
2.1.3 Spark集群構(gòu)建流程
任務(wù)2.2 Spark集群規(guī)劃
2.2.1 Spark集群節(jié)點劃分
2.2.2 軟件要求
2.2.3 網(wǎng)絡(luò)拓撲結(jié)構(gòu)規(guī)劃
任務(wù)2.3 Spark安裝準備
2.3.1 JDK安裝
2.3.2 節(jié)點間的配置
2.3.3 Spark安裝包下載
任務(wù)2.4 Spark集群搭建
2.4.1 配置Master節(jié)點
2.4.2 配置Worker節(jié)點
2.4.3 分發(fā)安裝包
2.4.4 啟動集群
任務(wù)2.5 驗證Spark
2.5.1 驗證Spark進程
2.5.2 驗證WEBUI界面
2.5.3 驗證集群功能
任務(wù)2.6 Spark客戶端搭建
2.6.1 客戶端介紹
2.6.2 客戶端搭建及使用
項目三 Spark基于Yarn搭建
任務(wù)3.1 基于Yarn構(gòu)建介紹
3.1.1 基于Yarn搭建環(huán)境配置
3.1.2 Hadoop集群
3.1.3 啟動Hadoop集群
3.1.4 驗證Hadoop集群節(jié)點
任務(wù)3.2 基于Yam搭建
3.2.1 節(jié)點劃分配置
3.2.2 配置Spark on Yarn
3.2.3 驗證Spark on Yarn
項目四 日志服務(wù)器搭建
任務(wù)4.1 日志服務(wù)器配置
4.1.1 HDFS配置
4.1.2 Spark配置
4.1.3 啟動日志服務(wù)器
4.1.4 查看日志
任務(wù)4.2 驗證日志服務(wù)器
4.2.1 Spark-Shell介紹
4.2.2 查看運行日志
4.2.3 啟動日志服務(wù)器
4.2.4 查看日志
……
項目五 Kafka集群的構(gòu)建與安裝
項目六 Kafka集群測試