大數(shù)據(jù)技術(shù)科普3——大數(shù)據(jù)分析與挖掘
定 價:27 元
叢書名:大數(shù)據(jù)技術(shù)系列叢書
- 作者:程愷
- 出版時間:2023/4/1
- ISBN:9787560667836
- 出 版 社:西安電子科技大學出版社
- 中圖法分類:TP274-49
- 頁碼:108
- 紙張:
- 版次:1
- 開本:16開
本書是大數(shù)據(jù)分析技術(shù)的入門圖書,內(nèi)容分為大數(shù)據(jù)分析與挖掘概述、Spark SQL結(jié)構(gòu)化數(shù)據(jù)分析與處理、Spark Streaming流數(shù)據(jù)分析與處理、Spark GraphX圖數(shù)據(jù)分析與處理、Spark MLlib機器學習和大數(shù)據(jù)分析系統(tǒng)等6章。通過每章的章節(jié)導讀,讀者能夠快速了解本章相關(guān)內(nèi)容的背景意義;通過相關(guān)理論及概念的介紹,讀者能夠?qū)Υ髷?shù)據(jù)分析的基本方法有整體認識和了解;通過典型案例的講解,讀者能夠?qū)Υ髷?shù)據(jù)分析技術(shù)的應用有深刻認識。本書既注重基礎知識也關(guān)注前沿問題,通過知識鏈接、小貼士等板塊補充相關(guān)前沿知識內(nèi)容。
本書可作為數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)人員的入門讀物,也可作為相關(guān)職業(yè)教育課程的參考書,還可作為大數(shù)據(jù)技術(shù)應用的愛好者以及各領(lǐng)域大數(shù)據(jù)建設、管理和運用者的參考書。
近年來科學技術(shù)的發(fā)展和普及促進了各領(lǐng)域的不斷發(fā)展,各學科均出現(xiàn)了相互交融的現(xiàn)象。在這種背景下,數(shù)據(jù)正在從傳統(tǒng)的結(jié)構(gòu)化模式向著半結(jié)構(gòu)化以及非結(jié)構(gòu)化模式的方向轉(zhuǎn)換,從以往作為常規(guī)的處理對象逐漸發(fā)展成為各行業(yè)領(lǐng)域具有戰(zhàn)略性的基礎資源。如何有效地處理這些海量的數(shù)據(jù)資源,發(fā)現(xiàn)其蘊藏的知識規(guī)律,需要大數(shù)據(jù)處理技術(shù)的支持。Spark作為新興的、應用范圍廣泛的大數(shù)據(jù)處理開源框架,可以從海量數(shù)據(jù)中找到值得參考的模式或規(guī)則,轉(zhuǎn)換成有價值的知識,并創(chuàng)造更多新價值,從而吸引大量的大數(shù)據(jù)分析與挖掘從業(yè)人員進行相關(guān)內(nèi)容的學習與開發(fā)。
本書結(jié)合Spark框架,較為全面地介紹了大數(shù)據(jù)分析與挖掘的相關(guān)知識,內(nèi)容涵蓋大數(shù)據(jù)分析與挖掘概述、Spark SQL結(jié)構(gòu)化數(shù)據(jù)分析與處理、Spark Streaming流數(shù)據(jù)分析與處理、Spark GraphX圖數(shù)據(jù)分析與處理、Spark MLlib機器學習和大數(shù)據(jù)分析系統(tǒng)。本書旨在通過通俗易懂的方式將復雜的大數(shù)據(jù)分析問題講明白,幫助讀者了解并掌握最新的大數(shù)據(jù)分析處理技術(shù)。
本書具有以下特點:
(1) 條理清晰,模塊豐富,內(nèi)容極具特色。
本書從“簡單、易懂、實用、有效”出發(fā),以素質(zhì)為核心,以能力為本位,注重知識和技能的實際靈活應用。本書在內(nèi)容的編寫上設置了“章節(jié)導讀”“學習目標”“思政目標”“知識鏈接”“課后思考”等模塊,逐步引導讀者更好地掌握知識內(nèi)容。
(2) 注重實用性、技能性和應用性。
本書精選前沿大數(shù)據(jù)分析技術(shù),力求知識新穎、案例豐富鮮活,同時配備豐富的教輔資源,理論與實踐相結(jié)合,提升解決問題的能力,突出實用性、技能性和應用性。
(3) 理論為主,案例為輔,通俗易懂。
本書以基本理論介紹為主,輔以示例,講解細致直觀,抓住核心問題,力求將復雜的大數(shù)據(jù)分析技術(shù)方法以通俗易懂的方式講明白。
在編寫本書的過程中,我們參考了相關(guān)資料,在此對相關(guān)文獻的作者表示衷心的感謝;同時,我們也得到了許多同行的支持與幫助,在此表示感謝。由于編者能力有限,書中難免存在一些不足,敬請廣大讀者批評和指正。
編 者
2023年1月
第1章 大數(shù)據(jù)分析與挖掘概述 1
1.1 大數(shù)據(jù)分析的計算模式 1
1. 批處理計算 2
2. 查詢分析計算 2
3. 流計算 2
4. 圖計算 3
5. 機器學習 3
1.2 認識大數(shù)據(jù)分析計算框架Spark 4
1. Spark簡介 4
2. Spark的特點 7
3. Spark與Hadoop MapReduce的對比 9
第2章 Spark SQL 結(jié)構(gòu)化數(shù)據(jù)分析與處理 13
2.1 Spark SQL簡介 13
1. Hive 13
2. Shark 17
2.2 DataFrame概述 20
1. DataFrame簡介 20
2. DataFrame與RDD的區(qū)別 22
2.3 DataFrame 的轉(zhuǎn)換 26
1. 寬依賴與窄依賴 26
2. DataFrame和Dataset以及RDD之間的相互轉(zhuǎn)換 27
第3章 Spark Streaming 流數(shù)據(jù)分析與處理 29
3.1 流計算概述 29
1. 靜態(tài)數(shù)據(jù)與流數(shù)據(jù) 29
2. 流計算的基本理念 31
3. 流計算框架 31
3.2 Spark Streaming 34
1. 工作原理 34
2. 數(shù)據(jù)抽象DStream 36
3. 性能調(diào)優(yōu) 41
4. 容錯處理 43
5. Spark Streaming與Storm的關(guān)系 44
3.3 Spark Structured Streaming 46
1. Spark Structured Streaming簡介 46
2. Spark Structured Streaming的特點 47
3. Spark Structured Streaming的數(shù)據(jù)模型 47
第4章 Spark GraphX 圖數(shù)據(jù)分析與處理 53
4.1 圖計算概述 53
1. 圖計算 53
2. 圖的表示 54
3. 圖的結(jié)構(gòu) 55
4. 圖處理技術(shù) 55
5. 圖處理工具 56
6. 圖計算應用 58
4.2 Spark GraphX 59
1. Spark GraphX概述 59
2. Spark GraphX模塊 60
3. Spark GraphX的發(fā)展歷程 61
4. Spark GraphX的整體架構(gòu) 61
第5章 Spark MLlib 機器學習 63
5.1 基于大數(shù)據(jù)的機器學習 63
1. 機器學習 63
2. 模型與算法的關(guān)系 66
3. 基于大數(shù)據(jù)的機器學習 66
4. 基于大數(shù)據(jù)的機器學習與傳統(tǒng)機器學習的區(qū)別 67
5. Spark對于機器學習的優(yōu)勢 67
5.2 Spark MLlib 69
1. Spark MLlib的特點 69
2. Spark MLlib的適用范圍 69
3. Spark MLlib庫 71
4. Spark ML庫 72
5.3 Spark中幾種典型的機器學習算法 74
1. 分類與預測 74
2. 邏輯回歸 75
3. 協(xié)同過濾 76
4. 聚類分析 78
第6章 大數(shù)據(jù)分析系統(tǒng) 80
6.1 大數(shù)據(jù)分析系統(tǒng)的背景與構(gòu)架 80
1. 大數(shù)據(jù)分析系統(tǒng)的背景 80
2. 應用架構(gòu) 81
6.2 業(yè)務實現(xiàn)與統(tǒng)計分析 82
1. 流量、性能的實時分析 82
2. 流量、性能的統(tǒng)計分析 84
3. 業(yè)務關(guān)聯(lián)分析 85
4. 離線報表分析 87
6.3 系統(tǒng)資源分析平臺 92
1. 應用架構(gòu) 92
2. 代碼實現(xiàn) 93
3. 結(jié)果驗證 95
6.4 在Spark上訓練LR模型 96
1. 數(shù)據(jù)格式 96
2. MLlib中LR模型源碼介紹 97
參考文獻 100