定 價:88 元
叢書名:高級大數(shù)據(jù)人才培養(yǎng)叢書
- 作者:王朝霞
- 出版時間:2023/5/1
- ISBN:9787121455025
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:308
- 紙張:
- 版次:01
- 開本:16開
本書是《數(shù)據(jù)挖掘》的第2版,系統(tǒng)地介紹了數(shù)據(jù)挖掘的理論、方法與應(yīng)用,包括數(shù)據(jù)特征分析及預(yù)處理、經(jīng)典數(shù)據(jù)挖掘算法(分類、回歸、聚類、關(guān)聯(lián)規(guī)則和集成學(xué)習(xí)等)、大數(shù)據(jù)新常態(tài)下催生的數(shù)據(jù)分析方法(推薦系統(tǒng)、鏈接分析與網(wǎng)頁排序、互聯(lián)網(wǎng)信息抽取、日志挖掘與查詢分析等)理論與方法。在此基礎(chǔ)上,除第1章外,每章均有基于Python語言的實例應(yīng)用。
劉鵬:教授,清華大學(xué)博士,南京云創(chuàng)大數(shù)據(jù)科技股份有限公司總裁,中國大數(shù)據(jù)應(yīng)用聯(lián)盟人工智能專家委員會主任,中國信息協(xié)會教育分會人工智能教育專家委員會主任,教育部全國普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)指導(dǎo)委員會委員,第45屆世界技能大賽中國區(qū)云計算選拔賽裁判長/專家指導(dǎo)組組長,2019年全國大學(xué)生數(shù)據(jù)建模比賽命題人,工信部云計算研究中心專家。在云計算、大數(shù)據(jù)、人工智能領(lǐng)域具有多年的研究積累,是我國該領(lǐng)域的知名專家。主持科研項目40多項,發(fā)表論文80余篇,出版專業(yè)書籍30多種。曾于2002年獲得全球數(shù)據(jù)處理比賽PennySort的世界冠軍,于2003年奪得全國挑戰(zhàn)杯比賽總冠軍。提出的反垃圾郵件網(wǎng)格,被IEEE Cluster 2003評為杰出網(wǎng)格項目,為解決困擾全球的垃圾郵件問題做出根本貢獻(xiàn),該技術(shù)成為云安全技術(shù)的基礎(chǔ)。曾擔(dān)任全軍網(wǎng)格技術(shù)研究中心主任,獲“全軍十大學(xué)習(xí)成才標(biāo)兵”(排名第一)、南京市“十大杰出青年”、“中國大數(shù)據(jù)創(chuàng)新百人”、江蘇省“333工程”中青年領(lǐng)軍人才、清華大學(xué)“學(xué)術(shù)新秀”等稱號。王朝霞:主要從事大數(shù)據(jù)分析、后勤信息化、軍事物流技術(shù)與裝備研究與教學(xué)工作。作為碩士研究生導(dǎo)師,已培養(yǎng)碩士生3名。指導(dǎo)本科畢業(yè)設(shè)計20余名。主持國家博士后基金1項、軍隊后勤重點科研項目2項、軍隊雙重建設(shè)子項目1項,參與軍隊網(wǎng)信建設(shè)重大項目1項、參與軍隊后勤重點科研項目4項。發(fā)表論文50余篇,其中SCI檢索3篇(兩篇1作,一篇通信作者)、EI檢索6篇(四篇1作)。出版教材3本(主編1本)、譯著1本。授權(quán)專利3項、軟件著作權(quán)1項。獲教育部科技進(jìn)步一等獎1項,省部級優(yōu)秀課題二等獎1項。
第1章 緒論 1
1.1 數(shù)據(jù)挖掘的基本概念 1
1.1.1 數(shù)據(jù)挖掘的概念 1
1.1.2 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘 2
1.1.3 數(shù)據(jù)挖掘的特性 3
1.1.4 數(shù)據(jù)挖掘的任務(wù)和功能 3
1.1.5 數(shù)據(jù)挖掘的對象 4
1.1.6 數(shù)據(jù)挖掘的過程 5
1.2 數(shù)據(jù)挖掘的起源及發(fā)展 6
1.3 數(shù)據(jù)挖掘的常用工具 9
1.3.1 商用工具 9
1.3.2 開源工具 10
1.4 數(shù)據(jù)挖掘的應(yīng)用 12
習(xí)題 15
參考文獻(xiàn) 16
第2章 數(shù)據(jù)特征分析及預(yù)處理 17
2.1 數(shù)據(jù)類型 17
2.1.1 屬性與度量 17
2.1.2 數(shù)據(jù)集的類型 18
2.2 數(shù)據(jù)特征分析 19
2.2.1 描述數(shù)據(jù)集中趨勢的度量 19
2.2.2 描述數(shù)據(jù)離散程度的度量 21
2.2.3 數(shù)據(jù)相關(guān)性分析 24
2.3 數(shù)據(jù)預(yù)處理 28
2.3.1 數(shù)據(jù)清洗 28
2.3.2 數(shù)據(jù)集成 34
2.3.3 數(shù)據(jù)規(guī)范化 34
2.3.4 數(shù)據(jù)規(guī)約 38
2.3.5 數(shù)據(jù)離散化 45
2.4 數(shù)據(jù)的相似性 47
2.4.1 數(shù)值屬性的相似性度量 47
2.4.2 標(biāo)稱屬性的相似性度量 49
2.4.3 組合異種屬性的相似性度量 50
2.4.4 文本的相似性度量 52
2.4.5 離散序列的相似性度量 53
習(xí)題 55
參考文獻(xiàn) 56
第3章 分類 57
3.1 分類概述 58
3.1.1 分類的基本概念 58
3.1.2 分類的過程 58
3.1.3 分類器性能的評估方法 59
3.2 決策樹 61
3.2.1 決策樹的基本概念 62
3.2.2 決策樹的用途和特性 62
3.2.3 決策樹的工作原理 63
3.2.4 決策樹的構(gòu)建步驟 64
3.2.5 決策樹算法原理 65
3.3 貝葉斯分類 76
3.3.1 貝葉斯定理 76
3.3.2 樸素貝葉斯分類 77
3.3.3 貝葉斯分析 80
3.3.4 貝葉斯決策 80
3.3.5 貝葉斯估計 81
3.4 支持向量機 81
3.4.1 支持向量機的主要思想 82
3.4.2 支持向量機的基礎(chǔ)理論 82
3.4.3 支持向量機的原理 87
3.5 實戰(zhàn):Python支持向量機分類 92
習(xí)題 95
參考文獻(xiàn) 95
第4章 回歸 98
4.1 回歸的基本概念 99
4.1.1 回歸分析的定義 99
4.1.2 回歸分析的步驟 99
4.1.3 回歸分析要注意的問題 100
4.2 一元回歸分析 100
4.2.1 一元回歸分析的模型設(shè)定 100
4.2.2 回歸參數(shù)的最小二乘估計 102
4.2.3 基本假設(shè)下OLS估計的統(tǒng)計性質(zhì) 104
4.2.4 誤差方差估計 105
4.2.5 回歸系數(shù)檢驗(t檢驗) 106
4.2.6 擬合優(yōu)度和模型檢驗(F檢驗) 107
4.3 多元線性回歸分析 108
4.3.1 多元線性回歸模型 108
4.3.2 多元線性回歸模型的假定 110
4.3.3 多元線性回歸模型的參數(shù)估計 110
4.3.4 顯著性檢驗 112
4.3.5 回歸變量的選擇與逐步回歸 114
4.4 邏輯回歸分析 116
4.4.1 邏輯回歸模型 116
4.4.2 logit變換 117
4.4.3 估計回歸系數(shù) 118
4.4.4 Logistic分布 118
4.4.5 列聯(lián)表的Logistic回歸模型 119
4.5 其他回歸分析 120
4.5.1 多項式回歸 120
4.5.2 逐步回歸 120
4.5.3 嶺回歸 120
4.5.4 套索回歸 121
4.5.5 彈性網(wǎng)絡(luò) 122
4.6 實戰(zhàn):獲得最大有效率時的藥物用量 122
習(xí)題 127
參考文獻(xiàn) 128
第5章 聚類 129
5.1 聚類基本概念 129
5.2 劃分聚類方法 131
5.2.1 k-平均算法 132
5.2.2 k-中心點算法 134
5.3 層次聚類方法 137
5.3.1 層次聚類方法的分類 137
5.3.2 BIRCH算法 141
5.4 密度聚類方法 144
5.5 實戰(zhàn):Python聚類分析 147
5.5.1 Python實現(xiàn)k-均值劃分聚類 147
5.5.2 Python實現(xiàn)BIRCH層次聚類 150
5.5.3 Python實現(xiàn)DBSCAN密度聚類 152
習(xí)題 153
參考文獻(xiàn) 154
第6章 關(guān)聯(lián)規(guī)則 155
6.1 基本概念 155
6.1.1 啤酒與尿布的經(jīng)典案例 155
6.1.2 關(guān)聯(lián)規(guī)則的概念 155
6.1.3 頻繁項集的產(chǎn)生 159
6.2 Apriori算法:通過限制候選產(chǎn)生發(fā)現(xiàn)頻繁項集 160
6.2.1 Apriori算法的頻繁項集產(chǎn)生 160
6.2.2 Apriori算法描述 162
6.3 FP-growth算法 164
6.3.1 構(gòu)造FP樹 165
6.3.2 挖掘FP樹 167
6.3.3 FP-growth算法 169
6.4 其他關(guān)聯(lián)規(guī)則算法 170
6.4.1 約束性關(guān)聯(lián)規(guī)則 170
6.4.2 增量式關(guān)聯(lián)規(guī)則 171
6.4.3 多層關(guān)聯(lián)規(guī)則 172
6.5 實戰(zhàn):購物籃關(guān)聯(lián)規(guī)則挖掘 174
6.5.1 背景與挖掘目標(biāo) 174
6.5.2 分析方法與過程 174
6.5.3 總結(jié) 176
習(xí)題 177
參考文獻(xiàn) 177
第7章 集成學(xué)習(xí) 180
7.1 集成學(xué)習(xí)的概念 180
7.1.1 集成學(xué)習(xí)的構(gòu)建 180
7.1.2 集成學(xué)習(xí)的優(yōu)勢 181
7.2 Bagging算法與隨機森林算法 183
7.2.1 Bagging算法基本思想 183
7.2.2 Bagging算法流程 185
7.2.3 隨機森林算法 185
7.3 Boosting算法 187
7.3.1 Boosting算法流程 187
7.3.2 Boosting系列算法 188
7.4 結(jié)合策略 189
7.4.1 投票方法 189
7.4.2 疊加方法 190
7.5 多樣性 190
7.5.1 多樣性的概念 190
7.5.2 多樣性的作用 191
7.5.3 多樣性的度量 192
7.5.4 多樣性的構(gòu)建 195
7.6 實戰(zhàn)案例 196
7.6.1 鳶尾花數(shù)據(jù)集 197
7.6.2 集成學(xué)習(xí)算法 198
7.6.3 集成學(xué)習(xí)在鳶尾花數(shù)據(jù)集上的應(yīng)用 200
7.7 本章小結(jié) 205
習(xí)題 205
參考文獻(xiàn) 205
第8章 推薦系統(tǒng) 206
8.1 推薦系統(tǒng)概述 206
8.1.1 什么是推薦系統(tǒng) 206
8.1.2 推薦系統(tǒng)評測指標(biāo) 207
8.1.3 推薦系統(tǒng)中的冷啟動 210
8.2 基于內(nèi)容的推薦 213
8.2.1 物品表示 214
8.2.2 物品相似度 217
8.2.3 用戶對物品的評分 218
8.2.4 基于向量空間模型的推薦 218
8.3 協(xié)同過濾推薦 222
8.3.1 協(xié)同過濾的基本概念 222
8.3.2 基于用戶的協(xié)同過濾 226
8.3.3 基于物品的協(xié)同過濾 228
8.3.4 隱語義模型和矩陣因子分解模型 230
8.4 基于標(biāo)簽的推薦 237
8.4.1 數(shù)據(jù)標(biāo)注與關(guān)鍵詞提取 238
8.4.2 標(biāo)簽分類 239
8.4.3 基于標(biāo)簽的推薦系統(tǒng)原理 240
8.5 實戰(zhàn):搭建一個電影推薦系統(tǒng) 243
8.5.1 數(shù)據(jù)準(zhǔn)備與導(dǎo)入 243
8.5.2 電影熱度值計算 244
8.5.3 電影相似度計算 244
8.5.4 指定標(biāo)簽下的電影統(tǒng)計 248
習(xí)題 250
參考文獻(xiàn) 250
第9章 互聯(lián)網(wǎng)數(shù)據(jù)挖掘 253
9.1 鏈接分析與網(wǎng)頁排序 253
9.1.1 PageRank 253
9.1.2 PageRank的快速計算 259
9.1.3 面向主題的PageRank 260
9.1.4 時間序列分析 260
9.1.5 排序背后的機理探討 262
9.1.6 重新思考時間序列 263
9.2 互聯(lián)網(wǎng)信息抽取 264
9.2.1 互聯(lián)網(wǎng)信息深度挖掘概述 264
9.2.2 典型應(yīng)用模型構(gòu)建 264
9.2.3 挖掘、存儲與網(wǎng)絡(luò)技術(shù)分析 265
9.2.4 數(shù)據(jù)信息采集管理 266
9.2.5 信息抽取方法與知識發(fā)現(xiàn) 267
9.2.6 智能決策 269
9.2.7 行業(yè)案例研究 270
9.3 日志挖掘與查詢分析 272
9.3.1 互聯(lián)網(wǎng)日志分析概述 272
9.3.2 挖掘分析技術(shù)方法 274
9.3.3 工具比較 275
9.3.4 海量數(shù)據(jù)挖掘過程展現(xiàn)與分析 276
9.3.5 行業(yè)應(yīng)用舉例 277
9.4 Python實戰(zhàn)案例 280
9.4.1 PageRank Python實現(xiàn) 280
9.4.2 跨境電商運營潛在市場選擇 282
9.4.3 天池“雙11”日志數(shù)據(jù)挖掘示例 286
習(xí)題 290
參考文獻(xiàn) 290