Python數(shù)據(jù)挖掘入門與實踐 第2版(圖靈出品)
定 價:79 元
- 作者:[澳] 羅伯特·萊頓(,Robert,Layton) 著,亦念 譯
- 出版時間:2020/3/1
- ISBN:9787115528025
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁碼:253
- 紙張:膠版紙
- 版次:2
- 開本:16開
本書以實踐為宗旨,對數(shù)據(jù)挖掘進行了詳細地入門引導。本書囊括了比賽結(jié)果預(yù)測、電影推薦、特征提取、好友推薦、破解驗證碼、作者歸屬、新聞聚類等大量經(jīng)典案例,并以此為基礎(chǔ)提供了大量練習和額外活動。在練習中,本書介紹了數(shù)據(jù)挖掘的基本工具和基本方法;在額外活動中,本書為深入了解數(shù)據(jù)挖掘指明了方向。
本書適合希望應(yīng)用Python進行數(shù)據(jù)挖掘的程序員閱讀。
本書由淺入深地介紹了數(shù)據(jù)挖掘的基礎(chǔ)知識;
圖文并茂,同時提供了種類繁多的Python庫來支持具體實踐;
第二版更新了示例和代碼,每一章都引入了新的算法和技術(shù)。
本書將手把手指引你:
基于過去結(jié)果預(yù)測體育賽事勝負
根據(jù)行文風格確定文檔作者
調(diào)用API下載社會媒體或其他在線服務(wù)的數(shù)據(jù)集
在復(fù)雜數(shù)據(jù)集中尋找并提取合適的特征
創(chuàng)建解決現(xiàn)實問題的模型
運用各種各樣的數(shù)據(jù)集,設(shè)計并開發(fā)數(shù)據(jù)挖掘應(yīng)用
利用深度神經(jīng)網(wǎng)絡(luò)完成圖像中的對象檢測
羅伯特·萊頓(Robert Layton)
數(shù)據(jù)科學家,計算機科學博士,網(wǎng)絡(luò)犯罪問題和文本分析方面的專家。擁有多年P(guān)ython編程經(jīng)驗,參與開發(fā)過scikit-learn庫等眾多開源軟件,曾擔任2014年“谷歌編程之夏”項目導師,也曾多次在PyCon Au上做報告。他創(chuàng)立了數(shù)據(jù)挖掘咨詢公司DataPipeline,以及為創(chuàng)業(yè)公司提供技術(shù)咨詢和支持的Eurekative公司,還運營著LearningTensorFlow 網(wǎng)站。
第 1 章 數(shù)據(jù)挖掘入門 1
1.1 什么是數(shù)據(jù)挖掘 1
1.2 使用 Python 和 Jupyter Notebook 3
1.2.1 安裝 Python 3
1.2.2 安裝 Jupyter Notebook 4
1.2.3 安裝 scikit-learn 5
1.3 親和性分析的簡單示例 6
1.4 商品推薦 6
1.4.1 用NumPy 加載數(shù)據(jù)集 7
1.4.2 實現(xiàn)規(guī)則的簡單排序 9
1.4.3 挑選最佳規(guī)則 11
1.5 分類的簡單示例 13
1.6 什么是分類 14
1.6.1 準備數(shù)據(jù)集 14
1.6.2 實現(xiàn) OneR 算法 15
1.6.3 測試算法功能 17
1.7 本章小結(jié) 19
第 2 章 用 scikit-learn 估計器 解決分類問題 20
2.1 scikit-learn 估計器 20
2.1.1 最近鄰算法 21
2.1.2 距離度量 22
2.1.3 加載數(shù)據(jù)集 24
2.1.4 形成標準的工作流程 25
2.1.5 運行算法 26
2.1.6 設(shè)置參數(shù) 27
2.2 預(yù)處理 29
2.2.1 標準預(yù)處理 30
2.2.2 組裝成型 31
2.3 流水線 31
2.4 本章小結(jié) 32
第 3 章 用決策樹預(yù)測獲勝球隊 34
3.1 加載數(shù)據(jù)集34
3.1.1 收集數(shù)據(jù)35
3.1.2 用 pandas 加載數(shù)據(jù)集 35
3.1.3 清洗數(shù)據(jù)集 36
3.1.4 提取新特征 37
3.2 決策樹 39
3.2.1 決策樹的參數(shù) 40
3.2.2 決策樹的使用 41
3.3 體育賽事結(jié)果預(yù)測 42
3.4 隨機森林 45
3.4.1 集成學習原理 46
3.4.2 設(shè)置隨機森林的參數(shù) 46
3.4.3 應(yīng)用隨機森林 47
3.4.4 創(chuàng)建特征 48
3.5 本章小結(jié) 49
第 4 章 用親和性分析推薦電影 50
4.1 親和性分析 50
4.1.1 親和性分析算法 51
4.1.2 總體方法 52
4.2 電影推薦問題 52
4.3 Apriori 算法的原理與實現(xiàn) 54
4.3.1 Apriori 算法的基本思路 56
4.3.2 實現(xiàn) Apriori 算法 57
4.3.3 提取關(guān)聯(lián)規(guī)則 59
4.3.4 評估關(guān)聯(lián)規(guī)則 62
4.4 本章小結(jié) 64
第 5 章 特征與 scikit-learn 轉(zhuǎn)換器 65
5.1 特征提取 65
5.1.1 用模型表述現(xiàn)實 66
5.1.2 常見的特征模式 68
5.1.3 創(chuàng)建好的特征 71
5.2 特征的選取 71
5.3 特征創(chuàng)建 76
5.4 主成分分析 78
5.5 創(chuàng)建自己的轉(zhuǎn)換器 80
5.5.1 轉(zhuǎn)換器 API 81
5.5.2 實現(xiàn)轉(zhuǎn)換器 81
5.6 單元測試 82
5.7 組裝成型 83
5.8 本章小結(jié) 84
第 6 章 用樸素貝葉斯算法探索社交
媒體 85
6.1 消歧 85
6.2 從社交媒體下載數(shù)據(jù) 87
6.2.1 加載數(shù)據(jù)集并分類 89
6.2.2 創(chuàng)建可重現(xiàn)的 Twitter 數(shù)據(jù)集 92
6.3 文本轉(zhuǎn)換器 95
6.3.1 詞袋模型 95
6.3.2 n 元語法特征 96
6.3.3 其他文本特征 97
6.4 樸素貝葉斯 98
6.4.1 理解貝葉斯定理 98
6.4.2 樸素貝葉斯算法 99
6.4.3 原理展示 100
6.5 樸素貝葉斯的應(yīng)用 101
6.5.1 提取單詞計數(shù) 102
6.5.2 把字典轉(zhuǎn)換成矩陣 103
6.5.3 組裝成型 103
6.5.4 用 F1-score 評估算法 104
6.6 從模型中找出有用的特征 105
6.7 本章小結(jié) 107
第 7 章 用圖挖掘?qū)崿F(xiàn)推薦關(guān)注 109
7.1 加載數(shù)據(jù)集 109
7.2 從 Twitter 獲取關(guān)注者信息 113
7.3 創(chuàng)建圖 116
7.4 尋找子圖 122
7.4.1 連通分量 122
7.4.2 優(yōu)化準則 125
7.5 本章小結(jié) 127
第 8 章 用神經(jīng)網(wǎng)絡(luò)識別驗證碼 129
8.1 人工神經(jīng)網(wǎng)絡(luò) 130
8.2 創(chuàng)建數(shù)據(jù)集 132
8.2.1 繪制簡單的驗證碼 133
8.2.2 按字母分割圖像 135
8.2.3 創(chuàng)建訓練數(shù)據(jù)集 137
8.3 訓練與分類 139
8.4 預(yù)測單詞 143
8.4.1 用詞典提升準確率 146
8.4.2 單詞相似度的排名機制 146
8.4.3 組裝成型 147
8.5 本章小結(jié) 148
第 9 章 作者歸屬問題 149
9.1 文檔的作者歸屬 149
9.1.1 應(yīng)用與場景 150
9.1.2 作者歸屬 151
9.2 獲取數(shù)據(jù) 152
9.3 功能詞的使用 155
9.3.1 統(tǒng)計功能詞 156
9.3.2 用功能詞分類 158
9.4 支持向量機 159
9.4.1 用支持向量機分類 160
9.4.2 核函數(shù) 160
9.5 字符 n 元語法 161
9.6 安然(Enron)數(shù)據(jù)集 162
9.6.1 獲取安然數(shù)據(jù)集 163
9.6.2 創(chuàng)建數(shù)據(jù)集加載函數(shù) 163
9.7 組裝成型 166
9.8 評估 166
9.9 本章小結(jié) 168
第 10 章 聚類新聞文章 169
10.1 發(fā)現(xiàn)熱門話題 169
10.1.1 用 Web API 獲取數(shù)據(jù) 170
10.1.2 把 reddit 作為數(shù)據(jù)源 172
10.1.3 獲取數(shù)據(jù) 173
10.2 從任意網(wǎng)站提取文本 175
10.2.1 尋找任意網(wǎng)站中的新聞報道內(nèi)容 176
10.2.2 提取內(nèi)容 177
10.3 為新聞文章分組 179
10.4 k-均值算法 179
10.4.1 評估結(jié)果 182
10.4.2 從聚類簇中提取話題信息 184
10.4.3 把聚類算法作為轉(zhuǎn)換器 185
10.5 聚類集成 185
10.5.1 證據(jù)積累方法 185
10.5.2 工作原理 188
10.5.3 算法實現(xiàn) 190
10.6 在線學習 191
10.7 本章小結(jié) 194
第 11 章 用深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)圖像中的對象檢測 195
11.1 對象分類 195
11.2 應(yīng)用場景 197
11.3 深度神經(jīng)網(wǎng)絡(luò) 199
11.3.1 直觀感受 199
11.3.2 實現(xiàn)深度神經(jīng)網(wǎng)絡(luò) 200
11.4 TensorFlow 簡介 201
11.5 使用 Keras 204
11.6 GPU 優(yōu)化 210
11.6.1 適用 GPU 的計算場景 211
11.6.2 在 GPU 上運行代碼 212
11.6.3 設(shè)置環(huán)境 213
11.7 應(yīng)用 214
11.7.1 獲取數(shù)據(jù) 214
11.7.2 創(chuàng)建神經(jīng)網(wǎng)絡(luò) 215
11.7.3 組裝成型 216
11.8 本章小結(jié) 217
第 12 章 大數(shù)據(jù)處理 219
12.1 大數(shù)據(jù) 219
12.2 MapReduce 222
12.2.1 直觀感受 223
12.2.2 Hadoop MapReduce 226
12.3 應(yīng)用 MapReduce 227
12.4 樸素貝葉斯預(yù)測 229
12.5 提取博客文章 229
12.6 訓練樸素貝葉斯 231
12.7 組裝成型 235
12.8 在亞馬遜 EMR 基礎(chǔ)設(shè)施上訓練 239
12.9 本章小結(jié) 241
附錄 A 下一步工作 242
A.1 數(shù)據(jù)挖掘入門 242
A.1.1 scikit-learn 教程 242
A.1.2 擴展 Jupyter Notebook 242
A.1.3 更多數(shù)據(jù)集 243
A.1.4 其他評估指標 243
A.1.5 更多應(yīng)用思路 243
A.2 用 scikit-learn 估計器解決分類問題 243
A.2.1 最近鄰算法的伸縮性 244
A.2.2 更復(fù)雜的流水線 244
A.2.3 比較分類器 244
A.2.4 自動學習 244
A.3 用決策樹預(yù)測獲勝球隊 245
A.3.1 更復(fù)雜的特征 245
A.3.2 Dask 246
A.3.3 研究 246
A.4 用親和性分析推薦電影 246
A.4.1 新數(shù)據(jù)集 246
A.4.2 等價類變換算法 246
A.4.3 協(xié)同過濾 247
A.5 特征與 scikit-learn 轉(zhuǎn)換器 247
A.5.1 增加噪聲 247
A.5.2 Vowpal Wabbit 247
A.5.3 word2vec 247
A.6 用樸素貝葉斯算法探索社交媒體 247
A.6.1 垃圾信息檢測 248
A.6.2 自然語言處理與詞性標注 248
A.7 用圖挖掘?qū)崿F(xiàn)推薦關(guān)注 248
A.7.1 更復(fù)雜的算法 248
A.7.2 NetworkX 248
A.8 用神經(jīng)網(wǎng)絡(luò)識別驗證碼 249
A.8.1 更好(更壞?)的驗證碼 249
A.8.2 深度神經(jīng)網(wǎng)絡(luò) 249
A.8.3 強化學習 249
A.9 作者歸屬問題 249
A.9.1 增大樣本 250
A.9.2 博客數(shù)據(jù)集 250
A.9.3 局部 n 元語法 250
A.10 聚類新聞文章 250
A.10.1 聚類的評估 250
A.10.2 時域分析 251
A.10.3 實時聚類 251
A.11 用深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)圖像中的對象檢測 251
A.11.1 Mahotas 251
A.11.2 Magenta 251
A.12 大數(shù)據(jù)處理 252
A.12.1 Hadoop 課程 252
A.12.2 Pydoop 252
A.12.3 推薦引擎 252
A.12.4 W.I.L.L 252
A.13 更多資源 253
A.13.1 Kaggle 競賽 253
A.13.2 Coursera 253