數(shù)據(jù)挖掘:原理與實(shí)踐(基礎(chǔ)篇)
定 價:139 元
叢書名:計算機(jī)科學(xué)叢書
- 作者:[美] 查魯·C. 阿加沃爾(Charu C. Aggarwal)
- 出版時間:2020/12/1
- ISBN:9787111670292
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:0
- 紙張:
- 版次:
- 開本:16開
全書理論聯(lián)系實(shí)際,全面講述數(shù)據(jù)挖據(jù)理論、技術(shù)及應(yīng)用的教材。研討了數(shù)據(jù)挖掘的方方面面,從基礎(chǔ)理論到復(fù)雜數(shù)據(jù)類型及其應(yīng)用。不僅討論傳統(tǒng)的數(shù)據(jù)挖掘問題,而且介紹了高級數(shù)據(jù)類型,例如文本、時間序列、離散序列、空間數(shù)據(jù)、圖數(shù)據(jù)和社會網(wǎng)絡(luò)。本書由基礎(chǔ)篇和進(jìn)階篇組成;A(chǔ)篇對應(yīng)原書的第1~11章,進(jìn)階篇對應(yīng)原書的第12~20章。
出版者的話
譯者序
前言
第1章 數(shù)據(jù)挖掘?qū)д?
1.1 引言1
1.2 數(shù)據(jù)挖掘過程2
1.2.1 數(shù)據(jù)預(yù)處理階段4
1.2.2 分析階段5
1.3 基本數(shù)據(jù)類型5
1.3.1 非依賴型數(shù)據(jù)5
1.3.2 依賴型數(shù)據(jù)7
1.4 主要數(shù)據(jù)挖掘模塊總覽11
1.4.1 關(guān)聯(lián)模式挖掘12
1.4.2 數(shù)據(jù)聚類13
1.4.3 異常檢測13
1.4.4 數(shù)據(jù)分類14
1.4.5 復(fù)雜數(shù)據(jù)類型對問題定義的影響15
1.5 可擴(kuò)展性問題和數(shù)據(jù)流場景17
1.6 應(yīng)用案例淺述17
1.6.1 商店商品布局17
1.6.2 客戶推薦18
1.6.3 醫(yī)療診斷18
1.6.4 Web日志異常檢測19
1.7 小結(jié)19
1.8 文獻(xiàn)注釋19
1.9 練習(xí)題20
第2章 數(shù)據(jù)準(zhǔn)備21
2.1 引言21
2.2 特征提取和類型轉(zhuǎn)換22
2.2.1 特征提取22
2.2.2 數(shù)據(jù)類型轉(zhuǎn)換23
2.3 數(shù)據(jù)清洗26
2.3.1 缺失項(xiàng)的處理27
2.3.2 錯誤項(xiàng)和不一致項(xiàng)的處理28
2.3.3 縮放與標(biāo)準(zhǔn)化29
2.4 數(shù)據(jù)約簡和轉(zhuǎn)換29
2.4.1 采樣30
2.4.2 特征子集選取32
2.4.3 基于坐標(biāo)軸旋轉(zhuǎn)的維度約簡32
2.4.4 基于類型轉(zhuǎn)換的降維39
2.5 小結(jié)47
2.6 文獻(xiàn)注釋48
2.7 練習(xí)題48
第3章 相似度和距離50
3.1 引言50
3.2 多維數(shù)據(jù)50
3.2.1 定量型數(shù)據(jù)51
3.2.2 類別型數(shù)據(jù)58
3.2.3 定量型和類別型的混合數(shù)據(jù)59
3.3 文本相似性度量60
3.4 時態(tài)的相似性度量61
3.4.1 時間序列相似性度量61
3.4.2 離散序列相似性度量65
3.5 圖的相似性度量67
3.5.1 單個圖中兩個節(jié)點(diǎn)之間的相似度67
3.5.2 兩個圖之間的相似度68
3.6 有監(jiān)督的相似度函數(shù)69
3.7 小結(jié)70
3.8 文獻(xiàn)注釋70
3.9 練習(xí)題71
第4章 關(guān)聯(lián)模式挖掘73
4.1 引言73
4.2 頻繁模式挖掘模型74
4.3 關(guān)聯(lián)規(guī)則的生成框架76
4.4 頻繁項(xiàng)集挖掘算法77
4.4.1 暴力算法78
4.4.2 Apriori算法78
4.4.3 枚舉樹算法81
4.4.4 遞歸的基于后綴的模式生長方法89
4.5 替代模型:有趣模式96
4.5.1 統(tǒng)計相關(guān)系數(shù)97
4.5.2 χ2度量97
4.5.3 興趣比率98
4.5.4 對稱置信度98
4.5.5 列的余弦系數(shù)98
4.5.6 Jaccard系數(shù)和min-hash技巧98
4.5.7 集體強(qiáng)度100
4.5.8 與負(fù)模式挖掘的關(guān)系100
4.6 有用的元算法100
4.6.1 采樣方法101
4.6.2 數(shù)據(jù)劃分集成法101
4.6.3 推廣到其他數(shù)據(jù)類型101
4.7 小結(jié)102
4.8 文獻(xiàn)注釋102
4.9 練習(xí)題104
第5章 關(guān)聯(lián)模式挖掘:高級概念106
5.1 引言106
5.2 模式匯總106
5.2.1 最大模式107
5.2.2 閉包模式108
5.2.3 近似頻繁模式109
5.3 模式查詢110
5.3.1 一次預(yù)處理多次查詢111
5.3.2 把限制條件放入模式挖掘115
5.4 關(guān)聯(lián)模式挖掘的應(yīng)用115
5.4.1 與其他數(shù)據(jù)挖掘問題的關(guān)系115
5.4.2 購物籃分析116
5.4.3 用戶信息分析116
5.4.4 推薦和協(xié)同過濾116
5.4.5 Web日志分析117
5.4.6 生物信息學(xué)117
5.4.7 應(yīng)用于其他復(fù)雜數(shù)據(jù)類型117
5.5 小結(jié)118
5.6 文獻(xiàn)注釋118
5.7 練習(xí)題119
第6章 聚類分析120
6.1 引言120
6.2 聚類的特征選取121
6.2.1 過濾模型121
6.2.2 包裝模型124
6.3 基于代表點(diǎn)的算法124
6.3.1 k-means算法127
6.3.2 k-means內(nèi)核算法128
6.3.3 k-medians算法128
6.3.4 k-medoids算法129
6.4 層次聚類算法130
6.4.1 自底向上凝聚的方法131
6.4.2 自頂向下分裂的方法135
6.5 基于概率模型的算法135
6.6 基于網(wǎng)格和基于密度的算法139
6.6.1 基于網(wǎng)格的算法139
6.6.2 DBSCAN141
6.6.3 DENCLUE143
6.7 基于圖的算法147
6.8 非負(fù)矩陣分解149
6.9 聚類驗(yàn)證153
6.9.1 內(nèi)部驗(yàn)證度量153
6.9.2 外部驗(yàn)證度量155
6.9.3 評價158
6.10 小結(jié)158
6.11 文獻(xiàn)注釋158
6.12 練習(xí)題159
第7章 聚類分析:高級概念161
7.1 引言161
7.2 類別型數(shù)據(jù)的聚類162
7.2.1 基于代表點(diǎn)的算法162
7.2.2 層次算法164
7.2.3 概率算法165
7.2.4 基于圖的算法166
7.3 可擴(kuò)展的數(shù)據(jù)聚類167
7.3.1 CLARANS167
7.3.2 BIRCH168
7.3.3 CURE169
7.4 高維數(shù)據(jù)聚類170
7.4.1 CLIQUE172
7.4.2 PROCLUS172
7.4.3 ORCLUS174
7.5 半監(jiān)督聚類176
7.5.1 單點(diǎn)監(jiān)督177
7.5.2 成對監(jiān)督177
7.6 用戶監(jiān)督聚類與可視化監(jiān)督聚類178
7.6.1 現(xiàn)有聚類算法的變體178
7.6.2 可視化聚類179
7.7 集成聚類181
7.7.1 選擇不同的集成組件181
7.7.2 組合不同的集成組件182
7.8 聚類應(yīng)用183
7.8.1 應(yīng)用到其他數(shù)據(jù)挖掘問題183
7.8.2 客戶分類與協(xié)同過濾183
7.8.3 文本應(yīng)用184
7.8.4 多媒體應(yīng)用184
7.8.5 時態(tài)與序列應(yīng)用184
7.8.6 社交網(wǎng)絡(luò)分析184
7.9 小結(jié)184
7.10 文獻(xiàn)注釋184
7.11 練習(xí)題185
第8章 異常分析186
8.1 引言186
8.2 極值分析187
8.2.1 單變量極值分析188
8.2.2 多變量極值190
8.2.3 基于深度的方法191
8.3 概率模型192
8.4 異常檢測的聚類方法193
8.5 基于距離的異常檢測195
8.5.1 剪枝方法195
8.5.2 局部距離修正方法197
8.6 基于密度的方法200
8.6.1 基于統(tǒng)計直方圖和網(wǎng)格的技術(shù)200
8.6.2 核密度估計201
8.7 信息論模型201
8.8 異常點(diǎn)正確性203
8.8.1 方法論上的挑戰(zhàn)203
8.8.2 接收者工作特征(ROC)曲線203
8.8.3 常見錯誤205
8.9 小結(jié)205
8.10 文獻(xiàn)注釋205
8.11 練習(xí)題206
第9章 異常分析:高級概念208
9.1 引言208
9.2 類別型數(shù)據(jù)上的異常檢測208
9.2.1 概率模型209
9.2.2 聚類和基于距離的方法210
9.2.3 二元和集合取值的數(shù)據(jù)210
9.3 高維異常檢測210
9.3.1 基于網(wǎng)格的罕見子空間探索212
9.3.2 隨機(jī)子空間采樣214
9.4 異常點(diǎn)集成分析215
9.4.1 根據(jù)成員獨(dú)立性的分類216
9.4.2 根據(jù)構(gòu)成成員的分類217
9.4.3 歸一化與合并218
9.5 異常分析的應(yīng)用219
9.5.1 質(zhì)量控制和故障檢測219
9.5.2 金融詐騙和異常事件219
9.5.3 網(wǎng)站日志分析219
9.5.4 入侵檢測應(yīng)用219
9.5.5 生物學(xué)和醫(yī)學(xué)應(yīng)用220
9.5.6 地球科學(xué)應(yīng)用220
9.6 小結(jié)220
9.7 文獻(xiàn)注釋220
9.8 練習(xí)題221
第10章 數(shù)據(jù)分類222
10.1 引言222
10.2 分類的特征選擇224
10.2.1 過濾模型224
10.2.2 包裝模型227
10.2.3 嵌入式模型228
10.3 決策樹228
10.3.1 劃分準(zhǔn)則231
10.3.2 停止準(zhǔn)則與剪枝232
10.4 基于規(guī)則的分類器233
10.4.1 決策樹規(guī)則生成234
10.4.2 順序覆蓋算法235
10.4.3 規(guī)則剪枝238
10.4.4 關(guān)聯(lián)分類器238
10.5 概率分類器239
10.5.1 樸素貝葉斯分類器239
10.5.2 邏輯回歸242
10.6 SVM245
10.6.1 線性可分?jǐn)?shù)據(jù)的SVM245
10.6.2 不可分?jǐn)?shù)據(jù)的SVM軟間隔實(shí)現(xiàn)250
10.6.3 非線性SVM252
10.6.4 內(nèi)核技巧253
10.7 神經(jīng)網(wǎng)絡(luò)256
10.7.1 單層神經(jīng)網(wǎng)絡(luò):感知器257
10.7.2 多層神經(jīng)網(wǎng)絡(luò)258
10.7.3 不同線性模型的比較260
10.8 基于實(shí)例的學(xué)習(xí)261
10.8.1 最近鄰分類器的設(shè)計差異261
10.9 分類器評估263
10.9.1 方法論問題263
10.9.2 量化問題265
10.10 小結(jié)269
10.11 文獻(xiàn)注釋269
10.12 練習(xí)題270
第11章 數(shù)據(jù)分類:高級概念272
11.1 引言272
11.2 多類別學(xué)習(xí)273
11.3 稀有類別學(xué)習(xí)274
11.3.1 樣例重加權(quán)275
11.3.2 樣例重采樣275
11.4 可擴(kuò)展分類276
11.4.1 可擴(kuò)展的決策樹276
11.4.2 可擴(kuò)展的SVM277
11.5 數(shù)值型類別的回歸模型278
11.5.1 線性回歸278
11.5.2 主成分回歸281
11.5.3 廣義線性模型282
11.5.4 非線性和多項(xiàng)式回歸283
11.5.5 由決策樹至回歸樹284
11.5.6 模型有效性評估285
11.6 半監(jiān)督學(xué)習(xí)285
11.6.1 通用元算法287
11.6.2 分類算法的具體變種288
11.6.3 基于圖的半監(jiān)督學(xué)習(xí)290
11.6.4 對半監(jiān)督學(xué)習(xí)的討論291
11.7 主動學(xué)習(xí)291
11.7.1 基于異構(gòu)性的模型293
11.7.2 基于性能的模型294
11.7.3 基于代表性的模型295
11.8 集成方法296
11.8.1 為什么集成分析有效297
11.8.2 偏差-方差折中的正式表述299
11.8.3 集成學(xué)習(xí)的具體實(shí)例化301
11.9 小結(jié)305
11.10 文獻(xiàn)注釋305
11.11 練習(xí)題306
第12章 數(shù)據(jù)流挖掘308
12.1 引言308
12.2 流中的概要數(shù)據(jù)結(jié)構(gòu)309
12.2.1 蓄水池采樣309
12.2.2 海量域場景的概述結(jié)構(gòu)315
12.3 數(shù)據(jù)流中的頻繁模式挖掘325
12.3.1 利用概要結(jié)構(gòu)325
12.3.2 有損計數(shù)算法325
12.4 數(shù)據(jù)流聚類326
12.4.1 STREAM算法326
12.4.2 CluStream算法328
12.4.3 海量域場景的流聚類331
12.5 流的異常檢測332
12.5.1 單個數(shù)據(jù)點(diǎn)作為異常點(diǎn)332
12.5.2 聚集變化點(diǎn)作為異常點(diǎn)333
12.6 流分類335
12.6.1 VFDT家族335
12.6.2 有監(jiān)督的微簇方法337
12.6.3 集成方法337
12.6.4 海量域流的分類337
12.7 小結(jié)338
12.8 文獻(xiàn)注釋338
12.9 練習(xí)題338
第13章 文本數(shù)據(jù)挖掘340
13.1 引言340
13.2 文檔準(zhǔn)備和相似度計算341
13.2.1 文檔歸一化和相似度計算342
13.2.2 專用于Web文檔的預(yù)處理343
13.3 專用于文本的聚類方法344
13.3.1 基于代表點(diǎn)的算法344
13.3.2 概率算法346
13.3.3 同步發(fā)現(xiàn)文檔簇和詞簇347
13.4 主題建模349
13.4.1 維度約簡中的使用以及與潛在語義分析的對比351
13.4.2 聚類中的使用以及與概率聚類的對比353
13.4.3 PLSA的局限性354
13.5 專用于文本的分類方法354
13.5.1 基于實(shí)例的分類器354
13.5.2 貝葉斯分類器356
13.5.3 高維稀疏數(shù)據(jù)的SVM分類器358
13.6 新事物和首發(fā)故事檢測360
13.7 小結(jié)360
13.8 文獻(xiàn)注釋361
13.9 練習(xí)題361
參考文獻(xiàn)362