數(shù)據(jù)挖掘——基于R語言的實(shí)戰(zhàn)
定 價(jià):59.8 元
- 作者:張俊妮
- 出版時(shí)間:2021/1/1
- ISBN:9787115542786
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:258
- 紙張:
- 版次:01
- 開本:16開
本書以深入淺出的語言系統(tǒng)地講解了數(shù)據(jù)挖掘的框架和基本方法,主要內(nèi)容包括:數(shù)據(jù)挖掘與R語言概述、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、關(guān)聯(lián)規(guī)則挖掘、聚類分析、線性模型與廣義線性模型、神經(jīng)網(wǎng)絡(luò)的基本方法、決策樹、基于決策樹的模型組合、模型評(píng)估與比較。本書使用基于R語言的數(shù)據(jù)挖掘案例貫穿全書,并輔以上機(jī)實(shí)驗(yàn)和習(xí)題,幫助讀者熟練使用R語言進(jìn)行數(shù)據(jù)挖掘。
本書可作為高等院校數(shù)據(jù)分析與數(shù)據(jù)挖掘課程的教材,適合于有意學(xué)習(xí)并使用數(shù)據(jù)挖掘基本技術(shù)的本科生、研究生以及業(yè)界人士閱讀。
1.本書是北京大學(xué)光華管理學(xué)院“數(shù)據(jù)挖掘與應(yīng)用”課程教材。
2.本書作者被譽(yù)為“哈佛小魔女”,中科院少年班天才統(tǒng)計(jì)學(xué)家,張俊妮教授十年一劍之作。
3.全書案例豐富,涵蓋醫(yī)療、金融、營銷、保險(xiǎn)、政府部門等應(yīng)用案例。
4.提供全套教學(xué)解決方案,推動(dòng)“數(shù)據(jù)挖掘”課程的建設(shè)和發(fā)展。
張俊妮博士現(xiàn)任北京大學(xué)光華管理學(xué)院統(tǒng)計(jì)學(xué)副教授。她1998年畢業(yè)于中國科學(xué)技術(shù)大學(xué),獲計(jì)算機(jī)軟件學(xué)士學(xué)位;2002年畢業(yè)于美國哈佛大學(xué),獲統(tǒng)計(jì)學(xué)博士學(xué)位。她的研究領(lǐng)域?yàn)橐蚬茢、貝葉斯分析、蒙特卡洛方法、數(shù)據(jù)挖掘以及統(tǒng)計(jì)在經(jīng)濟(jì)、金融、營銷中的應(yīng)用。
第 一章 數(shù)據(jù)挖掘與R語言概述 7
1.1 什么是數(shù)據(jù)挖掘 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 數(shù)據(jù)挖掘的基本流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 應(yīng)用背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 數(shù)據(jù)收集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3 數(shù)據(jù)準(zhǔn)備 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.4 建立模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.5 模型評(píng)估與選擇 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.6 模型監(jiān)測(cè)與更新 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 關(guān)于數(shù)據(jù)挖掘項(xiàng)目的三個(gè)基本問題 . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 建模數(shù)據(jù)集對(duì)預(yù)測(cè)數(shù)據(jù)集的代表性 10
1.3.2 自變量和因變量之間關(guān)系的因果性解釋 11
1.3.3 模型預(yù)測(cè)精度對(duì)于實(shí)際應(yīng)用的價(jià)值 12
1.4 CRISP-DM數(shù)據(jù)挖掘方法論 12
1.5 SEMMA數(shù)據(jù)挖掘方法論 13
1.6 R語言及Rstudio簡(jiǎn)介 15
第二章 數(shù)據(jù)理解 17
2.1 收集初始數(shù)據(jù) 17
2.2 描述數(shù)據(jù) 17
2.2.1 數(shù)據(jù)的精確含義 17
2.2.2 數(shù)據(jù)粒度 18
2.2.3 變量類型 18
2.2.4 冗余變量 19
2.2.5 缺省值 19
2.2.6 數(shù)據(jù)鏈接 19
3
4 目錄
2.3 檢查數(shù)據(jù)質(zhì)量 19
2.3.1 抽樣偏差 19
2.3.2 數(shù)據(jù)取值錯(cuò)誤 20
2.3.3 數(shù)據(jù)缺失情況 21
2.4 初步探索數(shù)據(jù) 22
2.5 R語言分析示例:數(shù)據(jù)理解 22
第三章 數(shù)據(jù)準(zhǔn)備 33
3.1 數(shù)據(jù)整合 33
3.2 處理分類自變量 33
3.3 處理時(shí)間信息 34
3.4 清除變量 35
3.5 異常值 35
3.6 及值 36
3.7 處理缺失數(shù)據(jù) 37
3.8 過抽樣與欠抽樣 38
3.9 降維 38
3.9.1 變量選擇 38
3.9.2 主成分分析 39
3.10 R語言分析示例:數(shù)據(jù)整合 41
3.11 R語言分析示例:數(shù)據(jù)準(zhǔn)備 47
第四章 關(guān)聯(lián)規(guī)則挖掘 59
4.1 關(guān)聯(lián)規(guī)則的基本概念及Apriori算法 59
4.1.1 關(guān)聯(lián)規(guī)則的基本概念 59
4.1.2 Apriori算法簡(jiǎn)介 60
4.2 序列關(guān)聯(lián)規(guī)則挖掘 60
4.3 R語言分析示例:關(guān)聯(lián)規(guī)則挖掘 61
4.3.1 購物籃分析 61
4.3.2 泰坦尼克號(hào)存活情況分析 68
第五章 聚類分析 75
5.1 k均值聚類法 75
5.1.1 觀測(cè)之間的距離度量 75
5.1.2 k均值聚類法的具體步驟 76
目錄 5
5.1.3 關(guān)于k均值聚類法的一些點(diǎn)評(píng) 77
5.2 層次聚類法 78
5.2.1 層次聚類法的具體步驟 78
5.2.2 類別之間距離的度量 78
5.3 確定最優(yōu)類別數(shù) 80
5.4 R語言分析示例:聚類 82
第六章 線性模型與廣義線性模型 93
6.1 線性模型 93
6.1.1 模型假設(shè)與估計(jì) 93
6.1.2 模型解釋 94
6.1.3 一些理論結(jié)果 94
6.1.4 模型診斷 95
6.2 廣義線性模型 98
6.2.1 廣義線性模型簡(jiǎn)介 98
6.2.2 因變量為二值變量或比例的情形 99
6.2.3 因變量為多種取值的名義變量的情形 100
6.2.4 因變量為定序變量的情形 100
6.2.5 因變量為計(jì)數(shù)變量的情形 101
6.2.6 因變量為取值可正可負(fù)的連續(xù)變量的情形 101
6.2.7 因變量為非負(fù)連續(xù)變量的情形 101
6.3 線性模型與廣義線性模型中的變量選擇 101
6.3.1 逐步回歸 101
6.3.2 LASSO 102
6.4 R語言分析示例:線性模型與廣義線性模型 103
6.4.1 線性模型示例 103
6.4.2 邏輯回歸及Lasso示例:印第安女性糖尿病數(shù)據(jù) 107
6.4.3 邏輯回歸及Lasso示例:移動(dòng)運(yùn)營商數(shù)據(jù) 112
第七章 神經(jīng)網(wǎng)絡(luò)的基本方法 119
7.1 神經(jīng)元及神經(jīng)網(wǎng)絡(luò)介紹 119
7.1.1 單個(gè)神經(jīng)元 119
7.1.2 多層感知器架構(gòu) 119
7.2 神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練 119
7.2.1 誤差函數(shù) 119
6 目錄
7.2.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法 119
7.3 提高神經(jīng)網(wǎng)絡(luò)模型的可推廣性 119
7.4 R語言分析示例:神經(jīng)網(wǎng)絡(luò) 119
7.4.1 白葡萄酒數(shù)據(jù) 119
7.4.2 移動(dòng)運(yùn)營商數(shù)據(jù) 119
第八章 決策樹 121
8.1 決策樹簡(jiǎn)介 121
8.2 決策樹的生長與修剪 121
8.2.1 一般過程 121
8.2.2 分類樹 121
8.2.3 回歸樹 121
8.3 對(duì)缺失數(shù)據(jù)的處理 121
8.4 變量選擇 121
8.5 決策樹的優(yōu)缺點(diǎn) 121
8.6 R語言分析示例:決策樹 121
第九章 基千決策樹的模型組合 123
9.1 基于決策樹的Bagging方法 123
9.2 基于決策樹的Boosting方法 123
9.3 隨機(jī)森林 123
9.4 貝葉斯累加回歸樹(BART) 123
9.5 R語言分析示例:基于決策樹的模型組合 123
第十章 模型評(píng)估與比較 125
10.1 因變量為二分變量的情形 125
10.2 因變量為多分變量的情形 125
10.3 因變量為連續(xù)變量的情形 125
10.4 R語言分析示例:模型評(píng)估與比較 125
第十一章 R語言分析案例:Kaggle房?jī)r(jià)預(yù)測(cè)數(shù)據(jù) 127
11.1 數(shù)據(jù)介紹與業(yè)務(wù)理解 127
11.2 數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備 127
11.3 建!127
11.4 模型評(píng)估與比較 127
11.5 模型應(yīng)用 12