大話數(shù)據(jù)科學(xué)——大數(shù)據(jù)與機器學(xué)習(xí)實戰(zhàn)(基于R語言)
定 價:128 元
- 作者:陳文賢
- 出版時間:2020/7/1
- ISBN:9787302551300
- 出 版 社:清華大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:396
- 紙張:膠版紙
- 版次:1
- 開本:16K
本書以獨特的方式講解數(shù)據(jù)科學(xué),不僅讓讀者可以輕松學(xué)習(xí)數(shù)據(jù)科學(xué)理論,又可以動手(手算和機算)進行數(shù)據(jù)科學(xué)實戰(zhàn)。本書特色:全彩印刷,圖形、表格、思維導(dǎo)圖豐富;避免深奧的數(shù)學(xué)證明,采用簡單的數(shù)學(xué)說明;用各種學(xué)習(xí)圖將本書內(nèi)容貫穿起來;實戰(zhàn)計算,包含小型數(shù)據(jù)的演算和大型數(shù)據(jù)的實戰(zhàn)程序。
本書共13章,內(nèi)容涵蓋豐富的數(shù)據(jù)科學(xué)模型,包含關(guān)聯(lián)分析、聚類分析、貝葉斯分類、近鄰法、決策樹、降維分析、回歸模型等算法。利用小數(shù)據(jù)例題介紹計算步驟,同時用R語言驗證計算結(jié)果。另外,也有大數(shù)據(jù)的案例數(shù)據(jù),例如:推薦系統(tǒng)、支持向量機、集成學(xué)習(xí)等。另外,本書只有大數(shù)據(jù)的案例數(shù)據(jù)用R語言計算。
本書適合各個專業(yè)領(lǐng)域(包含金融、電商、保險、互聯(lián)網(wǎng)等行業(yè))想掌握數(shù)據(jù)科學(xué)的讀者,也可以作為高校、社會培訓(xùn)機構(gòu)教材。由于內(nèi)容比較多,教師可自行選擇教學(xué)內(nèi)容。
"數(shù)據(jù)科學(xué)作為一門新興的學(xué)科,正在高速發(fā)展并落地應(yīng)用。當(dāng)前的各行各業(yè)都充滿了數(shù)據(jù),這些數(shù)據(jù)的類型多種多樣,不僅包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),也包括網(wǎng)頁、文本、圖像、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù)。 數(shù)據(jù)科學(xué)涵蓋的體系甚廣,對某一領(lǐng)域進行數(shù)據(jù)科學(xué)研究,首先要研究該領(lǐng)域(比如生物信息學(xué)、天體信息學(xué)、數(shù)字地球等)的特性,然后通過包括統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)庫等技術(shù)從中分析出需要的結(jié)果。這些學(xué)科都是數(shù)據(jù)科學(xué)的重要組成部分,只有把它們有機地整合在一起,才能形成整個數(shù)據(jù)科學(xué)的全貌。 陳文賢老師作為數(shù)據(jù)科學(xué)的早等
篇基礎(chǔ)篇
章大數(shù)據(jù)概述3
1.1大數(shù)據(jù)與相關(guān)學(xué)科的定義4
1.1.1大數(shù)據(jù)的定義4
1.1.2數(shù)據(jù)挖掘6
1.1.3數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程7
1.1.4機器學(xué)習(xí)9
1.1.5知識管理12
1.1.6數(shù)據(jù)科學(xué)14
1.1.7商業(yè)智能15
1.1.8人工智能17
1.1.9統(tǒng)計學(xué)與大數(shù)據(jù)比較19
1.1.10數(shù)據(jù)名詞的定義21
1.2系統(tǒng)與模型概念22
1.2.1系統(tǒng)定義與成分22
1.2.2輸入,處理,輸出與黑箱23
1.2.3環(huán)境24
1.2.4反饋25
1.2.5效率與效果25
1.2.6模型與建模26
1.2.7模型的假定與參數(shù)27
1.2.8敏感,穩(wěn)健或魯棒28
1.2.9模型的過擬合28
1.3大數(shù)據(jù)分析模型的分類30
1.3.1后設(shè)模型30
1.3.2關(guān)系與因果31
1.3.3基于因果關(guān)系的統(tǒng)計學(xué)分類32
1.3.4基于因果關(guān)系的大數(shù)據(jù)分類32
1.3.5基于數(shù)據(jù)類型的分類34
1.3.6基于測量的分類35
1.3.7數(shù)據(jù)科學(xué)模型的其他分類36
1.4大數(shù)據(jù)的江湖傳奇36
1.5R語言“詞云圖”代碼40
1.6本章思維導(dǎo)圖42
第2章大數(shù)據(jù)與R語言43
2.1大數(shù)據(jù)進位44
2.2R語言介紹45
2.2.1安裝R語言軟件45
2.2.2下載R語言程序包45
2.3R數(shù)據(jù)對象的屬性與結(jié)構(gòu)46
2.3.1數(shù)值47
2.3.2整數(shù)47
2.3.3字符串47
2.3.4邏輯47
2.3.5向量48
2.3.6因子49
2.3.7矩陣50
2.3.8數(shù)據(jù)框52
2.3.9數(shù)組52
2.3.10列表53
2.3.11時間序列54
2.3.12訪問數(shù)據(jù)類型和結(jié)構(gòu)54
2.3.13遺失值55
2.3.14讀入ExcelCSV數(shù)據(jù)55
2.3.15編輯數(shù)據(jù)55
2.3.16保存ExcelCSV數(shù)據(jù)55
2.3.17數(shù)據(jù)輸入窗口56
2.3.18R的數(shù)據(jù)結(jié)構(gòu)和函數(shù)表56
2.4R的函數(shù)包56
2.5R的數(shù)據(jù)繪圖59
2.6本章思維導(dǎo)圖
第二篇非監(jiān)督式學(xué)習(xí)
第3章關(guān)聯(lián)分析67
3.1關(guān)聯(lián)分析介紹68
3.1.1事務(wù)與項目的定義68
3.1.2項集的關(guān)聯(lián)規(guī)則69
3.2關(guān)聯(lián)規(guī)則數(shù)據(jù)格式71
3.3關(guān)聯(lián)規(guī)則的算法72
3.3.1Apriori算法73
3.3.2關(guān)聯(lián)規(guī)則其他測度值74
3.3.3負(fù)關(guān)聯(lián)規(guī)則75
3.4關(guān)聯(lián)規(guī)則的優(yōu)點和缺點76
3.4.1Apriori算法的優(yōu)點76
3.4.2Apriori算法的缺點76
3.4.3關(guān)聯(lián)規(guī)則的評估76
3.5關(guān)聯(lián)規(guī)則的實例計算77
3.5.1尿布與啤酒77
3.5.2豆?jié){、燒餅與飯團79
3.5.3評估與應(yīng)用82
3.6R語言實戰(zhàn)82
3.6.1泰坦尼克號82
3.6.2商店數(shù)據(jù)86
3.6.3食品雜貨數(shù)據(jù)90
3.6.4人口收入數(shù)據(jù)92
3.6.5鳶尾花數(shù)據(jù)93
3.7本章思維導(dǎo)圖96
第4章聚類分析97
4.1聚類分析介紹98
4.2距離與相似度衡量99
4.2.1數(shù)值數(shù)據(jù)距離99
4.2.2標(biāo)準(zhǔn)化與歸一化100
4.2.30-1數(shù)據(jù)距離和相似度100
4.2.4混合數(shù)據(jù)的距離102
4.2.5顧客數(shù)據(jù)的距離102
4.2.6距離和相似度的轉(zhuǎn)換104
4.2.7計算距離的R函數(shù)104
4.3層次聚類分析106
4.3.1兩類連接106
4.3.2顧客數(shù)據(jù)的聚類107
4.3.3層次聚類的優(yōu)點和缺點110
4.4非層次聚類分析110
4.4.1K-mean聚類110
4.4.2PAM聚類112
4.4.3K-mean聚類的優(yōu)點和缺點113
4.5聚類分析的評價113
4.6R語言實戰(zhàn)115
4.6.1歐洲語言的聚類115
4.6.2美國電力公司數(shù)據(jù)118
4.6.3歐州人蛋白質(zhì)數(shù)據(jù)120
4.6.4紅酒數(shù)據(jù)124
4.6.5汽車數(shù)據(jù)126
4.7本章思維導(dǎo)圖128
第5章降維分析129
5.1降維分析介紹130
5.2主成分分析131
5.2.1主成分分析的計算理論132
5.2.2主成分分析的計算步驟134
5.2.3主成分分析的優(yōu)點和缺點134
5.3R語言程序135
5.4R語言實戰(zhàn)138
5.4.1鳶尾花數(shù)據(jù)138
5.4.2美國罪犯數(shù)據(jù)138
5.4.3美國法官數(shù)據(jù)145
5.4.4國家冰球聯(lián)盟資料146
5.4.5美國職業(yè)棒球數(shù)據(jù)149
5.4.6早餐麥片數(shù)據(jù)151
5.4.7紅酒數(shù)據(jù)151
5.4.8心理學(xué)數(shù)據(jù)152
5.5本章思維導(dǎo)圖154
第三篇監(jiān)督式學(xué)習(xí)
第6章模型選擇與評價157
6.1模型選擇與評價步驟158
6.2大數(shù)據(jù)的抽樣方法159
6.2.1保留方法抽樣160
6.2.2自助抽樣法162
6.2.3632自助法163
6.2.4過采樣1
6.3交驗證165
6.3.1k-折交驗證165
6.3.2留一交驗證166
6.4模型選擇167
6.4.1參數(shù)和非參數(shù)學(xué)習(xí)168
6.4.2偏差和方差169
6.4.3模型的復(fù)雜度170
6.4.4正則化171
6.4.5認(rèn)真學(xué)習(xí)和懶惰學(xué)習(xí)171
6.5模型評價172
6.5.1二元0-1分類器的評價——混淆矩陣172
6.5.2混淆矩陣的舉例說明174
6.5.3二元分類器的成本計算176
6.5.4二元分類器例題數(shù)據(jù)R語言176
6.5.5多標(biāo)簽分類器的評價179
6.5.6多標(biāo)簽分類器評價R語言181
6.5.7交驗證分類的評價183
6.5.8分類學(xué)習(xí)的ROC曲線183
6.5.9連續(xù)型目標(biāo)變量回歸模型的評價187
6.6R語言實戰(zhàn)189
6.6.1R語言自動調(diào)模與調(diào)參189
6.6.2汽車數(shù)據(jù)190
6.6.3乳腺癌診斷數(shù)據(jù)190
6.7本章思維導(dǎo)圖192
第7章回歸分析193
7.1多元線性回歸194
7.1.1多元線性回歸模型194
7.1.2參數(shù)估計195
7.1.3適合性檢驗196
7.1.4實例計算197
7.1.5R語言的實例計算199
7.2變量(特征)選擇200
7.2.1偏相關(guān)系數(shù)200
7.2.2逐步回歸203
7.2.3部分子集回歸204
7.2.4壓縮方法205
7.3Logistic邏輯回歸207
7.4R語言實戰(zhàn)209
7.4.1股票數(shù)據(jù)209
7.4.2乳腺癌病理數(shù)據(jù)210
7.4.3醫(yī)療保險數(shù)據(jù)213
7.4.4棒球數(shù)據(jù)215
7.4.5波士頓房價數(shù)據(jù)218
7.4.6皮瑪數(shù)據(jù)221
7.5本章思維導(dǎo)圖224
第8章近鄰法225
8.1學(xué)習(xí)器226
8.1.1認(rèn)真學(xué)習(xí)器和懶惰學(xué)習(xí)器226
8.1.2基于實例學(xué)習(xí)器227
8.1.3參數(shù)學(xué)習(xí)器和非參數(shù)學(xué)習(xí)器228
8.2近鄰法介紹229
8.2.1k-近鄰法算法步驟229
8.2.2k-近鄰法分類器230
8.2.3k-近鄰法回歸231
8.2.4自變量是分類變量232
8.3近鄰法的優(yōu)點和缺點232
8.4R語言實戰(zhàn)233
8.4.1食材數(shù)據(jù)233
8.4.2鳶尾花數(shù)據(jù)234
8.4.3乳癌檢查數(shù)據(jù)236
8.4.4美國總統(tǒng)候選人數(shù)據(jù)238
8.4.5玻璃數(shù)據(jù)240
8.4.6波士頓房價數(shù)據(jù)241
8.4.7皮瑪數(shù)據(jù)242
8.5本章思維導(dǎo)圖244
第9章貝葉斯分類245
9.1貝葉斯公式246
9.2貝葉斯分類247
9.2.1樸素貝葉斯分類247
9.2.2特征值是連續(xù)變量248
9.2.3樸素貝葉斯分類的優(yōu)點和缺點249
9.3貝葉斯分類的實例計算249
9.3.1天氣和打網(wǎng)球249
9.3.2驗前概率與似然概率251
9.3.3拉普拉斯校準(zhǔn)251
9.3.4R語言實例計算252
9.4R語言實戰(zhàn)255
9.4.1泰坦尼克號數(shù)據(jù)255
9.4.2鳶尾花數(shù)據(jù)256
9.4.3垃圾郵件數(shù)據(jù)258
9.4.4皮瑪數(shù)據(jù)261
9.5本章思維導(dǎo)圖262
0章決策樹263
10.1決策樹概述2
10.1.1圖形表示2
10.1.2邏輯表示265
10.1.3規(guī)則表示265
10.1.4數(shù)學(xué)公式表示265
10.2決策樹的信息計算266
10.2.1信息計算266
10.2.2熵與信息267
10.2.3信息增益267
10.2.4信息增益比268
10.2.5基尼系數(shù)與基尼增益268
10.2.6卡方統(tǒng)計量269
10.2.7分枝法則的選擇269
10.2.8回歸樹269
10.3決策樹的實例計算270
10.4決策樹的剪枝277
10.4.1貪婪算法277
10.4.2決策樹剪枝278
10.5決策樹的優(yōu)點和缺點279
10.6R語言實戰(zhàn)280
10.6.1決策樹R語言包280
10.6.2打網(wǎng)球數(shù)據(jù)280
10.6.3泰坦尼克號數(shù)據(jù)283
10.6.4鳶尾花數(shù)據(jù)284
10.6.5皮瑪數(shù)據(jù)289
10.6.6汽車座椅銷售數(shù)據(jù)292
10.6.7波士頓房價數(shù)據(jù)295
10.6.8貓數(shù)據(jù)297
10.6.9駝背數(shù)據(jù)300
10.6.10美國總統(tǒng)選舉投票數(shù)據(jù)301
10.6.11員工離職數(shù)據(jù)302
10.7本章思維導(dǎo)圖306
1章支持向量機307
11.1支持向量機概述308
11.2大間隔分類(硬間隔)310
11.3支持向量分類(軟間隔)311
11.4支持向量機(核函數(shù))313
11.4.1支持向量機的核函數(shù)313
11.4.2多元分類支持向量機315
11.5支持向量機的優(yōu)點和缺點315
11.6支持向量機R語言應(yīng)用316
11.6.1隨機正態(tài)分布數(shù)據(jù)線性核函數(shù)317
11.6.2隨機正態(tài)分布數(shù)據(jù)徑向基核函數(shù)318
11.6.3三分類數(shù)據(jù)徑向基核函數(shù)321
11.7R語言實戰(zhàn)322
11.7.1基因表達(dá)數(shù)據(jù)322
11.7.2鳶尾花數(shù)據(jù)322
11.7.3貓數(shù)據(jù)323
11.7.4皮瑪數(shù)據(jù)325
11.7.5字符數(shù)據(jù)328
11.7.6玻璃數(shù)據(jù)329
11.8本章思維導(dǎo)圖332
2章集成學(xué)習(xí)333
12.1集成學(xué)習(xí)介紹334
12.2個別分類方法評價335
12.3Bagging學(xué)習(xí)337
12.4隨機森林338
12.4.1隨機森林介紹338
12.4.2隨機森林算法步驟339
12.4.3R語言339
12.4.4隨機森林的優(yōu)點和缺點340
12.4.5非監(jiān)督式學(xué)習(xí)-鳶尾花數(shù)據(jù)340
12.4.6美國大學(xué)數(shù)據(jù)341
12.5Boosting學(xué)習(xí)342
12.6Stacking學(xué)習(xí)343
12.6.1皮瑪數(shù)據(jù)343
12.6.2員工離職數(shù)據(jù)344
12.7R語言實戰(zhàn)345
12.7.1紅酒數(shù)據(jù)345
12.7.2信用數(shù)據(jù)347
12.7.3皮瑪數(shù)據(jù)348
12.7.4波士頓房價數(shù)據(jù)349
12.7.5汽車座椅數(shù)據(jù)352
12.7.6顧客流失數(shù)據(jù)353
12.8本章思維導(dǎo)圖356
3章推薦系統(tǒng)357
13.1推薦系統(tǒng)概述358
13.2過濾推薦359
13.2.1相似度360
13.2.2基于用戶的協(xié)同過濾360
13.2.3基于項目的協(xié)同過濾361
13.2.4協(xié)同過濾的評價362
13.2.5協(xié)同過濾的優(yōu)點和缺點363
13.2.6混合的推薦機制3
13.3R語言應(yīng)用365
13.3.1推薦系統(tǒng)R語言包365
13.3.2recommenderlab函數(shù)程序366
13.3.3模擬數(shù)據(jù)367
13.4R語言實戰(zhàn)369
13.4.1電影數(shù)據(jù)369
13.4.2笑話數(shù)據(jù)373
13.5本章思維導(dǎo)圖378
結(jié)語379
參考文獻(xiàn)381