本書由淺入深,內容豐富。全書共11章,主要內容包括第1章R語言數(shù)據(jù)分析概述、第2章R語言數(shù)據(jù)操作基礎、第3章數(shù)據(jù)讀寫、第4章數(shù)據(jù)預處理、第5章數(shù)據(jù)的描述統(tǒng)計分析、第6章 數(shù)據(jù)相關性分析、第7章 R語言可視化基礎、第8章 高級可視化工具、第9章聚類分析、第10章關聯(lián)規(guī)則、第11章分類及預測。
本書可作為高等院校數(shù)據(jù)科學相關專業(yè)的教材,也可作為初級數(shù)據(jù)分析進行數(shù)據(jù)分析學習的指導書。
1.R語言實戰(zhàn)派專家,又一力作
2.數(shù)據(jù)分析、數(shù)據(jù)管理及數(shù)據(jù)可視化,核心技能全掌握
3.配備視頻,邊學邊做,數(shù)據(jù)分析輕松上手
4.本書可作為高等院校數(shù)據(jù)科學相關專業(yè)的教材,也可作為初級數(shù)據(jù)分析進行數(shù)據(jù)分析學習的指導書。
謝佳標,WOT 互聯(lián)網 大數(shù)據(jù)技術峰會演講嘉賓,歷屆中國R語言大會演講嘉賓,某知名科技公司高級數(shù)據(jù)分析師,8年以上數(shù)據(jù)挖掘建模工作實戰(zhàn)經驗,部分研究成果曾獲得國家專利。 攥寫《R語言與數(shù)據(jù)挖掘》、《R語言游戲數(shù)據(jù)分析》書籍。主要利用R語言進行大數(shù)據(jù)的挖掘和可視化工作。有豐富的利用R語言進行數(shù)據(jù)挖掘實戰(zhàn)經驗,同時也是公司R語言和數(shù)據(jù)分析培訓的內部講師。
目錄
第 1章 R語言數(shù)據(jù)分析概述1
1.1認識數(shù)據(jù)分析1
1.1.1為什么要對數(shù)據(jù)做分析1
1.1.2數(shù)據(jù)分析的流程1
1.2R語言的簡介及安裝2
1.2.1R語言簡介2
1.2.2R語言的安裝3
1.2.3其他輔助工具3
1.2.4R語言快速上手4
1.3小結9
1.4本章練習9
第 2章 R語言數(shù)據(jù)操作基礎11
2.1R語言數(shù)據(jù)類型11
2.1.1數(shù)據(jù)類型判斷及轉換11
2.1.2日期類型數(shù)據(jù)處理12
2.2R語言數(shù)據(jù)對象16
2.2.1.向量16
2.2.2.矩陣和數(shù)組20
2.2.3因子22
2.2.4列表和數(shù)據(jù)框24
2.3文本處理25
2.3.1基礎文本處理25
2.3.2stringr擴展包33
2.4小結37
2.5本章練習37
第3章 R語言數(shù)據(jù)讀寫39
3.1文本文件讀寫39
3.1.1base包39
3.1.2readr包43
3.1.3data.table包46
3.2Excel文件讀寫48
3.2.1xlsx包50
3.2.2XLConnect包54
3.2.3openxlsx包56
3.2.4readxl包59
3.3數(shù)據(jù)庫文件讀寫60
3.3.1RODBC包61
3.3.2RMySQL包65
3.4本章小結67
3.5本章練習67
第4章 數(shù)據(jù)基本管理68
4.1數(shù)據(jù)去重68
4.2 數(shù)據(jù)排序69
4.3 數(shù)據(jù)篩選71
4,4 數(shù)據(jù)合并73
4.5數(shù)據(jù)關聯(lián)75
4.6 數(shù)據(jù)轉換78
4.7融合重鑄79
4.8數(shù)據(jù)聚合81
4.9數(shù)據(jù)分組83
4.10本章小結84
4.11本章練習85
第5章 數(shù)據(jù)預處理86
5.1 數(shù)據(jù)抽樣86
5.1.1數(shù)據(jù)抽樣的必要性86
5.1.2類失衡處理方法:SMOTE86
5.1.3數(shù)據(jù)隨機抽樣:sample函數(shù)87
5.1.4數(shù)據(jù)等比抽樣:createDataPartition函數(shù)88
5.1.5用于交叉驗證的樣本抽樣89
5.2數(shù)據(jù)清洗90
5.2.1缺失值判斷及處理90
5.2.2異常值判斷處理95
5.3數(shù)據(jù)變換99
5.3.1數(shù)據(jù)分箱99
5.3.2數(shù)據(jù)標準化100
5.4數(shù)據(jù)啞變量處理102
5.5本章小結104
5.6本章練習104
第6章 R語言重要繪圖技術105
6.1圖形三要素105
6.1.1 顏色元素105
6.1.2 文字元素108
6.1.3 點線元素109
6.2低級繪圖函數(shù)111
6.2.1標題111
6.2.2坐標軸112
6.2.3圖例113
6.2.4網格線115
6.2.5點116
6.2.6文字116
6.2.7線117
6.3高級繪圖函數(shù)119
6.3.1散點圖120
6.3.2氣泡圖122
6.3.3線圖123
6.3.4柱狀圖124
6.3.5餅圖125
6.3.6直方圖和密度圖125
6.3.7箱線圖127
6.4本章小結127
6.5本章練習127
第7章 高級繪圖工具129
7.1 lattice繪圖工具129
7.1.1 繪圖特色129
7.1.2 基本圖形135
7.2 ggplot2繪圖工具139
7.1.1 從qplot開始139
7.1.2 ggplot作圖146
7.1.3 ggplot2擴展包149
7.3 交互式繪圖工具152
7.3.1 rCharts包152
7.3.2 recharts包154
7.3.3 rbokeh包162
7.3.4 plotly包164
7.4 本章小結166
7.5 本章練習166
第8章 聚類分析168
8.1概述168
8.2聚類距離度量169
8.3層次聚類172
8.3.1層次聚類原理172
8.3.2R語言實現(xiàn)173
8.3.3聚類樹形圖可視化177
8.3.4比較聚類樹形圖186
8.4K-均值聚類190
8.4.1K-均值聚類原理190
8.4.2R語言實現(xiàn)190
8.5K-中心點聚類192
8.6密度聚類195
8.6.1密度聚類原理195
8.6.2R語言實現(xiàn)196
8.7集群評估及驗證201
8.7.1估計聚類趨勢201
8.7.2確定數(shù)據(jù)集中的簇數(shù)202
8.7.3集群驗證204
8.8本章小結205
8.9本章練習205
第9章 理解回歸分析207
9.1簡單線性回歸207
9.1.1簡單線性回歸原理207
9.1.2簡單線性回歸R語言實現(xiàn)209
9.1.3模型診斷及預測211
9.1.4指數(shù)變換212
9.1.5多項式回歸213
9.1.6穩(wěn)健線性回歸215
9.2多元線性回歸216
9.3自變量有定性變量的回歸217
9.4逐步回歸219
9.5多重共線性分析221
9.6線性回歸的正則化222
9.6.1為什么要使用正則化222
9.6.2嶺回歸的原理223
9.6.3Lasso回歸的原理224
9.6.4glmnet包簡介225
9.6.5綜合案例228
9.7邏輯回歸230
9.7.1邏輯回歸基本原理230
9.7.2邏輯回歸的R實現(xiàn)231
9.8本章小結234
9.9本章練習234
10.1決策樹概述236
10.2決策樹基本原理237
10.3ID3算法237
10.3.1C4.5算法240
10.3.2CART算法241
10.4R語言實現(xiàn)及案例243
10.4.1R語言實現(xiàn)243
10.4.2C5.0案例243
10.4.3CART案例247
10.4.4條件推理決策樹案例254
10.4.5繪制決策邊界256
10.5集成學習與隨機森林258
10.6本章小結260
10.7本章練習260
第 11章 神經網絡與支持向量機262
11.1理解神經網絡262
11.1.1激活函數(shù)262
11.1.2網絡結構265
11.1.3人工神經網絡的主要類型265
11.2神經網絡的R語言實現(xiàn)266
11.3基于神經網絡進行類別預測269
11.4理解支持向量機275
11.5支持向量機的R語言實現(xiàn)276
11.6基于支持向量機進行類別預測278
11.7本章小結285
11.8本章練習285
12.1模型性能評估287
12.1.1數(shù)值預測評估方法287
12.1.2概率預測評估方法289
12.2模型參數(shù)優(yōu)化298
12.2.1訓練集、驗證集、測試集的引入298
12.2.2K折交叉驗證301
12.2.3網格搜索302
12.3本章小結304
12.4本章練習304