數據科學家目前是北美十分熱門的職業(yè)之一,平均年薪突破10萬美元。但數據科學并不是一個低門檻的行業(yè),除了對數學、統(tǒng)計、計算機等相關領域的技術要求以外,還要相關應用領域的知識!短茁!機器學習:北美數據科學家的私房課》的寫作對象是那些現在從事數據分析相關行業(yè),或者之后想從事數據分析行業(yè)的人,意在為實踐者提供數據科學家這門職業(yè)的相關信息。讀者可以從閱讀中了解到數據科學能解決的問題,數據科學家需要的技能,及背后的“分析哲學”。對于新手而言,一開始就直奔艱深的理論,很容易因為困難而失去興趣然后放棄。因此《套路!機器學習:北美數據科學家的私房課》倡導的是一種循序漸進的啟發(fā)教學路徑,著重在于數據科學的實際應用,讓讀者能夠重復書中的結果,學習數據分析技能實際的方式是實踐!為了平衡理論和應用,書中包括了一些選學小節(jié),用來介紹更多的模型數理背景或給出必要的參考資料來源。抽絲剝繭介紹技術內核,幫助大家知其然,同時知其所以然。希望筆者在北美從事數據科學工作多年踏遍大大小小不計其數的坑換來的經驗,能夠幫助讀者更加順利地成為數據科學家!
亞馬孫資深數據科學家里面博士、統(tǒng)計之都創(chuàng)始人謝益輝博士搶先品讀
當前關于大數據、人工智能的炒作著實令人眼花繚亂,如大數據平臺(如Hadoop、Spark),以及一些黑箱模型,如神經網絡,深度學習(實際上就是多層神經網絡)。各路媒體和“磚家”深諳吃瓜群眾不明覺厲的心態(tài),所以就像個“妓院頭牌“似的越發(fā)擺譜。作者并沒有打算寫一本數據科學的圣經,告訴你所有關于數據科學的一切;只想盡可能地給大家還原一個真實的數據科學和數據科學家。希望能為后來者提供一些信息,使得讀者們能夠少走彎路。
2013年至今任美國杜邦公司商業(yè)數據科學家。北京師范大學數學科學學院本科,愛荷華州立大學統(tǒng)計學院碩士和博士。曾任愛荷華州立大學獸醫(yī)學院統(tǒng)計咨詢師(2009-2013)及商學院分析咨詢師(2012-2013)。當選2017-2018美國統(tǒng)計協(xié)會市場營銷統(tǒng)計項目主席。翻譯出版了《應用預測建!泛汀禦語言市場研究分析》。
第1章 白話數據科學 1
1.1 什么是數據科學 3
1.2 什么是數據科學家 5
1.2.1 數據科學家需要的技能 6
1.2.2 數據科學算法總結 10
1.3 數據科學可以解決什么問題 20
1.3.1 前提要求 20
1.3.2 問題種類 22
1.4 小結 25
第2章 數據集 26
2.1 服裝消費者數據 26
2.2 航空公司滿意度調查 33
2.3 生豬疫情風險預測數據 37
第3章 數據分析流程 41
3.1 從問題到數據 42
3.2 從數據到信息 44
3.3 從信息到行動 46
第4章 數據預處理 47
4.1 介紹 47
4.2 數據清理 50
4.3 缺失值填補 52
4.3.1 中位數或眾數填補 53
4.3.2 K-近鄰填補 54
4.3.3 裝袋樹填補 56
4.4 中心化和標量化 56
4.5 有偏分布 59
4.6 處理離群點 63
4.7 共線性 66
4.8 稀疏變量 70
4.9 編碼名義變量 71
4.10 小結 73
第5章 數據操作 75
5.1 數據讀寫 76
5.1.1 取代傳統(tǒng)數據框的tibble對象 76
5.1.2 高效數據讀寫:readr包 80
5.1.3 數據表對象讀取 83
5.2 數據整合 91
5.2.1 base包:apply() 91
5.2.2 plyr包:ddply()函數 93
5.2.3 dplyr包 96
5.3 數據整形 102
5.3.1 reshape2包 102
5.3.2 tidyr包 105
5.4 小結 107
第6章 基礎建模技術 109
6.1 有監(jiān)督和無監(jiān)督 109
6.2 誤差及其來源 111
6.2.1 系統(tǒng)誤差和隨機誤差 111
6.2.2 因變量誤差 117
6.2.3 自變量誤差 121
6.3 數據劃分和再抽樣 122
6.3.1 劃分訓練集和測試集 123
6.3.2 重抽樣 131
6.4 小結 135
第7章 模型評估度量 136
7.1 回歸模型評估度量 136
7.2 分類模型評估度量 139
7.2.1 Kappa統(tǒng)計量 141
7.2.2 ROC曲線 143
7.2.3 提升圖 145
7.3 小結 146
第8章 特征工程 148
8.1 特征構建 149
8.2 特征提取 152
8.2.1 初步探索特征 153
8.2.2 主成分分析 158
8.2.3 探索性因子分析 163
8.2.4 高維標度化 167
8.2.5 知識擴展:3種降維特征提取方法的理論 171
8.3 特征選擇 177
8.3.1 過濾法 178
8.3.2 繞封法 188
8.4 小結 195
第9章 線性回歸及其衍生 196
9.1 普通線性回歸 197
9.1.1 最小二乘線性模型 197
9.1.2 回歸診斷 201
9.1.3 離群點、高杠桿點和強影響點 204
9.2 收縮方法 205
9.2.1 嶺回歸 205
9.2.2 Lasso 209
9.2.3 彈性網絡 212
9.3 知識擴展:LASSO的變量選擇功能 213
9.4 主成分和偏最小二乘回歸 215
9.5 小結 221
第10章 廣義線性模型壓縮方法 222
10.1 初識GLMNET 223
10.2 收縮線性回歸 227
10.3 邏輯回歸 235
10.3.1 普通邏輯回歸 235
10.3.2 收縮邏輯回歸 236
10.3.3 知識擴展:群組lasso邏輯回歸 239
10.4 收縮多項回歸 243
10.5 泊松收縮回歸 246
10.6 小結 249
第11章 樹模型 250
11.1 分裂準則 252
11.2 樹的修剪 256
11.3 回歸樹和決策樹 260
11.4 裝袋樹 268
11.5 隨機森林 273
11.6 助推法 277
11.7 知識擴展:助推法的可加模型框架 283
11.8 知識擴展:助推樹的數學框架 286
11.8.1 數學表達 286
11.8.2 梯度助推數值優(yōu)化 289
11.9 小結 290
第12章 神經網絡 292
12.1 投影尋蹤回歸(PROJECTION PURSUIT REGRESSION) 293
12.2 神經網絡(NEURAL NETWORKS) 296
12.3 神經網絡擬合 299
12.4 訓練神經網絡 300
12.5 用CARET包訓練神經網絡 302
12.6 小結 311
參考文獻 312