信息時代,大數(shù)據(jù)的應用無處不在。手機中“淘寶”“抖音”的商品推送、短視頻內(nèi)容推送背后,是大數(shù)據(jù)用戶畫像及推薦算法;道路上的“一路綠燈”背后,是智能交通——交通管理部門分析、調(diào)整交通情況;新冠肺炎疫情不漏一人的流調(diào)背后,是智慧“戰(zhàn)疫”——有關部門以“大數(shù)據(jù)+網(wǎng)格化”的方式識別和挖掘目標人群遷徙軌跡;智慧電廠“一鍵啟停、無人值守”的背后,是以大數(shù)據(jù)為基礎的工業(yè)級智能化應用。本書從大數(shù)據(jù)解析的基本概念講起,“庖丁解牛”式地為大家講解大數(shù)據(jù)解析中常用的基礎算法,介紹不同算法的基本原理和適用場合,揭開大數(shù)據(jù)解析的神秘面紗!凹埳系脕斫K覺淺,絕知此事要躬行。”本書結(jié)合研究實例,以問題為導向,深入淺出,引導大家“根據(jù)釘子選擇錘子”,領略大數(shù)據(jù)的魅力。
本書是數(shù)據(jù)分析及相關課程的教學用書,適用于高等院校自動化、數(shù)據(jù)科學與大數(shù)據(jù)技術、人工智能等涉及數(shù)據(jù)挖掘相關的專業(yè)的本科生。
1緒論1
1.1統(tǒng)計學基礎1
1.1.1期望、方差、協(xié)方差1
1.1.2一元高斯分布3
1.1.3多元高斯分布3
1.1.4KL散度4
1.2人工智能簡介4
1.2.1人工智能的概念5
1.2.2人工智能的發(fā)展5
1.2.3人工智能的學派7
1.3機器學習7
1.3.1基本概念8
1.3.2機器學習的范式8
1.3.3機器學習的三要素9
1.3.4過擬合與正則化11
1.3.5偏差與方差12
1.4深度學習14
1.4.1生物神經(jīng)網(wǎng)絡14
1.4.2人工神經(jīng)網(wǎng)絡15
1.4.3主流的深度學習框架16
本章小結(jié)17
習題117
參考文獻18
2數(shù)據(jù)預處理與特征工程20
2.1數(shù)據(jù)預處理20
2.1.1數(shù)據(jù)清洗21
2.1.2數(shù)據(jù)變換24
2.2特征工程27
2.2.1特征提取27
2.2.2特征選擇27
2.3應用實例30
2.3.1數(shù)據(jù)集簡介與環(huán)境準備30
2.3.2數(shù)據(jù)集導入與字段理解31
2.3.3缺失值處理31
2.3.4異常值處理32
2.3.5數(shù)據(jù)變換33
2.3.6特征工程34
2.3.7案例小結(jié)34
本章小結(jié)34
習題235
參考文獻36
3數(shù)據(jù)降維37
3.1數(shù)據(jù)降維簡介37
3.2主成分分析算法38
3.2.1主成分分析算法簡介38
3.2.2主成分分析的數(shù)學原理38
3.2.3主成分分析的直觀理解40
3.3慢特征分析算法41
3.3.1慢特征分析算法簡介41
3.3.2慢特征分析的數(shù)學原理41
3.3.3慢特征分析的直觀理解43
3.4應用實例44
3.4.1主成分分析的數(shù)值示例44
3.4.2主成分分析的應用示例45
本章小結(jié)47
習題347
參考文獻48
4回歸分析50
4.1回歸分析基本概念50
4.1.1回歸的起源50
4.1.2回歸模型的建立及應用51
4.1.3回歸模型分類52
4.1.4回歸模型效果評估52
4.2最小二乘回歸53
4.2.1最小二乘法擬合目標53
4.2.2最小二乘回歸原理54
4.2.3最小二乘法的幾何意義56
4.2.4最小二乘法的缺陷57
4.3嶺回歸與LASSO回歸57
4.3.1嶺回歸算法58
4.3.2LASSO回歸算法61
4.3.3線性回歸模型的正則化項63
4.4主元回歸64
4.4.1維數(shù)災難64
4.4.2主元回歸建模65
4.4.3主成分個數(shù)選取65
4.4.4主元回歸與嶺回歸66
4.5偏最小二乘回歸66
4.5.1偏最小二乘建模67
4.5.2目標函數(shù)與算法推導67
4.5.3潛變量個數(shù)確定69
4.6回歸案例分析70
本章小結(jié)72
習題472
參考文獻73
5聚類分析75
5.1基本思想與概念75
5.1.1聚類的概念75
5.1.2聚類算法分類76
5.2相似性度量77
5.2.1相似性度量的基本概念77
5.2.2距離度量77
5.2.3相關系數(shù)81
5.2.4選擇相似性衡量手段的原則82
5.3K-均值聚類算法簡介83
5.3.1算法思想83
5.3.2算法流程84
5.3.3算法關鍵影響因素85
5.3.4算法應用:圖像壓縮86
5.4高斯混合模型簡介87
5.4.1算法介紹87
5.4.2利用GMM算法進行聚類88
5.4.3算法示例88
本章小結(jié)91
習題591
參考文獻92
6判別分析93
6.1基本理論93
6.1.1判別的基本概念93
6.1.2判別的效果評估94
6.2距離判別94
6.3貝葉斯判別95
6.3.1貝葉斯的統(tǒng)計思想96
6.3.2貝葉斯最小錯誤率判別96
6.3.3貝葉斯最小風險判別97
6.3.4先驗概率的選取97
6.3.5多總體貝葉斯判別準則98
6.3.6多總體貝葉斯判別函數(shù)98
6.4Fisher判別100
6.4.1Fisher判別的基本思想100
6.4.2Fisher判別的優(yōu)化目標100
6.4.3多分類問題101
6.4.4Fisher判別的分析步驟102
6.4.5案例分析103
本章小結(jié)104
習題6104
參考文獻105
7支持向量機107
7.1線性可分支持向量機107
7.1.1線性可分的概念107
7.1.2間隔最大化108
7.1.3支持向量機求解109
7.2軟間隔支持向量機111
7.3非線性支持向量機112
7.4支持向量回歸114
7.5支持向量機實例116
7.5.1線性可分支持向量機實例116
7.5.2非線性支持向量機實例117
本章小結(jié)118
習題7118
參考文獻119
8典型相關分析120
8.1基本概念120
8.1.1CCA的歷史及用途120
8.1.2CCA的思想121
8.1.3CCA的擴展方法122
8.2典型相關分析算法介紹122
8.3CCA算法拓展125
8.3.1多視角CCA125
8.3.2核CCA127
8.3.3深度CCA128
8.3.4判別CCA128
8.3.5局部保留CCA130
8.4典型相關分析案例分析130
8.4.1案例一:城市競爭力分析130
8.4.2案例二:多標簽分類132
本章小結(jié)134
習題8135
參考文獻136
9決策樹與隨機森林138
9.1決策樹基本內(nèi)容138
9.2決策樹算法介紹139
9.2.1信息熵和信息增益140
9.2.2剪枝算法142
9.3隨機森林介紹143
9.4應用實例145
9.4.1Python實現(xiàn)決策樹145
9.4.2Python實現(xiàn)隨機森林146
本章小結(jié)148
習題9149
參考文獻150
10神經(jīng)網(wǎng)絡151
10.1基本概念151
10.1.1基本結(jié)構——神經(jīng)元模型151
10.1.2感知機152
10.1.3多層前饋神經(jīng)網(wǎng)絡153
10.1.4激活函數(shù)153
10.1.5誤差反向傳播算法155
10.2深度神經(jīng)網(wǎng)絡157
10.2.1模型優(yōu)化方法157
10.2.2參數(shù)初始化160
10.2.3數(shù)據(jù)預處理161
10.2.4防止過擬合162
10.2.5數(shù)據(jù)增強162
10.3寬度學習(BLS)簡介163
10.3.1BLS產(chǎn)生背景163
10.3.2RVFLNN簡介164
10.3.3BLS算法介紹164
10.3.4BLS實際應用案例168
本章小結(jié)169
習題10169
參考文獻170
11卷積神經(jīng)網(wǎng)絡172
11.1卷積神經(jīng)網(wǎng)絡基礎172
11.1.1卷積172
11.1.2池化(pooling)174
11.1.3卷積神經(jīng)網(wǎng)絡的優(yōu)點175
11.1.4LeNet176
11.2卷積網(wǎng)絡進階與實例178
11.2.1特殊的卷積核178
11.2.2卷積網(wǎng)絡實例181
本章小結(jié)185
習題11185
參考文獻186
12循環(huán)神經(jīng)網(wǎng)絡187
12.1循環(huán)神經(jīng)網(wǎng)絡基礎187
12.1.1RNN的用途187
12.1.2RNN的結(jié)構及工作方式188
12.1.3LSTM的結(jié)構及計算方式189
12.2循環(huán)神經(jīng)網(wǎng)絡進階191
12.2.1殘差循環(huán)神經(jīng)網(wǎng)絡191
12.2.2門控循環(huán)單元GRU192
12.2.3雙向循環(huán)神經(jīng)網(wǎng)絡193
12.2.4堆疊循環(huán)神經(jīng)網(wǎng)絡194
本章小結(jié)194
習題12195
參考文獻196
13自編碼器197
13.1自編碼器簡介197
13.1.1回顧:監(jiān)督學習、半監(jiān)督學習、無監(jiān)督學習197
13.1.2生成模型與判別模型198
13.1.3自編碼器的公式化表述199
13.1.4關于自編碼器的討論199
13.1.5常見的自編碼器變體200
13.2稀疏自編碼器201
13.2.1稀疏自編碼器結(jié)構201
13.2.2堆棧自編碼器結(jié)構203
13.2.3堆棧稀疏自編碼器206
13.3去噪自編碼器206
13.3.1原理介紹206
13.3.2訓練過程207
13.3.3堆棧去噪自編碼器208
13.3.4稀疏去噪自編碼器209
13.3.5流形學習角度看去噪自編碼器210
13.3.6小結(jié)211
13.4變分自編碼器211
13.4.1變分自編碼器的引出212
13.4.2變分自編碼器的推導212
13.4.3變分自編碼器的網(wǎng)絡結(jié)構214
13.4.4變分自編碼器的實例214
13.4.5變分自編碼器的拓展216
13.4.6小結(jié)217
本章小結(jié)217
習題13217
參考文獻219
14集成學習221
14.1集成學習簡介221
14.1.1基本概念與模型結(jié)合策略221
14.1.2小結(jié)225
14.2集成學習:Bagging225
14.2.1算法簡介225
14.2.2Bagging算法的自助采樣226
14.2.3Bagging算法的結(jié)合策略227
14.2.4偏差與方差分析230
14.3集成學習:Boosting233
14.3.1算法簡介233
14.3.2AdaBoost234
14.3.3GBDT238
14.4應用實例240
14.4.1Bagging實例:Random Forest240
14.4.2Boosting實例:AdaBoost244
本章小結(jié)245
習題14246
參考文獻247
15案例分析249
15.1二手車交易價格預測249
15.1.1案例背景249
15.1.2數(shù)據(jù)概覽與評測標準249
15.1.3整體思路251
15.1.4數(shù)據(jù)分析與預處理251
15.1.5特征工程與特征篩選253
15.1.6平均值編碼253
15.1.7數(shù)據(jù)建模與融合255
15.1.8小結(jié)256
15.2糖尿病的血糖預測256
15.2.1背景介紹257
15.2.2數(shù)據(jù)獲取257
15.2.3數(shù)據(jù)預處理257
15.2.4算法與實驗結(jié)果259
15.2.5小結(jié)263
15.3工業(yè)蒸汽量預測263
15.3.1數(shù)據(jù)集介紹263
15.3.2數(shù)據(jù)清洗與特征工程263
15.3.3基本回歸模型訓練與分析264
15.3.4XGBoost模型訓練與結(jié)果分析266
15.3.5小結(jié)268
15.4雙盲降噪自編碼器實現(xiàn)降噪268
15.4.1軟測量任務需求268
15.4.2問題分析269
15.4.3去噪算法概述270
15.4.4雙盲降噪自編碼器271
15.4.5DBDAE降噪與軟測量272
15.4.6小結(jié)276
15.5心率異常檢測276
15.5.1心電圖數(shù)據(jù)277
15.5.2基于殘差神經(jīng)網(wǎng)絡的心電診斷277
15.5.3基于知識+特征工程的心電診斷279
15.5.4小結(jié)284
本章小結(jié)284
習題15284
參考文獻286