作為機(jī)器學(xué)習(xí)的核心,《機(jī)器學(xué)入門(mén)》介紹了基于貝葉斯推論的機(jī)器學(xué)習(xí),其基本思想是將數(shù)據(jù)及數(shù)據(jù)產(chǎn)生的過(guò)程視為隨機(jī)事件,從數(shù)據(jù)的固有特征開(kāi)始,通過(guò)一系列假設(shè)來(lái)進(jìn)行數(shù)據(jù)的描述,進(jìn)而構(gòu)建出與機(jī)器學(xué)習(xí)任務(wù)相適應(yīng)的隨機(jī)模型,然后通過(guò)模型的解析求解或近似求解得出未知事件的預(yù)測(cè)模型。通過(guò)貝葉斯學(xué)習(xí),我們可以了解到更多關(guān)于數(shù)據(jù)的信息,進(jìn)而可以大致清楚進(jìn)行學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的規(guī)模和復(fù)雜程度。更重要的是,當(dāng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中出現(xiàn)問(wèn)題時(shí),通過(guò)貝葉斯學(xué)習(xí)可以找到解決問(wèn)題的方向和途徑。因此,可以說(shuō)貝葉斯學(xué)習(xí)是深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的理論基礎(chǔ),也是進(jìn)行神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的必修課。本書(shū)在內(nèi)容安排上,盡可能對(duì)概率統(tǒng)計(jì)和隨機(jī)過(guò)程的基礎(chǔ)進(jìn)行了較為完整的介紹,并對(duì)常用的概率分布進(jìn)行了詳盡的分析。在此基礎(chǔ)上重點(diǎn)介紹了單一模型及混合模型的貝葉斯推論方法,并結(jié)合具體應(yīng)用進(jìn)行了擴(kuò)展和分析。在注重理論介紹的同時(shí)也考慮到了實(shí)際的應(yīng)用擴(kuò)展,從而保證了讀者學(xué)習(xí)的完整性。其所給出的隨機(jī)模型分析、構(gòu)建及求解方法力圖詳盡,對(duì)讀者進(jìn)行貝葉斯方法的學(xué)習(xí)和實(shí)際應(yīng)用具有較高的指導(dǎo)和參考價(jià)值。
譯者序
原書(shū)序
原書(shū)前言
第1章 機(jī)器學(xué)習(xí)與貝葉斯學(xué)習(xí) 1
1.1 什么是機(jī)器學(xué)習(xí)? 1
1.2 機(jī)器學(xué)習(xí)的典型任務(wù) 2
1.2.1 回歸 2
1.2.2 分類 3
1.2.3 聚類 4
1.2.4 降維 4
1.2.5 其他典型任務(wù) 6
1.3 機(jī)器學(xué)習(xí)的兩類方法 6
1.3.1 基于工具箱的機(jī)器學(xué)習(xí) 6
1.3.2 基于建模的機(jī)器學(xué)習(xí) 7
1.4 概率的基本計(jì)算 8
1.4.1 概率分布 8
1.4.2 概率分布的推定 9
1.4.3 紅球和白球問(wèn)題 11
1.4.4 多個(gè)觀測(cè)數(shù)據(jù) 13
1.4.5 逐次推論 15
1.4.6 參數(shù)未知的情況 15
1.5 圖模型 16
1.5.1 有向圖 17
1.5.2 節(jié)點(diǎn)的附加條件 18
1.5.3 馬爾可夫覆蓋 20
1.6 貝葉斯學(xué)習(xí)方法 20
1.6.1 模型的構(gòu)建和推論 20
1.6.2 各類任務(wù)中的貝葉斯推論 21
1.6.3 復(fù)雜后驗(yàn)分布的近似 24
1.6.4 基于不確定性的決策 25
1.6.5 貝葉斯學(xué)習(xí)的優(yōu)點(diǎn)與缺點(diǎn) 26
第2章 基本的概率分布 30
2.1 期望值30
2.1.1 期望值的定義 30
2.1.2 基本的期望值 30
2.1.3 熵 31
2.1.4 KL散度 32
2.1.5 抽樣的期望值近似計(jì)算 32
2.2 離散概率分布33
2.2.1 伯努利分布 33
2.2.2 二項(xiàng)分布 35
2.2.3 類分布 36
2.2.4 多項(xiàng)分布 37
2.2.5 泊松分布 38
2.3 連續(xù)概率分布40
2.3.1 Beta分布 40
2.3.2 Dirichlet分布 41
2.3.3 Gamma分布 43
2.3.4 一維高斯分布 44
2.3.5 多維高斯分布 45
2.3.6 Wishart分布 48
第3章 基于貝葉斯推論的學(xué)習(xí)和預(yù)測(cè) 51
3.1 學(xué)習(xí)和預(yù)測(cè)51
3.1.1 參數(shù)的后驗(yàn)分布 51
3.1.2 預(yù)測(cè)分布 523.1.3 共軛先驗(yàn)分布 53
3.1.4 非共軛先驗(yàn)分布的運(yùn)用 54
3.2 離散概率分布的學(xué)習(xí)和預(yù)測(cè)55
3.2.1 伯努利分布的學(xué)習(xí)和預(yù)測(cè) 55
3.2.2 類分布的學(xué)習(xí)和預(yù)測(cè) 59
3.2.3 泊松分布的學(xué)習(xí)和預(yù)測(cè) 61
3.3 一維高斯分布的學(xué)習(xí)和預(yù)測(cè)63
3.3.1 均值未知的情況 63
3.3.2 精度未知的情況 66
3.3.3 均值和精度均未知的情況 68
3.4 多維高斯分布的學(xué)習(xí)和預(yù)測(cè)71
3.4.1 均值未知的情況 71
3.4.2 精度未知的情況 73
3.4.3 均值和精度均未知的情況 75
3.5 線性回歸的例子77
3.5.1 模型的構(gòu)建 77
3.5.2 后驗(yàn)分布和預(yù)測(cè)分布的計(jì)算 78
3.5.3 模型的比較 80
第4章 混合模型和近似推論 84
4.1 混合模型和后驗(yàn)分布的推論84
4.1.1 使用混合模型的理由 84
4.1.2 混合模型的數(shù)據(jù)生成過(guò)程 85
4.1.3 混合模型的后驗(yàn)分布 87
4.2 概率分布的近似方法88
4.2.1 吉布斯采樣 88
4.2.2 變分推論 90
4.3 泊松混合模型的推論93
4.3.1 泊松混合模型 93
4.3.2 吉布斯采樣 94
4.3.3 變分推論 97
4.3.4 折疊式吉布斯采樣 100
4.3.5 簡(jiǎn)易實(shí)驗(yàn) 105
4.4 高斯混合模型中的推論106
4.4.1 高斯混合模型 106
4.4.2 吉布斯采樣 107
4.4.3 變分推論 110
4.4.4 折疊式吉布斯采樣 113
4.4.5 簡(jiǎn)易實(shí)驗(yàn) 115
第5章 應(yīng)用模型的構(gòu)建和推論 119
5.1 線性降維119
5.1.1 模型 120
5.1.2 變分推論 120
5.1.3 數(shù)據(jù)的不可逆壓縮 123
5.1.4 缺失值內(nèi)插 124
5.2 非負(fù)值矩陣因子分解126
5.2.1 模型 127
5.2.2 變分推論 129
5.3 隱馬爾可夫模型132
5.3.1 模型 133
5.3.2 完全分解變分推論 135
5.3.3 結(jié)構(gòu)化變分推論 139
5.4 主題模型143
5.4.1 模型 143
5.4.2 變分推論 146
5.4.3 折疊式吉布斯采樣 148
5.4.4LDA模型的應(yīng)用與擴(kuò)展 151
5.5 張量分解151
5.5.1 協(xié)同過(guò)濾 1525.5.2 模型 154
5.5.3 變分推論 155
5.5.4 缺失值的內(nèi)插 160
5.6 logistic回歸161
5.6.1 模型 161
5.6.2 變分推論 162
5.6.3 離散值的預(yù)測(cè) 165
5.7 神經(jīng)網(wǎng)絡(luò)166
5.7.1 模型 167
5.7.2 變分推論 168
5.7.3 連續(xù)值的預(yù)測(cè) 169
附錄A 相關(guān)計(jì)算的補(bǔ)充 171
A.1 基本的矩陣計(jì)算171
A.1.1 轉(zhuǎn)置 171
A.1.2 逆矩陣 171
A.1.3 矩陣的跡 172
A.1.4 方陣的行列式 172
A.1.5 正定值矩陣 172
A.2 特殊函數(shù)173
A.2.1gamma函數(shù)和digamma函數(shù) 173
A.2.2sigmoid函數(shù)和softmax函數(shù) 173
A.3 梯度法174
A.3.1 函數(shù)的梯度 174
A.3.2 最速下降法 175
A.3.3 坐標(biāo)下降法 175
A.4 邊緣似然度下限176
A.4.1 邊緣似然度和ELBO 176
A.4.2 泊松混合分布的例子 177
參考文獻(xiàn) 178