深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)活躍領(lǐng)域,《深度學(xué)習(xí)入門(mén)》的宗旨在于為深度 機(jī)器學(xué)習(xí)的初學(xué)者提供一本通俗易懂、內(nèi)容全面、理論深入的學(xué)習(xí)教材。 本書(shū)的內(nèi)容大體可以分為機(jī)器學(xué)習(xí)基礎(chǔ)、順序傳播神經(jīng)網(wǎng)絡(luò)的深度學(xué) 習(xí)、玻爾茲曼機(jī)和深度強(qiáng)化學(xué)習(xí)四個(gè)部分,既考慮了通俗性和完整性,又 介紹了深度學(xué)習(xí)的各個(gè)方面。其中機(jī)器學(xué)習(xí)基礎(chǔ)部分介紹了神經(jīng)網(wǎng)絡(luò)、機(jī) 器學(xué)習(xí)與深度學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)、典型任務(wù)、數(shù)據(jù)集等;順序傳播神經(jīng)網(wǎng)絡(luò) 的深度學(xué)習(xí)部分介紹了梯度下降法的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的正則化、誤差 反向傳播法、自編碼器、卷積神經(jīng)網(wǎng)絡(luò)以及循環(huán)神經(jīng)網(wǎng)絡(luò)等;玻爾茲曼機(jī) 部分對(duì)圖模型神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)進(jìn)行了深入的介紹;深度強(qiáng)化學(xué)習(xí)部分 則重點(diǎn)介紹了強(qiáng)化學(xué)習(xí)中的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的理論和方法。 通過(guò)本書(shū)的學(xué)習(xí),讀者可以快速了解機(jī)器學(xué)習(xí)的全貌,同時(shí)在理論上 對(duì)其模型和方法進(jìn)行深入分析和理解,從而為實(shí)際的開(kāi)發(fā)打下深厚的理論 基礎(chǔ),為技術(shù)創(chuàng)新提供具有啟發(fā)性的方向和路徑。
目 錄
譯者序
原書(shū)序
原書(shū)前言
第1章 緒論 1
第2章 機(jī)器學(xué)習(xí)與深度學(xué)習(xí) 3
2.1 為什么要進(jìn)行深度學(xué)習(xí) 3
2.2 什么是機(jī)器學(xué)習(xí) 4
2.2.1 典型任務(wù) 4
2.2.2 形式各異的數(shù)據(jù)集 5
2.3 統(tǒng)計(jì)學(xué)基礎(chǔ) 6
2.3.1 樣本和估計(jì) 7
2.3.2 點(diǎn)估計(jì) 8
2.3.3 極大似然估計(jì) 11
2.4 機(jī)器學(xué)習(xí)基礎(chǔ) 12
2.4.1 監(jiān)督學(xué)習(xí) 13
2.4.2 最小二乘法線性回歸 13
2.4.3 基于概率的線性回歸 15
2.4.4 最小二乘法與最優(yōu)法 16
2.4.5 過(guò)度擬合與泛化 17
2.4.6 正則化 18
2.4.7 分類 19
2.4.8 分類方法 19
2.4.9 logistic回歸 20
2.4.10 softmax回歸 21
2.5 特征學(xué)習(xí)與深度學(xué)習(xí)的進(jìn)展 23
2.5.1 特征學(xué)習(xí) 23
2.5.2 深度學(xué)習(xí)的出現(xiàn) 24
第3章 神經(jīng)網(wǎng)絡(luò) 26
3.1 神經(jīng)細(xì)胞網(wǎng)絡(luò) 26
3.2 形式神經(jīng)元 27
3.3 感知器 29
3.3.1 由形式神經(jīng)元到感知器 29
3.3.2 感知器與馬文·明斯基 (Marvin Lee Minsky) 30
3.4 順序傳播神經(jīng)網(wǎng)絡(luò)的組成 31
3.4.1 神經(jīng)元和順序傳播神經(jīng)網(wǎng)絡(luò) 31
3.4.2 輸入層 32
3.4.3 中間層 33
3.4.4 輸出層 34
3.4.5 函數(shù)模型 34
3.5 神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí) 35
3.5.1 回歸 35
3.5.2 二元分類 36
3.5.3 多元分類 37
3.6 激活函數(shù) 37
3.6.1 sigmoid函數(shù)及其變體 38
3.6.2 正則化線性函數(shù) 38
3.6.3 maxout 39
3.7 為什么深度學(xué)習(xí)是重要的 40
第4章 基于梯度下降法的機(jī)器學(xué)習(xí)
41 4.1 梯度下降法 41
4.1.1 梯度下降法尋求最小值 42
4.1.2 局部極小值問(wèn)題 43
4.1.3 隨機(jī)梯度下降法 44
4.1.4 小批量的制作方法 45
4.1.5 收斂和學(xué)習(xí)率的調(diào)度 45
4.2 改進(jìn)的梯度下降法 46
4.2.1 梯度下降法的問(wèn)題 46
4.2.2 動(dòng)量法 47
4.2.3 Nesterov加速梯度下降法 48
4.2.4 AdaGrad 49
4.2.5 RMSprop 50
4.2.6 AdaDelta 50
4.2.7 Adam 51
4.2.8 自然梯度下降法 53
4.3 權(quán)重參數(shù)初始值的選取方法 53
4.3.1 LeCun初始化 53
4.3.2 Glorot 54
4.3.3 He初始化 54
4.4 訓(xùn)練預(yù)處理 55
4.4.1 數(shù)據(jù)的規(guī)格化 55
4.4.2 數(shù)據(jù)的白化 55
4.4.3 圖像數(shù)據(jù)的局部對(duì)比度
第5章 深度學(xué)習(xí)的正則化 59
5.1 泛化性能與正則化 59
5.1.1 泛化誤差與過(guò)度學(xué)習(xí) 59
5.1.2 正則化 61
5.2 權(quán)重衰減 62
5.2.1 權(quán)重衰減的效果 62
5.2.2 稀疏正則化和不良條件問(wèn)題 62 5.3 早期終止 63
5.3.1 什么是早期終止 63
5.3.2 早期終止與權(quán)重衰減的關(guān)系 64 5.4 權(quán)重共享 65 5.5 數(shù)據(jù)擴(kuò)增與噪聲注入 65
5.5.1 數(shù)據(jù)擴(kuò)增與泛化 65
5.5.2 噪聲注入與懲罰項(xiàng) 66
5.6 bagging算法 66 5.7 dropout 67
5.7.1 dropout學(xué)習(xí) 67
5.7.2 dropout學(xué)習(xí)的預(yù)測(cè) 69
5.7.3 dropout理論的證明 70
5.8 深度表示的稀疏化 72
5.9 批量規(guī)格化 72
5.9.1 內(nèi)部協(xié)變量移位 72
5.9.2 批量規(guī)格化 73
第6章 誤差反向傳播法 74
6.1 Perceptron(感知器)和delta 學(xué)習(xí)規(guī)則 74 6.2 誤差反向傳播法 76
6.2.1 參數(shù)微分的復(fù)雜度和模型 76
6.2.2 誤差函數(shù)的梯度 78
6.2.3 反向傳播計(jì)算的初始值 81
6.2.4 梯度的計(jì)算 81
6.2.5 delta的意義 82
6.3 誤差反向傳播法的梯度快速 計(jì)算 82
6.4 梯度消失與參數(shù)爆炸及其 對(duì)策 84
6.4.1 預(yù)學(xué)習(xí) 85
6.4.2 ReLU函數(shù) 85
第7章 自編碼器 87
7.1 數(shù)據(jù)壓縮與主成分分析 87
7.2 自編碼器基礎(chǔ)及應(yīng)用 90
7.2.1 計(jì)時(shí)沙漏型神經(jīng)網(wǎng)絡(luò) 90
7.2.2 由重構(gòu)誤差進(jìn)行的學(xué)習(xí) 91
7.2.3 編碼器的作用 92
7.2.4 基于自編碼器的主成分分析 93 7.3 稀疏自編碼器 93
7.3.1 自編碼器的稀疏化 93
7.3.2 稀疏自編碼器的誤差反向傳播 7.4 堆棧式自編碼器及預(yù)學(xué)習(xí) 97
7.4.1 堆棧式自編碼器 97
7.4.2 預(yù)學(xué)習(xí) 98
7.5 降噪自編碼器 98
7.6 壓縮式自編碼器 99
7.6.1 壓縮式自編碼器流形學(xué)習(xí) 99
7.6.2 與其他自編碼器的關(guān)系 100
第8章 卷積神經(jīng)網(wǎng)絡(luò) 101
8.1 一次視覺(jué)功能和卷積 101
8.1.1 黑貝爾和威杰爾的層假說(shuō) 101
8.1.2 神經(jīng)網(wǎng)絡(luò)與卷積
102 8.2 卷積神經(jīng)網(wǎng)絡(luò) 104
8.2.1 圖像數(shù)據(jù)的通道 104
8.2.2 卷積層 104
8.2.3 1×1卷積 * 107
8.2.4 因子化卷積 * 107
8.2.5 步幅 108
8.2.6 填充 108
8.2.7 池化層 110
8.2.8 局部對(duì)比規(guī)格化層 * 111
8.2.9 局部響應(yīng)規(guī)格化層 * 111
8.2.10 神經(jīng)網(wǎng)絡(luò)的組成 111
8.3 CNN的誤差反向傳播法 112
8.3.1 卷積層 112
8.3.2 融合層 113
8.4 完成學(xué)習(xí)的模型和遷移學(xué)習(xí) 114
8.5 CNN會(huì)捕捉到哪些模式 114
8.6 反卷積網(wǎng)絡(luò) * 115
8.7 Inception組件 * 116
第9章 循環(huán)神經(jīng)網(wǎng)絡(luò) 117
9.1 時(shí)間序列數(shù)據(jù) 117
9.2 循環(huán)神經(jīng)網(wǎng)絡(luò) 118
9.2.1 循環(huán)和遞歸 118
9.2.2 實(shí)時(shí)循環(huán)學(xué)習(xí)法 119
9.2.3 網(wǎng)絡(luò)的展開(kāi) 121
9.2.4 通時(shí)的誤差反向傳播法 121
9.3 機(jī)器翻譯的應(yīng)用 123
9.4 RNN的問(wèn)題 123
9.5 長(zhǎng)短時(shí)記憶 124
9.5.1 記憶細(xì)胞 124
9.5.2 門(mén) 125
9.5.3 LSTM 125
9.5.4 LSTM的正向傳播 126
9.5.5 LSTM的反向傳播 127
9.5.6 門(mén)控循環(huán)神經(jīng)元 * 129
9.6 循環(huán)神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言的 處理 * 130
9.6.1 Seq2Seq學(xué)習(xí) 131
9.6.2 神經(jīng)會(huì)話模型 132
第10章 玻爾茲曼機(jī) 133
10.1 圖模型與概率推論 133
10.1.1 有向圖模型 * 133
10.1.2 無(wú)向圖模型 * 136
10.2 有/無(wú)隱性變量的玻爾 茲曼機(jī) 139
10.2.1 沒(méi)有隱性變量的玻爾茲曼機(jī)
10.2.2 具有隱性變量的玻爾茲曼機(jī)
10.3 玻爾茲曼機(jī)的學(xué)習(xí)及計(jì)算量的 爆發(fā) 142
10.3.1 沒(méi)有隱性變量的情況 142
10.3.2 對(duì)數(shù)似然函數(shù)的凸性 144 10.3.3 梯度上升法和計(jì)算量 146
10.3.4 通過(guò)散度的學(xué)習(xí) 147
10.3.5 有隱性變量的情況 147
10.4 吉布斯采樣和玻爾茲曼機(jī) 150
10.4.1 馬爾可夫鏈 150
10.4.2 Google與馬爾可夫鏈 152
10.4.3 穩(wěn)定分布 153
10.4.4 馬爾可夫鏈蒙特卡洛法 154
10.4.5 吉布斯采樣與玻爾茲曼機(jī) 155 10.5 平均場(chǎng)近似 159
10.6 受限玻爾茲曼機(jī) 162
10.6.1 受限玻爾茲曼機(jī)的學(xué)習(xí) 164
10.6.2 塊狀化的吉布斯采樣 166 10.7 對(duì)比散度法及其理論 167
10.7.1 對(duì)比散度法為什么行得通 169
10.7.2 對(duì)比散度的最小化 173
10.7.3 持續(xù)對(duì)比散度法 (PCD法) 174 10.8 深度信念網(wǎng)絡(luò) 175
10.8.1 DBN的預(yù)學(xué)習(xí) 177
10.8.2 DBN的調(diào)優(yōu) 179
10.8.3 從DBN的抽樣 180
10.8.4 采用DBN的推論 181
10.9 深度玻爾茲曼機(jī) 181
10.9.1 DBM的預(yù)學(xué)習(xí) 182
10.9.2 DBM的調(diào)優(yōu) 185
10.9.3 向順序傳播神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)換
第11章 深度強(qiáng)化學(xué)習(xí) 188
11.1 強(qiáng)化學(xué)習(xí) 188
11.1.1 馬爾可夫決策過(guò)程 189
11.1.2 貝爾曼方程式及最佳策略 190
11.1.3 TD誤差學(xué)習(xí) 194
11.1.4 Q學(xué)習(xí) 195
11.2 近似函數(shù)與深度Q網(wǎng)絡(luò) 197
11.2.1 Q學(xué)習(xí)與近似函數(shù) 197
11.2.2 深度Q學(xué)習(xí) 199
11.3 雅達(dá)利游戲和DQN 201
11.4 策略學(xué)習(xí) 203
11.4.1 基于梯度上升法的策略學(xué)習(xí)
11.4.2 策略梯度定理的證明
11.5 AlphaGo 205
11.5.1 蒙特卡洛樹(shù)搜索(MCTS)的構(gòu)想
11.5.2 SL策略網(wǎng)絡(luò) 206
11.5.3 Roll out策略 207
11.5.4 LR策略網(wǎng)絡(luò) 207
11.5.5 價(jià)值網(wǎng)絡(luò) 208
11.5.6 策略與價(jià)值網(wǎng)絡(luò)進(jìn)行的蒙特卡洛樹(shù)搜索
附錄 210 附錄A 概率基礎(chǔ) 210
A.1 隨機(jī)變量和概率分布 210
A.2 連續(xù)隨機(jī)變量和概率密度函數(shù) 212
A.3 期望值與方差 214
A.4 信息量與散度 215
附錄B 變分法 217
B.1 泛函數(shù) 217
B.2 歐拉·拉格朗日方程式
217 參考文獻(xiàn) 219