本書共分為七章。第一章主要介紹數(shù)學對應(yīng)人工智能的重要性,以及代數(shù)學和分析學中的基礎(chǔ)概念,是后面各章的基礎(chǔ)。第二章和第三章分別介紹了微積分和線性代數(shù)核心內(nèi)容,并將相關(guān)基礎(chǔ)知識映射到人工智能領(lǐng)域,從這一視角理解數(shù)學基礎(chǔ)知識的工程應(yīng)用。第四章介紹了矩陣分解這一重要數(shù)學工具及其在人工智能領(lǐng)域的典型應(yīng)用。第五章介紹了概率論基礎(chǔ)知識及在人工智能領(lǐng)域的廣泛應(yīng)用。第六章介紹了最優(yōu)化理論及算法,以及它們在機器學習和人工智能中的基礎(chǔ)性應(yīng)用。第七章主要介紹了信息論的基本概念和在人工智能中常見的應(yīng)用。
廖盛斌, 博士,副教授,博士生導(dǎo)師。1989年畢業(yè)于湖北荊州師專數(shù)學教育專業(yè),2000年獲西安交通大學應(yīng)用數(shù)學專業(yè)碩士學位,2008年獲華中科技大學信息與通信工程專業(yè)博士學位。2012年1月英國埃塞克斯大學訪問學者,2015年5月澳大利亞臥龍崗大學訪問學者,2017年9月英國東英格利亞大學訪問學者。一直從事復(fù)雜系統(tǒng)控制與優(yōu)化、大數(shù)據(jù)與機器智能等方面的研究,主持國家自然科學基金項目2項,在IEEE、Elsevier、Springer、Wiley等組織和機構(gòu)出版的國際雜志,以及各種國際和國內(nèi)學術(shù)會議上發(fā)表學術(shù)研究論文40多篇,其中10多篇被SCI收錄。
第1章 代數(shù)學和分析學的基礎(chǔ)概念 1
1.1 人工智能需要數(shù)學的原因 1
1.2 向量與范數(shù) 1
1.2.1 向量和線性空間 1
1.2.2 向量的內(nèi)積 2
1.2.3 向量的外積 3
1.2.4 向量的范數(shù) 4
1.3 矩陣的定義及其基本運算 7
1.3.1 矩陣的定義 7
1.3.2 矩陣的基本運算 7
1.3.3 逆矩陣 9
1.3.4 深入理解矩陣因子的幾何意義 10
1.4 行列式 12
1.4.1 行列式的定義 12
1.4.2 行列式的性質(zhì) 13
1.4.3 行列式的幾何意義 15
1.5 函數(shù)的極限與連續(xù)性 16
1.5.1 函數(shù)的極限 16
1.5.2 函數(shù)的連續(xù)性 17
本章參考文獻 19
第2章 微積分的基礎(chǔ)概念 20
2.1 導(dǎo)數(shù) 20
2.1.1 導(dǎo)數(shù)、偏導(dǎo)數(shù)與方向?qū)?shù) 20
2.1.2 梯度、雅可比矩陣和黑塞矩陣 25
2.1.3 泰勒公式 27
2.1.4 機器學習中常見函數(shù)的導(dǎo)數(shù) 28
2.2 微分 30
2.2.1 微分的概述 30
2.2.2 微分中值定理 31
2.3 積分 35
2.3.1 不定積分 35
2.3.2 定積分 37
2.3.3 廣義積分 42
2.3.4 多重積分 47
2.4 常微分方程 53
2.4.1 常微分方程的概述 53
2.4.2 一階微分方程的概述 53
本章參考文獻 57
第3章 矩陣與線性變換 58
3.1 矩陣秩的概述 58
3.1.1 矩陣的初等變換 58
3.1.2 矩陣的秩 59
3.2 向量組的線性相關(guān)性 60
3.2.1 線性組合 60
3.2.2 向量組的秩 61
3.3 特征值與特征向量 62
3.3.1 特征值與特征向量的定義 62
3.3.2 特征值與特征向量的基本性質(zhì) 63
3.3.3 相似矩陣與相似對角化 64
3.3.4 正交矩陣和對稱矩陣的對角化 67
3.4 線性空間 70
3.4.1 線性空間的相關(guān)定義 70
3.4.2 線性空間的基與維數(shù) 72
3.5 線性變換 75
3.5.1 基變換的定義 75
3.5.2 坐標變換的定義 76
3.5.3 線性變換的定義 76
3.6 內(nèi)積空間 79
3.6.1 內(nèi)積空間的定義 79
3.6.2 施密特正交化方法 80
3.6.3 標準正交基的常用性質(zhì) 81
本章參考文獻 82
第4章 矩陣分解 83
4.1 矩陣的LU分解 83
4.1.1 矩陣LU分解的定義及本質(zhì) 83
4.1.2 矩陣LU分解的條件 85
4.1.3 矩陣LU分解的擴展形式 87
4.1.4 利用矩陣的LU分解求解線性方程組Ax=b 88
4.2 矩陣的QR分解 89
4.2.1 矩陣QR分解的定義 89
4.2.2 利用施密特正交化方法進行矩陣的QR分解 90
4.3 矩陣的特征值分解 93
4.3.1 矩陣特征值分解的定義 93
4.3.2 矩陣特征值分解的本質(zhì) 94
4.3.3 矩陣特征值分解的應(yīng)用 95
4.4 矩陣的奇異值分解 97
4.4.1 矩陣奇異值分解的定義 97
4.4.2 矩陣奇異值分解的計算 98
4.4.3 矩陣奇異值分解的意義及逼近 99
4.4.4 矩陣奇異值分解的應(yīng)用 100
本章參考文獻 106
第5章 最優(yōu)化理論與算法 107
5.1 凸集與凸函數(shù) 107
5.1.1 凸集 107
5.1.2 凸函數(shù) 110
5.1.3 凸函數(shù)的判定 113
5.2 最優(yōu)化問題與求解算法的一般形式 116
5.2.1 最優(yōu)化問題及解的定義 116
5.2.2 優(yōu)化算法的一般思路 117
5.2.3 可行方向與下降方向 120
5.3 最優(yōu)性條件 121
5.3.1 無約束問題的最優(yōu)性條件 121
5.3.2 約束問題的最優(yōu)性條件 123
5.3.3 KKT條件 126
5.4 梯度下降法 129
5.4.1 最速下降方向 129
5.4.2 梯度下降算法 131
5.4.3 隨機梯度下降算法 132
5.5 牛頓法 133
5.5.1 牛頓法的定義 133
5.5.2 擬牛頓法的定義 135
5.6 優(yōu)化算法在機器學習中的應(yīng)用 141
5.6.1 優(yōu)化算法求解機器學習問題的一般模式 141
5.6.2 支持向量機的動機與基本概念 142
5.6.3 線性可分支持向量機 143
5.6.4 軟間隔最大化 146
本章參考文獻 151
第6章 概率模型 153
6.1 隨機變量及其分布 153
6.1.1 概率的基本概念 153
6.1.2 隨機變量 154
6.1.3 離散型隨機變量 156
6.1.4 連續(xù)型隨機變量 156
6.1.5 隨機變量的函數(shù)及其分布 159
6.1.6 多維隨機變量及其分布 161
6.1.7 條件概率與條件分布 164
6.2 隨機變量的數(shù)字特征 168
6.2.1 隨機變量的數(shù)學期望 169
6.2.2 方差 172
6.2.3 協(xié)方差與相關(guān)系數(shù) 174
6.2.4 方差和協(xié)方差在PCA中的應(yīng)用舉例 176
6.3 極限理論 180
6.3.1 隨機變量的矩與切比雪夫不等式 180
6.3.2 大數(shù)定律 182
6.3.3 中心極限定理 186
6.4 機器學習中的參數(shù)估計 188
6.4.1 最大似然估計 189
6.4.2 最大后驗估計 191
6.4.3 貝葉斯最優(yōu)分類器 193
6.4.4 貝葉斯估計 193
本章參考文獻 196
第7章 信息論的基礎(chǔ)概念 198
7.1 熵 198
7.1.1 熵的概念 198
7.1.2 聯(lián)合熵 200
7.1.3 條件熵 202
7.1.4 互信息 203
7.1.5 熵的性質(zhì) 205
7.1.6 熵在機器學習中的應(yīng)用 210
7.2 交叉熵與損失函數(shù) 219
7.2.1 交叉熵的定義 219
7.2.2 交叉熵的性質(zhì) 220
7.2.3 概率分布推斷 221
7.2.4 交叉熵損失函數(shù) 222
7.3 KL散度 224
7.3.1 KL散度的定義 224
7.3.2 從熵編碼的角度理解KL散度 226
7.3.3 KL散度的性質(zhì) 227
7.3.4 KL散度在機器學習中的應(yīng)用 228
本章參考文獻 230