本書內(nèi)容分為八章,基本涵蓋了目前較為常用的數(shù)據(jù)科學建模方法,包括現(xiàn)在熱門的深度學習。書中不僅介紹模型的理論基礎(chǔ),還以大量案例結(jié)合現(xiàn)實數(shù)據(jù)為讀者展示了數(shù)據(jù)分析中常見任務(wù)的處理流程,如分類、回歸、聚類、推薦、圖片識別等,幫助讀者應用這些模型和方法解決實際問題。
第1章首先對數(shù)據(jù)科學的任務(wù)和重要性進行了概述,接著介紹數(shù)據(jù)科學的建模流程以及Python語言開發(fā)環(huán)境與常用庫;
第二章介紹了回歸模型,包括線性回歸和邏輯回歸模型;
第三章介紹了聚類模型,包括k-means算法、DBSCAN算法和DIANA算法;
第四章介紹了關(guān)聯(lián)規(guī)則分析,包括Apriori算法和FP-Growth算法;
第五章介紹了決策樹模型,包括ID3、C4.5和CART算法及樹的剪枝方法;
第六章介紹了支持向量機,包括線性和非線性支持向量機以及向量機的求解與多分類問題;
第七章介紹了貝葉斯網(wǎng)絡(luò),包括樸素貝葉斯、TAN貝葉斯和無約束貝葉斯;
第八章介紹了深度學習,包括卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。材,整理編撰了本實驗指導教材,以供嵌入式系統(tǒng)課程的實驗教學之用。
目前的嵌入式系統(tǒng)主要分為跑操作系統(tǒng)和不跑操作系統(tǒng)兩種類型,本實驗指導教材側(cè)重于第1種類型,全書以Linux為操作系統(tǒng),重點講述了Linux基本命令、Linux下的程序開發(fā)、Linux下字符型驅(qū)動程序開發(fā)、Linux按鍵中斷程序、Linux網(wǎng)絡(luò)應用開發(fā)以及Linux內(nèi)核定制等相關(guān)內(nèi)容,為學生動手實踐嵌入式Linux系統(tǒng)開發(fā)提供指導和幫助,力求把學生學習時的挫折感降至低。
《數(shù)據(jù)科學與數(shù)學建模》從大數(shù)據(jù)挖掘中提煉出了科學的、可教學的、有模型的內(nèi)容,本教材從立足于理論聯(lián)系案例,從學習者的角度出發(fā),漸進式地把數(shù)據(jù)挖掘的技術(shù)和方法展示出來。本教材除了介紹算法的理論,還為每一類算法配備了具有代表性的、貼近實際應用的典型案例,以大程度地幫助學生做到學以致用。
大數(shù)據(jù)作為一個熱詞,數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)作為一個熱門專業(yè),近年來引起相關(guān)高等學校的關(guān)注,不少高校紛紛設(shè)立此專業(yè)。例如,2018年新申報的數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)的高校,全國有220所,遠遠超過其他專業(yè);而這個專業(yè)2016年第1批才獲批了3所高校(北京大學、對外經(jīng)濟貿(mào)易大學和中南大學),2017年3月第二批獲批高校32所,包括編著者所在的佛山科學技術(shù)學院,2018年又獲批了248所,這樣,到2019年將出現(xiàn)近500所高校在開這個新專業(yè)。在2018年,教育部又設(shè)置了一個大數(shù)據(jù)管理與應用的新專業(yè)。可以預計,隨著大數(shù)據(jù)與人工智能相關(guān)專業(yè)建設(shè)的需要,數(shù)據(jù)科學課程的教學改革面臨著諸多新的問題。注意到教育部2018年發(fā)布的《普通高等學校本科專業(yè)類教學質(zhì)量國家標準》,對以數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)為代表的新工科專業(yè)人才培養(yǎng)方案提出了挑戰(zhàn)。編著者曾出版《數(shù)據(jù)挖掘與數(shù)學建!方滩,并在華南理工大學應用數(shù)學專業(yè)(應用軟件方向)、信息管理與信息系統(tǒng)專業(yè)的本科生教學中使用了近十年,也曾作為中國移動通訊廣東分公司的管理層培訓材料,受到了廣泛的歡迎,尤其是結(jié)合具體的案例,從學習者的角度,漸進式地把數(shù)據(jù)挖掘的技術(shù)和方法如畫卷式地展示出來,使學習者大有躍躍欲試的激情。因此,探索大數(shù)據(jù)挖掘與數(shù)學建模的教學改革成了順勢而為研究方向。不過,大數(shù)據(jù)的挖掘所呈現(xiàn)出的不確定性,使得建模的價值,包括數(shù)學方法建模(簡稱數(shù)學建模)的價值,有些折扣。故而,本課程則從大數(shù)據(jù)的挖掘中,提煉出科學的、可教學的、有模型的內(nèi)容,作為一門數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)的基礎(chǔ)課,呈現(xiàn)出來。這門課程教材,就是《數(shù)據(jù)科學與數(shù)學建模》。
第一章 緒論 6
1.1數(shù)據(jù)科學概述 6
1.2 數(shù)據(jù)科學的建模流程 8
1.3 Python語言開發(fā)環(huán)境與庫入門 12
1.3.1 開發(fā)環(huán)境 12
1.3.2 Python基本語法 15
1.3.3 Python常用庫和功能 16
1.4本書內(nèi)容介紹 19
第二章 回歸模型 21
2.1概述 21
2.2線性回歸 22
2.2.1 一元線性回歸 22
2.2.2 多元線性回歸 25
2.3線性回歸案例 28
2.3.1兒童體表面積預測 28
2.3.2波士頓房價因素分析 32
附錄:scikit-learn庫中的LinearRegression 34
2.4邏輯回歸 35
2.4.1 邏輯回歸模型 35
2.4.2 邏輯回歸方程中回歸系數(shù)的估計及含義 37
2.4.3 邏輯回歸方程的統(tǒng)計檢驗 38
2.5邏輯回歸案例 40
2.5.1考試成績預測 40
2.5.2鳶尾花分類 42
附錄:scikit-learn庫中的LogisticsRegression 44
第三章 聚類模型 46
3.1概述 46
3.1.1聚類分析概述 46
3.1.2基于距離的聚類相似度 49
3.2 K-means聚類 50
3.2.1 K-means聚類算法 50
3.2.2 K-means聚類實例 51
3.2.3 K-means聚類的優(yōu)缺點 56
3.3 密度聚類 56
3.3.1 DBSCAN密度定義 56
3.3.2 DBSCAN聚類算法 56
3.3.3 DBSCAN聚類的優(yōu)缺點 57
3.4 層次聚類 57
3.4.1系統(tǒng)聚類 58
3.4.2 DIANA算法 64
3.4.3 層次聚類算法的優(yōu)缺點 67
3.5 案例 67
3.5.1 一個二維數(shù)據(jù)集聚類 67
3.5.2一個居民家庭情況案例 69
3.5.3一個醫(yī)療建設(shè)評價案例 75
附錄:scikit-learn庫中的KMeans 77
第四章 關(guān)聯(lián)規(guī)則 80
4.1 概述 80
4.1.1 問題概述 80
4.1.2 關(guān)聯(lián)規(guī)則概述 80
4.1.3 關(guān)聯(lián)分析的基本概念 81
4.2 Apriori算法 84
4.3 基于Apriori算法的改進算法 88
4.4 FP-Growth算法 90
4.5 關(guān)聯(lián)規(guī)則案例 94
4.5.1一個銷售記錄的關(guān)聯(lián)分析案例 94
4.5.2商品購買記錄分析 98
4.5.3電影推薦 100
第五章 決策樹 104
5.1概述 104
5.1.1 決策樹基本算法 104
5.1.2 CLS算法 105
5.1.3 信息熵 106
5.2 ID3算法 107
5.2.1基本思想 107
5.2.2 ID3算法應用實例 109
5.3 C4.5算法 112
5.3.1 基本思想 112
5.3.2 基于信息增益率建模的決策樹 113
5.4 CART算法 114
5.4.1 基本思想 114
5.4.2 基于CART算法建模的決策樹 115
5.5 決策樹的剪枝 117
5.6 案例 121
5.6.1泰坦尼克號乘客幸存預測 121
5.6.2乳腺癌診斷 125
附錄:scikit-learn庫中的DecisionTreeClassifier 129
第六章 支持向量機 132
6.1概述 132
6.2線性支持向量機 132
6.2.1 硬間隔線性支持向量機 133
6.2.2 軟間隔線性支持向量機 135
6.3非線性支持向量機 138
6.3.1特征空間硬間隔支持向量機 140
6.3.2特征空間軟間隔支持向量機 141
6.4 支持向量機的求解和多分類問題 142
6.4.1 支持向量機的求解 142
6.4.2 多分類問題 142
6.5新聞文本分類案例 144
附錄:scikit-learn庫中的SVM 147
第七章 貝葉斯網(wǎng)絡(luò) 150
7.1概述 150
7.1.1 貝葉斯網(wǎng)絡(luò)定義 150
7.1.2 貝葉斯網(wǎng)絡(luò)的知識推理模式 151
7.1.3 貝葉斯網(wǎng)絡(luò)建立的主要步驟 151
7.1.4貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學習 152
7.1.5 貝葉斯網(wǎng)絡(luò)的參數(shù)學習 153
7.1.6 主要貝葉斯網(wǎng)絡(luò)模型 156
7.2 樸素貝葉斯網(wǎng)絡(luò) 156
7.3 TAN貝葉斯網(wǎng)絡(luò) 162
7.4 無約束貝葉斯網(wǎng)絡(luò) 167
7.5 樸素貝葉斯進行垃圾郵件過濾 170
附錄 scikit-learn庫中的Naive-Bayes分類 174
第八章 深度學習 176
8.1概述 176
8.1.1 深度學習的發(fā)展歷史 176
8.1.2 神經(jīng)網(wǎng)絡(luò)的基本模型 176
8.2多層感知機 180
8.2.1感知機 180
8.2.2多層感知機 184
8.3卷積神經(jīng)網(wǎng)絡(luò) 190
8.3.1基本網(wǎng)絡(luò)結(jié)構(gòu) 191
8.3.2反向傳播訓練算法 192
8.3.3 AlexNet網(wǎng)絡(luò)結(jié)構(gòu) 193
8.4循環(huán)神經(jīng)網(wǎng)絡(luò) 194
8.4.1基本網(wǎng)絡(luò)結(jié)構(gòu) 195
8.4.2反向傳播訓練算法 195
8.4.3長短時間記憶單元 196
8.5 構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型對CIFAR圖片數(shù)據(jù)集分類 197
附錄:TensorFlow基本用法 203
參考文獻 207