關(guān)于我們
書單推薦
新書推薦
|
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
本書作為數(shù)據(jù)挖掘入門讀物,基于真實(shí)數(shù)據(jù)集進(jìn)行案例實(shí)戰(zhàn),使用Python數(shù)據(jù)科學(xué)庫,從數(shù)據(jù)預(yù)處理開始一步步介紹數(shù)據(jù)建模和數(shù)據(jù)挖掘的過程。主要介紹了數(shù)據(jù)挖掘的基礎(chǔ)知識、基本工具和實(shí)踐方法,通過循序漸進(jìn)地講解算法,帶領(lǐng)讀者輕松踏上數(shù)據(jù)挖掘之旅。本書采用理論與實(shí)踐相結(jié)合的方式,呈現(xiàn)了如何使用邏輯回歸進(jìn)行環(huán)境數(shù)據(jù)檢測,如何使用HMM進(jìn)行中文分詞,如何利用卷積神經(jīng)網(wǎng)絡(luò)識別雷達(dá)剖面圖,如何使用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建聊天機(jī)器人,如何使用樸素貝葉斯算法進(jìn)行破產(chǎn)預(yù)測,如何使用DCGAN網(wǎng)絡(luò)進(jìn)行人臉生成等。本書也涉及神經(jīng)網(wǎng)絡(luò)、在線學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)、大數(shù)據(jù)處理等內(nèi)容。
本書適合對傳統(tǒng)數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法開發(fā)感興趣的讀者閱讀,也適合需要系統(tǒng)掌握深度學(xué)習(xí)的開發(fā)人員閱讀。
Python是一個(gè)高層次的結(jié)合了解釋性、編譯性、互動性和面向?qū)ο蟮哪_本語言。作為一門編程語言,其魅力遠(yuǎn)超C#、Java、C和C 等編程語言,被昵稱為膠水語言,更被熱愛它的程序員譽(yù)為最美麗的編程語言。從云端和客戶端,再到物聯(lián)網(wǎng)終端,Python應(yīng)用無處不在,同時(shí)它還是人工智能(AI)首選的編程語言。
近年來,人工智能在全世界掀起了新的科技浪潮,各行各業(yè)都在努力涉足人工智能技術(shù)。而機(jī)器學(xué)習(xí)是人工智能的一種實(shí)現(xiàn)方式,也是最重要的實(shí)現(xiàn)方式之一。深度學(xué)習(xí)是目前機(jī)器學(xué)習(xí)比較熱門的一個(gè)方向,其本身是神經(jīng)網(wǎng)絡(luò)算法的衍生,在圖像、語音等富媒體的分類和識別上取得了非常好的效果。數(shù)據(jù)挖掘主要利用機(jī)器學(xué)習(xí)界提供的技術(shù)來分析海量數(shù)據(jù),利用數(shù)據(jù)庫界提供的技術(shù)來管理海量數(shù)據(jù)。例如,在對超市貨品進(jìn)行擺放時(shí),牛奶到底是和面包擺放在一起銷量更高,還是和其他商品擺在一起銷量更高,就可以用相關(guān)算法得出結(jié)論。由于機(jī)器學(xué)習(xí)技術(shù)和數(shù)據(jù)挖掘技術(shù)都是對數(shù)據(jù)之間的規(guī)律進(jìn)行探索,所以人們通常將兩者放在一起提及。而這兩種技術(shù)在現(xiàn)實(shí)生活中也有著非常廣闊的應(yīng)用場景。例如,分類學(xué)習(xí)算法可以對客戶等級進(jìn)行劃分,可以驗(yàn)證碼識別,可以對水果品質(zhì)自動篩選等;回歸學(xué)習(xí)算法可以對連續(xù)型數(shù)據(jù)進(jìn)行預(yù)測,以及對趨勢進(jìn)行預(yù)測等;聚類學(xué)習(xí)算法可以對客戶價(jià)值和商圈做預(yù)測;關(guān)聯(lián)分析可以對超市的貨品擺放和個(gè)性化推薦做分析;而深度學(xué)習(xí)算法還可以實(shí)現(xiàn)自然語言處理方面的應(yīng)用,如文本相似度、聊天機(jī)器人及自動寫詩作畫等應(yīng)用。 縱觀國內(nèi)圖書市場,關(guān)于Python的書籍不少,它們主要偏向于工具本身的用法,如關(guān)于Python的語法、參數(shù)、異常處理、調(diào)用及開發(fā)類實(shí)例等,但是基于Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)類的書籍并不是特別多,特別是介紹最新的基于深度學(xué)習(xí)算法原理和實(shí)戰(zhàn)的圖書更少。本書將通過具體的實(shí)例來講解數(shù)據(jù)處理和挖掘技術(shù),同時(shí)結(jié)合最新的深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)及在線學(xué)習(xí)等理論知識和實(shí)用的項(xiàng)目案例,詳細(xì)講解16種常用的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法。 本書有何特色 1.全程使用Python 3編程語言 本書通過Anaconda和Spyder提供的Python編程功能實(shí)現(xiàn)各種算法: * 介紹了Scrapy框架和XPath工具; * 重點(diǎn)介紹了TensorFlow工具的開發(fā)和使用; * 以票務(wù)網(wǎng)為例,實(shí)現(xiàn)了網(wǎng)站票務(wù)信息的爬蟲案例。 2.剖析回歸分析的基本原理 回歸分析是一種應(yīng)用極為廣泛的數(shù)量分析方法。本書中的回歸分析相關(guān)章節(jié)實(shí)現(xiàn)了如下幾個(gè)重要例子: * 對于線性回歸,介紹了如何使用一元線性回歸求解房價(jià)預(yù)測的問題; * 實(shí)例演示了使用多元線性回歸進(jìn)行商品價(jià)格的預(yù)測,以及使用線性回歸對股票進(jìn)行預(yù)測; * 通過環(huán)境檢測數(shù)據(jù)異常分析與預(yù)測這個(gè)實(shí)驗(yàn),用實(shí)例具體實(shí)現(xiàn)了邏輯回歸的過程。 3.詳解分類和聚類機(jī)器學(xué)習(xí)算法 在數(shù)據(jù)挖掘領(lǐng)域中,對分類和聚類算法的研究及運(yùn)用非常重要。書中著重研究了決策樹、隨機(jī)森林、SVM、HMM、BP神經(jīng)網(wǎng)絡(luò)、K-Means和貝葉斯等算法,并實(shí)現(xiàn)了以下例子: * 使用決策樹算法對鳶尾花數(shù)據(jù)集進(jìn)行分類; * 使用隨機(jī)森林對葡萄酒數(shù)據(jù)集進(jìn)行分類; * SVM中采用三種核函數(shù)進(jìn)行時(shí)間序列曲線預(yù)測; * HMM模型用于中文分詞; * 用TensorFlow實(shí)現(xiàn)BP神經(jīng)網(wǎng)絡(luò); * 樸素貝葉斯分類器在破產(chǎn)預(yù)測中的應(yīng)用。 4.詳細(xì)地描述了常用的深度學(xué)習(xí)算法 本書相關(guān)章節(jié)中詳細(xì)地描述了卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)等。主要有如下實(shí)例演示: * 采用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了雷達(dá)剖面圖識別實(shí)例; * 使用LSTM模型實(shí)現(xiàn)了一個(gè)聊天機(jī)器人的程序; * 通過DCGAN網(wǎng)絡(luò)來訓(xùn)練數(shù)據(jù),從而產(chǎn)生人臉圖像。 5.討論了其他常用機(jī)器學(xué)習(xí)算法 本書中還討論了在線學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等常見的機(jī)器學(xué)習(xí)算法,例如: * 演示在線學(xué)習(xí)Bandit算法與推薦系統(tǒng); * 使用Adaboost算法實(shí)現(xiàn)馬疝病的檢測。 6.提供了豐富而實(shí)用的數(shù)據(jù)挖掘源代碼,并提供了操作視頻和教學(xué)PPT 本書詳盡地描述了各種重要算法,并提供了很多來源于真實(shí)項(xiàng)目案例的源代碼。另外,還特別為本書制作了相關(guān)操作的教學(xué)視頻和專業(yè)的教學(xué)PPT和操作視頻,以方便讀者學(xué)習(xí)。 * 卷積神經(jīng)網(wǎng)絡(luò)雷達(dá)圖像識別項(xiàng)目; * LSTM聊天機(jī)器人項(xiàng)目; * HMM中文分詞系統(tǒng); * DCGAN的人臉生成模型。 本書內(nèi)容及知識體系 第1章主要對機(jī)器學(xué)習(xí)的基本概念進(jìn)行了概述,介紹了5種Python開發(fā)工具,分別是IDLE、IPython、PyCharm、Jupyter Notebook、Anaconda和Spyder,對它們的特點(diǎn)進(jìn)行了闡述,并選擇Anaconda和Spyder作為本書的開發(fā)工具。 第2章主要介紹了Python開發(fā)環(huán)境、計(jì)算規(guī)則與變量,并詳細(xì)介紹了Python常用的數(shù)據(jù)類型,分別是字符串、列表、元組和字典;還介紹了爬蟲的基本原理,其中重點(diǎn)介紹了Scrapy框架和XPath工具,并且以票務(wù)網(wǎng)為例實(shí)現(xiàn)了網(wǎng)站票務(wù)信息的爬取。 第3章首先介紹了數(shù)據(jù)挖掘中的回歸分析和線性回歸的基本概念,然后介紹了如何使用一元線性回歸求解房價(jià)預(yù)測的問題,最后介紹了使用多元線性回歸進(jìn)行商品價(jià)格的預(yù)測。本章通過環(huán)境檢測數(shù)據(jù)異常分析與預(yù)測這個(gè)實(shí)驗(yàn),對邏輯回歸做出了具體的表現(xiàn)分析。 第4章是關(guān)于常用分類算法的講解,主要對決策樹和隨機(jī)森林的基本概念和算法原理進(jìn)行了詳細(xì)闡述。本章使用決策樹對鳶尾花數(shù)據(jù)集進(jìn)行分類,并使用隨機(jī)森林對葡萄酒數(shù)據(jù)集進(jìn)行分類。通過學(xué)習(xí)本章內(nèi)容,讀者會對決策樹算法和隨機(jī)森林算法有更進(jìn)一步的認(rèn)識。 第5章主要介紹了基于統(tǒng)計(jì)學(xué)習(xí)理論的一種機(jī)器學(xué)習(xí)方法支持向量機(jī),通過尋求結(jié)構(gòu)風(fēng)險(xiǎn)最小來提高泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,從而達(dá)到在統(tǒng)計(jì)樣本較少的情況下也能獲得良好的統(tǒng)計(jì)規(guī)律的目的,可利用SMO算法高效求解該問題。針對線性不可分問題,利用函數(shù)映射將原始樣本空間映射到高維空間,使得樣本線性可分,進(jìn)而通過SMO算法求解拉普拉斯對偶問題。 第6章介紹了隱馬爾可夫模型要解決的三個(gè)基本問題,以及解決這三個(gè)基本問題的方法,帶領(lǐng)讀者深入學(xué)習(xí)解碼問題,并掌握解決解碼的Viterbi算法,運(yùn)用Viterbi算法思想精髓將全局最佳解的計(jì)算過程分解為階段最佳解的計(jì)算,實(shí)現(xiàn)對語料的初步分詞工作。此外,本章還介紹了HMM模型用于中文分詞的方法。 第7章介紹了人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的基本概念、特點(diǎn)、組成部分和前向傳播等內(nèi)容;闡述了單層神經(jīng)網(wǎng)絡(luò)、雙層神經(jīng)網(wǎng)絡(luò)及多層神經(jīng)網(wǎng)絡(luò)的概念和原理;使用TensorFlow實(shí)現(xiàn)BP神經(jīng)網(wǎng)絡(luò),進(jìn)一步強(qiáng)化對BP神經(jīng)網(wǎng)絡(luò)的理解和使用。 第8章主要介紹了卷積神經(jīng)網(wǎng)絡(luò)的原理及其在圖像識別領(lǐng)域中的應(yīng)用。本章帶領(lǐng)讀者掌握卷積神經(jīng)網(wǎng)絡(luò)的各層,包括輸入層、卷積層、池化層、全連接層和輸出層;利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行雷達(dá)圖像識別,實(shí)現(xiàn)了對雷暴大風(fēng)災(zāi)害性天氣的識別,并以地面自動站出現(xiàn)7級大風(fēng)作為出現(xiàn)災(zāi)害性雷暴大風(fēng)天氣的判據(jù),從而建立一套集雷暴大風(fēng)實(shí)時(shí)識別、落區(qū)預(yù)報(bào)及落區(qū)檢驗(yàn)于一體的綜合系統(tǒng)。 第9章從自然語言處理的基礎(chǔ)知識引入了循環(huán)神經(jīng)網(wǎng)絡(luò),并詳細(xì)闡述其原理及強(qiáng)大之處,最后使用它來實(shí)現(xiàn)聊天機(jī)器人。循環(huán)神經(jīng)網(wǎng)絡(luò)常用于處理序列數(shù)據(jù),例如一段文字或聲音、購物或觀影的順序,甚至可以是圖片中的一行或一列像素。 第10章介紹了聚類與集成算法的相關(guān)知識。K-Means聚類是一種自下而上的聚類方法,其優(yōu)點(diǎn)是簡單、速度快;Adaboost算法是Boosting方法中最流行的一種算法。集成算法便是將多個(gè)弱學(xué)習(xí)模型通過一定的組合方式,形成一個(gè)強(qiáng)學(xué)習(xí)模型,以達(dá)到提高學(xué)習(xí)正確率的目的。 第11章介紹了貝葉斯分類器分類方法,在一個(gè)真實(shí)數(shù)據(jù)集上執(zhí)行了樸素貝葉斯分類器的訓(xùn)練預(yù)測,取得了理想的效果;在圍繞實(shí)時(shí)大數(shù)據(jù)流分析這一需求展開的研究中,對在線學(xué)習(xí)Bandit算法的概念進(jìn)行了闡述,并用Python進(jìn)行了實(shí)驗(yàn)分析;還對生成對抗網(wǎng)絡(luò)(GAN)進(jìn)行了講解,同時(shí)也介紹了DCGAN網(wǎng)絡(luò)模型,并且使用DCGAN網(wǎng)絡(luò)進(jìn)行了人臉生成實(shí)驗(yàn)。 本書配套資源獲取方式 本書涉及的源代碼文件、教學(xué)視頻、教學(xué)PPT視頻和Demo需要讀者自行下載。請登錄華章公司的網(wǎng)站www.hzbook.com,在該網(wǎng)站上搜索到本書頁面,然后單擊資料下載按鈕即可在頁面上找到配書資源下載鏈接。 本書讀者對象 * Python程序員; * 對數(shù)據(jù)挖掘感興趣的人員; * 對機(jī)器學(xué)習(xí)和深度學(xué)習(xí)感興趣的人員; * 想轉(zhuǎn)行到人工智能領(lǐng)域的技術(shù)人員; * 想從其他編程語言轉(zhuǎn)Python開發(fā)的人員; * 喜歡編程的自學(xué)人員; * 高校計(jì)算機(jī)等專業(yè)的學(xué)生; * 專業(yè)培訓(xùn)機(jī)構(gòu)的學(xué)員。 本書閱讀建議 * 沒有Python開發(fā)基礎(chǔ)的讀者,建議從第1章順次閱讀并演練每一個(gè)實(shí)例。 * 有一定Python數(shù)據(jù)挖掘基礎(chǔ)的讀者,可以根據(jù)實(shí)際情況有重點(diǎn)地選擇閱讀各個(gè)模塊和項(xiàng)目案例。對于每一個(gè)模塊和項(xiàng)目案例,先思考一下實(shí)現(xiàn)的思路,然后再親自動手實(shí)現(xiàn),這樣閱讀效果更佳。 * 有基礎(chǔ)的讀者可以先閱讀書中的模塊和Demo,再結(jié)合配套源代碼理解并調(diào)試,這樣更加容易理解,而且也會理解得更加深刻。 本書作者 本書由方巍主筆編寫。其他參與編寫和程序調(diào)試工作的人員還有王秀芬、丁葉文和張飛鴻。本書能得以順利出版,要感謝南京信息工程大學(xué)計(jì)算機(jī)與軟件學(xué)院2017級的全體研究人員,還要感謝在寫作和出版過程中給予筆者大量幫助的各位編輯! 由于筆者水平所限,加之寫作時(shí)間有限,書中可能還存在一些疏漏和不足之處,敬請各位讀者批評指正。聯(lián)系郵箱:hzbook2017@163.com。 最后祝大家讀書快樂! 編著者
方巍 博士,博士后,副教授,高級工程師,碩士生導(dǎo)師。美國佛羅里達(dá)大學(xué)訪問學(xué)者,中國計(jì)算機(jī)學(xué)會高級會員,ACM會員,中國系統(tǒng)分析師協(xié)會(CSAI)顧問團(tuán)專業(yè)顧問,江蘇省計(jì)算機(jī)學(xué)會會員,江蘇省人工智能學(xué)會委員,江蘇省政府采購招標(biāo)評審專家,江蘇省高新技術(shù)企業(yè)認(rèn)定評審專家。負(fù)責(zé)和參與國家級、省部級科研項(xiàng)目12項(xiàng)。在國內(nèi)外學(xué)術(shù)期刊上發(fā)表論文20余篇,其中被SCI和EI檢索15篇。獲國家發(fā)明專利授權(quán)8項(xiàng)、軟件著作權(quán)9項(xiàng)。出版科技圖書2部。
前言
第1章 機(jī)器學(xué)習(xí)基礎(chǔ)1 1.1 機(jī)器學(xué)習(xí)概述2 1.2 機(jī)器學(xué)習(xí)的發(fā)展歷程2 1.3 機(jī)器學(xué)習(xí)分類3 1.3.1 監(jiān)督學(xué)習(xí)3 1.3.2 無監(jiān)督學(xué)習(xí)3 1.3.3 強(qiáng)化學(xué)習(xí)4 1.3.4 深度學(xué)習(xí)4 1.4 機(jī)器學(xué)習(xí)的應(yīng)用4 1.5 開發(fā)機(jī)器學(xué)習(xí)的步驟7 1.6 Python語言的優(yōu)勢8 1.6.1 可執(zhí)行偽代碼8 1.6.2 Python語言使用廣泛8 1.6.3 Python語言特色8 1.6.4 Python語言的缺點(diǎn)9 1.7 Python開發(fā)工具介紹9 1.7.1 IDLE簡介10 1.7.2 IPython簡介11 1.7.3 PyCharm簡介11 1.7.4 Jupyter Notebook簡介12 1.7.5 Anaconda和Spyder簡介13 1.8 本章小結(jié)15 第2章 Python語言簡介16 2.1 搭建Python開發(fā)環(huán)境16 2.1.1 安裝Anaconda16 2.1.2 安裝Spyder18 2.1.3 運(yùn)行和保存Python程序19 2.2 Python計(jì)算與變量19 2.2.1 用Python做簡單的計(jì)算20 2.2.2 Python的運(yùn)算符20 2.2.3 Python的變量21 2.3 Python的字符串22 2.4 Python的列表23 2.5 Python的元組25 2.6 Python的字典27 2.7 網(wǎng)絡(luò)爬蟲的發(fā)展歷史和分類28 2.7.1 網(wǎng)絡(luò)爬蟲的發(fā)展歷史28 2.7.2 網(wǎng)絡(luò)爬蟲的分類30 2.8 網(wǎng)絡(luò)爬蟲的原理30 2.8.1 理論概述30 2.8.2 爬蟲的工作流程31 2.9 爬蟲框架介紹36 2.9.1 Scrapy介紹36 2.9.2 XPath介紹39 2.10 網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)40 2.10.1 網(wǎng)絡(luò)爬蟲的總體設(shè)計(jì)40 2.10.2 具體實(shí)現(xiàn)過程40 2.10.3 爬蟲結(jié)果與分析45 2.11 本章小結(jié)49 第3章 回歸分析50 3.1 回歸分析概述50 3.1.1 基本概念50 3.1.2 可以解決的問題51 3.1.3 回歸分析的步驟51 3.2 線性回歸51 3.2.1 簡單線性回歸分析51 3.2.2 多元線性回歸分析52 3.2.3 非線性回歸數(shù)據(jù)分析52 3.3 用Python實(shí)現(xiàn)一元線性回歸53 3.4 用Python實(shí)現(xiàn)多元線性回歸56 3.4.1 使用pandas讀取數(shù)據(jù)56 3.4.2 分析數(shù)據(jù)57 3.4.3 線性回歸模型58 3.5 基于線性回歸的股票預(yù)測62 3.5.1 數(shù)據(jù)獲取62 3.5.2 數(shù)據(jù)預(yù)處理63 3.5.3 編碼實(shí)現(xiàn)64 3.5.4 結(jié)果分析65 3.6 邏輯回歸66 3.6.1 構(gòu)造預(yù)測函數(shù)67 3.6.2 構(gòu)造損失函數(shù)J68 3.6.3 梯度下降法求解最小值69 3.7 基于邏輯回歸的環(huán)境數(shù)據(jù)檢測71 3.7.1 數(shù)據(jù)來源71 3.7.2 數(shù)據(jù)處理72 3.7.3 異常數(shù)據(jù)分析72 3.7.4 數(shù)據(jù)預(yù)測74 3.8 本章小結(jié)76 第4章 決策樹與隨機(jī)森林77 4.1 決策樹77 4.1.1 決策樹的基本原理77 4.1.2 決策樹的分類78 4.1.3 決策樹的優(yōu)缺點(diǎn)81 4.2 使用決策樹對鳶尾花分類82 4.2.1 Iris數(shù)據(jù)集簡介82 4.2.2 讀取數(shù)據(jù)83 4.2.3 鳶尾花類別83 4.2.4 數(shù)據(jù)可視化84 4.2.5 訓(xùn)練和分類85 4.2.6 數(shù)據(jù)集多類分類86 4.2.7 實(shí)驗(yàn)結(jié)果86 4.3 隨機(jī)森林87 4.3.1 隨機(jī)森林的基本原理87 4.3.2 隨機(jī)森林的收斂性88 4.3.3 隨機(jī)森林的OOB估計(jì)89 4.3.4 隨機(jī)森林的隨機(jī)特征選取89 4.3.5 隨機(jī)森林的優(yōu)缺點(diǎn)90 4.4 葡萄酒數(shù)據(jù)集的隨機(jī)森林分類91 4.4.1 數(shù)據(jù)收集91 4.4.2 相關(guān)庫函數(shù)簡介92 4.4.3 數(shù)據(jù)基本分析93 4.4.4 使用隨機(jī)森林構(gòu)建模型97 4.4.5 實(shí)驗(yàn)結(jié)果98 4.5 本章小結(jié)99 第5章 支持向量機(jī)100 5.1 SVM的工作原理及分類100 5.1.1 支持向量機(jī)的原理100 5.1.2 線性可分的支持向量機(jī)101 5.1.3 非線性可分的支持向量機(jī)102 5.2 核函數(shù)103 5.2.1 核函數(shù)簡介103 5.2.2 幾種常見的核函數(shù)104 5.2.3 核函數(shù)如何處理非線性數(shù)據(jù)104 5.2.4 如何選擇合適的核函數(shù)105 5.3 SVR簡介106 5.3.1 SVR原理106 5.3.2 SVR模型106 5.4 時(shí)間序列曲線預(yù)測107 5.4.1 生成訓(xùn)練數(shù)據(jù)集107 5.4.2 運(yùn)用不同的核函數(shù)進(jìn)行支持向量回歸108 5.4.3 生成測試數(shù)據(jù)集109 5.4.4 預(yù)測并生成圖表110 5.4.5 獲取預(yù)測誤差111 5.4.6 創(chuàng)建數(shù)據(jù)集112 5.4.7 選取最優(yōu)參數(shù)112 5.4.8 預(yù)測并生成圖表112 5.4.9 獲取預(yù)測誤差113 5.5 本章小結(jié)114 第6章 隱馬爾可夫模型115 6.1 隱馬爾可夫模型簡介115 6.1.1 隱馬爾可夫模型的概念115 6.1.2 詳例描述116 6.1.3 HMM流程117 6.2 Viterbi算法117 6.3 HMM模型用于中文分詞119 6.3.1 UI界面119 6.3.2 數(shù)據(jù)及其編碼119 6.3.3 HMM模型121 6.3.4 實(shí)驗(yàn)結(jié)果122 6.4 本章小結(jié)124 第7章 BP神經(jīng)網(wǎng)絡(luò)模型125 7.1 背景介紹125 7.2 結(jié)構(gòu)特點(diǎn)126 7.3 網(wǎng)絡(luò)模型126 7.4 人工神經(jīng)網(wǎng)絡(luò)簡介127 7.4.1 神經(jīng)元127 7.4.2 單層神經(jīng)網(wǎng)絡(luò)128 7.4.3 雙層神經(jīng)網(wǎng)絡(luò)129 7.4.4 多層神經(jīng)網(wǎng)絡(luò)130 7.5 BP神經(jīng)網(wǎng)絡(luò)131 7.6 通過TensorFlow實(shí)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)132 7.7 本章小結(jié)134 第8章 卷積神經(jīng)網(wǎng)絡(luò)135 8.1 傳統(tǒng)圖像識別技術(shù)135 8.1.1 圖像預(yù)處理135 8.1.2 圖像特征提取136 8.1.3 圖像分類方法136 8.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡介137 8.2.1 卷積神經(jīng)網(wǎng)絡(luò)發(fā)展歷程137 8.2.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡介137 8.3 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)及原理139 8.3.1 卷積層139 8.3.2 池化層140 8.3.3 激活函數(shù)142 8.3.4 全連接層144 8.3.5 反饋運(yùn)算144 8.4 卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)146 8.5 雷達(dá)剖面圖識別模型148 8.5.1 數(shù)據(jù)準(zhǔn)備148 8.5.2 構(gòu)建模型150 8.6 模型測試分析157 8.6.1 部署基本模塊157 8.6.2 創(chuàng)建項(xiàng)目結(jié)構(gòu)157 8.6.3 訓(xùn)練網(wǎng)絡(luò)158 8.6.4 自動化測試158 8.7 本章小結(jié)160 第9章 循環(huán)神經(jīng)網(wǎng)絡(luò)161 9.1 自然語言處理161 9.1.1 自然語言處理概述161 9.1.2 自然語言處理應(yīng)用162 9.2 對話系統(tǒng)163 9.2.1 對話系統(tǒng)分類163 9.2.2 聊天機(jī)器人分類164 9.3 基于LSTM結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)165 9.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)165 9.3.2 通過時(shí)間反向傳播166 9.3.3 長短期記憶網(wǎng)絡(luò)(LSTM)169 9.4 Seq2Seq模型172 9.4.1 Encoder-Decoder框架173 9.4.2 Attention機(jī)制174 9.5 聊天機(jī)器人的程序?qū)崿F(xiàn)176 9.5.1 準(zhǔn)備數(shù)據(jù)176 9.5.2 創(chuàng)建模型178 9.5.3 訓(xùn)練模型179 9.5.4 測試模型180 9.6 本章小結(jié)181 第10章 聚類與集成算法182 10.1 聚類方法簡介182 10.1.1 聚類定義183 10.1.2 聚類要求183 10.2 聚類算法184 10.2.1 劃分方法184 10.2.2 層次方法184 10.2.3 基于密度的方法184 10.2.4 基于網(wǎng)格的方法185 10.2.5 基于模型的方法185 10.3 K-Means算法185 10.3.1 K-Means算法概述185 10.3.2 K-Means算法流程185 10.3.3 K-Means算法實(shí)現(xiàn)186 10.3.4 實(shí)驗(yàn)結(jié)果及分析188 10.3.5 K-Means算法存在的問題188 10.4 K-Means 算法189 10.4.1 K-Means 的基本思想189 10.4.2 K-Means 的數(shù)學(xué)描述190 10.4.3 K-Means 算法流程190 10.5 K-Means 的實(shí)現(xiàn)191 10.5.1 數(shù)據(jù)集191 10.5.2 代碼實(shí)現(xiàn)192 10.5.3 K-Means 實(shí)驗(yàn)結(jié)果193 10.6 Adaboost集成算法的原理194 10.6.1 Boosting算法的基本原理194 10.6.2 Adaboost算法介紹195 10.6.3 Adaboost分類問題的損失函數(shù)優(yōu)化197 10.6.4 Adaboost二元分類問題的算法流程198 10.6.5 Adaboost回歸問題的算法流程199 10.6.6 Adaboost算法的正則化200 10.6.7 Adaboost的優(yōu)缺點(diǎn)200 10.7 Adaboost算法實(shí)現(xiàn)201 10.7.1 數(shù)據(jù)集處理201 10.7.2 實(shí)現(xiàn)過程201 10.7.3 實(shí)驗(yàn)結(jié)果分析206 10.8 本章小結(jié)208 第11章 其他機(jī)器學(xué)習(xí)算法209 11.1 貝葉斯分類器210 11.1.1 概率基礎(chǔ)知識210 11.1.2 貝葉斯決策準(zhǔn)則211 11.1.3 極大似然估計(jì)212 11.2 貝葉斯分類模型213 11.2.1 樸素貝葉斯分類模型213 11.2.2 半樸素貝葉斯分類模型216 11.2.3 貝葉斯網(wǎng)絡(luò)分類模型217 11.3 樸素貝葉斯分類器在破產(chǎn)預(yù)測中的應(yīng)用219 11.3.1 數(shù)據(jù)集219 11.3.2 訓(xùn)練多項(xiàng)式樸素貝葉斯模型220 11.4 在線學(xué)習(xí)222 11.4.1 線性模型的在線學(xué)習(xí)222 11.4.2 非線性模型的在線學(xué)習(xí)224 11.5 Bandit在線學(xué)習(xí)算法225 11.5.1 Bandit算法與推薦系統(tǒng)226 11.5.2 常用Bandit算法226 11.6 Bandit算法原理及實(shí)現(xiàn)228 11.7 GAN網(wǎng)絡(luò)229 11.7.1 GAN產(chǎn)生的背景230 11.7.2 模型結(jié)構(gòu)230 11.7.3 GAN的實(shí)現(xiàn)原理232 11.8 DCGAN網(wǎng)絡(luò)236 11.8.1 模型結(jié)構(gòu)236 11.8.2 反卷積237 11.9 DCGAN人臉生成240 11.9.1 實(shí)驗(yàn)準(zhǔn)備240 11.9.2 關(guān)鍵模塊的實(shí)現(xiàn)240 11.9.3 實(shí)驗(yàn)結(jié)果展示243 11.10 本章小結(jié)245 附錄A 機(jī)器學(xué)習(xí)常見面試題246 附錄B 數(shù)學(xué)基礎(chǔ)257 B.1 常用符號257 B.2 數(shù)學(xué)基礎(chǔ)知識259 B.2.1 線性代數(shù)259 B.2.2 概率論261 B.2.3 信息論262 參考文獻(xiàn)264
你還可能感興趣
我要評論
|