Python是一門免費、開源的高級動態(tài)編程語言,支持命令式編程、函數(shù)式編程、面向對象程序設計,語法簡潔清晰,并且擁有大量功能豐富而強大的標準庫和擴展庫,可以幫各領域的科研人員或策劃師甚至管理人員快速實現(xiàn)和驗證自己的思路與創(chuàng)意。本書首先介紹Python編程基礎,然后通過實際案例來講解聚類、分類與預測、協(xié)同過濾等算法的應用。
本書*大的特色就是實踐性較強,在闡述大數(shù)據(jù)技術相關基礎知識的同時,輔以大量實踐內(nèi)容及項目實例,可培養(yǎng)學生的學習興趣,極大提高學生的動手能力。
大數(shù)據(jù)時代的到來,改變了許多行業(yè)的人才需求模式,大數(shù)據(jù)方面的人才成為各信息產(chǎn)業(yè)尤其是IT行業(yè)的熱門人才。許多高等院校已經(jīng)新增了大數(shù)據(jù)技術相關專業(yè),部分院校成立了大數(shù)據(jù)學院,標志著進行大數(shù)據(jù)技術人才培養(yǎng)已經(jīng)正式成為高等教育的培養(yǎng)需求。基于Python培養(yǎng)大數(shù)據(jù)人才的基本要求,《Python大數(shù)據(jù)技術應用實踐》可作為大數(shù)據(jù)技術相關專業(yè)本科生及高職院校相關專業(yè)實踐類的教材,為培養(yǎng)大數(shù)據(jù)技術相關人才打下堅實的基礎。
培養(yǎng)技術型及實踐型人才是大數(shù)據(jù)時代教育部對大數(shù)據(jù)技術相關人才的基本要求,也是各信息產(chǎn)業(yè)對人才的基本需求。編寫本書的目的就是要讓大數(shù)據(jù)技術相關專業(yè)學生通過本課程的學習,了解大數(shù)據(jù)技術的基礎知識,掌握基于Python環(huán)境搭建大數(shù)據(jù)分析的基本流程及實現(xiàn)過程,提高學習本課程的興趣,培養(yǎng)解決實際問題的能力。
本書最大的特色就是實踐性較強,在闡述大數(shù)據(jù)技術相關基礎知識的同時,輔以大量實踐內(nèi)容及項目實例,可培養(yǎng)學生的學習興趣,極大提高學生的動手能力。本書克服了許多教材注重理論缺少實踐內(nèi)容的弊端。學生可在課后,自己進一步動手實踐,從而提高學習效率。
本書主要以大數(shù)據(jù)技術及計算機相關專業(yè)的本科生及高職院校學生為讀者對象,注重大數(shù)據(jù)技術相關基礎知識,尤其是實踐環(huán)節(jié)的描述,避免了煩瑣的理論知識介紹。全書共21章,內(nèi)容包括:Python基礎簡介、初識Python、列表與元組、字符串與正則表達式、字典、集合、文件操作、函數(shù)、面向對象、異常處理結構、使用Pandas進行數(shù)據(jù)分析、可視化技術與Matplotlib、分類與預測、常用聚類分析算法、關聯(lián)規(guī)則算法、協(xié)同過濾算法、時間序列數(shù)據(jù)分析、離群點檢測方法、數(shù)據(jù)降維、模型評估與調優(yōu)、數(shù)據(jù)分析與挖掘實戰(zhàn)。
第1~10章屬于Python基礎知識部分,是搭建Python環(huán)境和編碼的必備知識;第11~12章是提高部分,主要是學習可視化圖形的腳本編輯,實際中可根據(jù)應用需要選擇學習;第13~20章是本書各個算法的實現(xiàn)及代碼的實現(xiàn)
介紹;第21章從實際出發(fā),通過不同領域的項目案例講解Python如何處理大數(shù)據(jù)信息。本書可以作為工科高校相關專業(yè)32~40學時的課程教程。
本書由北京電子科技學院婁嘉鵬老師、北京紅亞華宇科技有限公司鄭洪賓總經(jīng)理任主編,由候明昌、周國輝、謝濤任副主編,具體分工是:候明昌、周國輝、謝濤等參與教材整體框架設計,北京紅亞華宇科技有限公司提供實訓素材,婁嘉鵬老師負責編寫全書。特別感謝山東工商學院董付國教授提供案例支持。本書在編寫及校對過程中,特別是項目實踐內(nèi)容驗證過程中,得到了北京紅亞華宇科技有限公司的大力幫助,在此表示衷心感謝。
由于編著者水平有限,書中難免存在錯誤之處,敬請讀者批評指正。
大數(shù)據(jù)時代的到來,改變了許多行業(yè)的人才需求模式,大數(shù)據(jù)方面的人才成為各信息產(chǎn)業(yè)尤其是IT行業(yè)的熱門人才。許多高等院校已經(jīng)新增了大數(shù)據(jù)技術相關專業(yè),部分院校成立了大數(shù)據(jù)學院,標志著進行大數(shù)據(jù)技術人才培養(yǎng)已經(jīng)正式成為高等教育的培養(yǎng)需求;赑ython培養(yǎng)大數(shù)據(jù)人才的基本要求,《Python大數(shù)據(jù)技術應用實踐》可作為大數(shù)據(jù)技術相關專業(yè)本科生及高職院校相關專業(yè)實踐類的教材,為培養(yǎng)大數(shù)據(jù)技術相關人才打下堅實的基礎。
培養(yǎng)技術型及實踐型人才是大數(shù)據(jù)時代教育部對大數(shù)據(jù)技術相關人才的基本要求,也是各信息產(chǎn)業(yè)對人才的基本需求。編寫本書的目的就是要讓大數(shù)據(jù)技術相關專業(yè)學生通過本課程的學習,了解大數(shù)據(jù)技術的基礎知識,掌握基于Python環(huán)境搭建大數(shù)據(jù)分析的基本流程及實現(xiàn)過程,提高學習本課程的興趣,培養(yǎng)解決實際問題的能力。
本書最大的特色就是實踐性較強,在闡述大數(shù)據(jù)技術相關基礎知識的同時,輔以大量實踐內(nèi)容及項目實例,可培養(yǎng)學生的學習興趣,極大提高學生的動手能力。本書克服了許多教材注重理論缺少實踐內(nèi)容的弊端。學生可在課后,自己進一步動手實踐,從而提高學習效率。
本書主要以大數(shù)據(jù)技術及計算機相關專業(yè)的本科生及高職院校學生為讀者對象,注重大數(shù)據(jù)技術相關基礎知識,尤其是實踐環(huán)節(jié)的描述,避免了煩瑣的理論知識介紹。全書共21章,內(nèi)容包括:Python基礎簡介、初識Python、列表與元組、字符串與正則表達式、字典、集合、文件操作、函數(shù)、面向對象、異常處理結構、使用Pandas進行數(shù)據(jù)分析、可視化技術與Matplotlib、分類與預測、常用聚類分析算法、關聯(lián)規(guī)則算法、協(xié)同過濾算法、時間序列數(shù)據(jù)分析、離群點檢測方法、數(shù)據(jù)降維、模型評估與調優(yōu)、數(shù)據(jù)分析與挖掘實戰(zhàn)。
第1~10章屬于Python基礎知識部分,是搭建Python環(huán)境和編碼的必備知識;第11~12章是提高部分,主要是學習可視化圖形的腳本編輯,實際中可根據(jù)應用需要選擇學習;第13~20章是本書各個算法的實現(xiàn)及代碼的實現(xiàn)
介紹;第21章從實際出發(fā),通過不同領域的項目案例講解Python如何處理大數(shù)據(jù)信息。本書可以作為工科高校相關專業(yè)32~40學時的課程教程。
本書由北京電子科技學院婁嘉鵬老師、北京紅亞華宇科技有限公司鄭洪賓總經(jīng)理任主編,由候明昌、周國輝、謝濤任副主編,具體分工是:候明昌、周國輝、謝濤等參與教材整體框架設計,北京紅亞華宇科技有限公司提供實訓素材,婁嘉鵬老師負責編寫全書。特別感謝山東工商學院董付國教授提供案例支持。本書在編寫及校對過程中,特別是項目實踐內(nèi)容驗證過程中,得到了北京紅亞華宇科技有限公司的大力幫助,在此表示衷心感謝。
由于編著者水平有限,書中難免存在錯誤之處,敬請讀者批評指正。
前言::大數(shù)據(jù)時代的到來,改變了許多行業(yè)的人才需求模式,大數(shù)據(jù)方面的人才成為各信息產(chǎn)業(yè)尤其是IT行業(yè)的熱門人才。許多高等院校已經(jīng)新增了大數(shù)據(jù)技術相關專業(yè),部分院校成立了大數(shù)據(jù)學院,標志著進行大數(shù)據(jù)技術人才培養(yǎng)已經(jīng)正式成為高等教育的培養(yǎng)需求;赑ython培養(yǎng)大數(shù)據(jù)人才的基本要求,《Python大數(shù)據(jù)技術應用實踐》可作為大數(shù)據(jù)技術相關專業(yè)本科生及高職院校相關專業(yè)實踐類的教材,為培養(yǎng)大數(shù)據(jù)技術相關人才打下堅實的基礎。
培養(yǎng)技術型及實踐型人才是大數(shù)據(jù)時代教育部對大數(shù)據(jù)技術相關人才的基本要求,也是各信息產(chǎn)業(yè)對人才的基本需求。編寫本書的目的就是要讓大數(shù)據(jù)技術相關專業(yè)學生通過本課程的學習,了解大數(shù)據(jù)技術的基礎知識,掌握基于Python環(huán)境搭建大數(shù)據(jù)分析的基本流程及實現(xiàn)過程,提高學習本課程的興趣,培養(yǎng)解決實際問題的能力。
本書最大的特色就是實踐性較強,在闡述大數(shù)據(jù)技術相關基礎知識的同時,輔以大量實踐內(nèi)容及項目實例,可培養(yǎng)學生的學習興趣,極大提高學生的動手能力。本書克服了許多教材注重理論缺少實踐內(nèi)容的弊端。學生可在課后,自己進一步動手實踐,從而提高學習效率。
本書主要以大數(shù)據(jù)技術及計算機相關專業(yè)的本科生及高職院校學生為讀者對象,注重大數(shù)據(jù)技術相關基礎知識,尤其是實踐環(huán)節(jié)的描述,避免了煩瑣的理論知識介紹。全書共21章,內(nèi)容包括:Python基礎簡介、初識Python、列表與元組、字符串與正則表達式、字典、集合、文件操作、函數(shù)、面向對象、異常處理結構、使用Pandas進行數(shù)據(jù)分析、可視化技術與Matplotlib、分類與預測、常用聚類分析算法、關聯(lián)規(guī)則算法、協(xié)同過濾算法、時間序列數(shù)據(jù)分析、離群點檢測方法、數(shù)據(jù)降維、模型評估與調優(yōu)、數(shù)據(jù)分析與挖掘實戰(zhàn)。
第1~10章屬于Python基礎知識部分,是搭建Python環(huán)境和編碼的必備知識;第11~12章是提高部分,主要是學習可視化圖形的腳本編輯,實際中可根據(jù)應用需要選擇學習;第13~20章是本書各個算法的實現(xiàn)及代碼的實現(xiàn)
介紹;第21章從實際出發(fā),通過不同領域的項目案例講解Python如何處理大數(shù)據(jù)信息。本書可以作為工科高校相關專業(yè)32~40學時的課程教程。
本書由北京電子科技學院婁嘉鵬老師、北京紅亞華宇科技有限公司鄭洪賓總經(jīng)理任主編,由候明昌、周國輝、謝濤任副主編,具體分工是:候明昌、周國輝、謝濤等參與教材整體框架設計,北京紅亞華宇科技有限公司提供實訓素材,婁嘉鵬老師負責編寫全書。特別感謝山東工商學院董付國教授提供案例支持。本書在編寫及校對過程中,特別是項目實踐內(nèi)容驗證過程中,得到了北京紅亞華宇科技有限公司的大力幫助,在此表示衷心感謝。
由于編著者水平有限,書中難免存在錯誤之處,敬請讀者批評指正。
婁嘉鵬,北京電子科技學院網(wǎng)絡空間安全系,榮獲“北京市優(yōu)秀教師”,“北京市十大魅力教師”等榮譽稱號。主講《Python程序設計》,《Java程序設計》,《Linux內(nèi)核原理與分析》等課程。
第1章 Python基礎簡介 12
1.1 Python語言概述 12
1.2 為何學習Python 12
1.2.1 Python特點 12
1.2.2 Python在大數(shù)據(jù)中的優(yōu)勢 14
1.3 Python主要應用領域 14
1.4 Python開發(fā)環(huán)境搭建 14
1.4.1 Windows系統(tǒng)中安裝Python 14
1.4.2 在Linux系統(tǒng)中安裝Python 16
1.4.3 使用pip安裝擴展庫 17
1.4.4 PyCharm安裝與使用 18
1.4.5 Anaconda3安裝與使用 21
第2章 初識Python 26
2.1 基本數(shù)據(jù)類型 26
2.1.1 數(shù)值類型 26
2.1.2 字符串 27
2.1.3 常用容器類型 30
2.2 變量 33
2.2.1 變量的定義與命名規(guī)則 33
2.2.2 變量創(chuàng)建與刪除 33
2.3 基本輸入輸出 34
2.3.1 input()函數(shù) 34
2.3.2 print()函數(shù) 34
2.4 模塊 35
2.4.1 模塊的概念 35
2.4.2 導入和使用模塊中的對象 35
2.4.3 內(nèi)置模塊__builtins__ 36
2.4.4 time模塊 36
2.4.5 datetime模塊 37
2.4.6 random模塊 38
2.4.7 sys模塊 39
2.4.8 自定義模塊 40
2.5 運算符與表達式 40
2.5.1 算術運算符 40
2.5.2 關系運算符 41
2.5.3 集合運算符 42
2.5.4 邏輯運算符 42
2.5.5 成員運算符 42
2.5.6 身份運算符 42
2.5.7 運算符優(yōu)先級 43
2.6 選擇結構與循環(huán)結構 44
2.6.1 常用選擇結構 44
2.6.2 if...else 44
2.6.3 while循環(huán) 45
2.6.4 for循環(huán) 46
2.6.5 break與continue語句 46
2.6.6 帶else子句的循環(huán)結構 47
2.7 猜數(shù)字游戲 47
第3章 列表與元組 50
3.1 序列操作 50
3.1.1 創(chuàng)建序列 50
3.1.2 元素訪問 51
3.1.3 切片 52
3.2 列表常用方法 53
3.2.1 append()、extend()、insert() 53
3.2.2 count() 54
3.2.3 index() 54
3.2.4 pop()、remove() 54
3.2.5 sort()、reverse() 55
3.3 元組 55
3.3.1 列表和元組的區(qū)別 55
3.3.2 元組的優(yōu)點 56
3.4 列表解析式與生成器表達式 57
3.4.1 列表解析式 57
3.4.2 生成器表達式 59
3.4.3 列表解析式與生成器表達式的區(qū)別 60
第4章 字符串與正則表達式 63
4.1 字符編碼 63
4.1.1 常見字符編碼 63
4.1.2 字符串與字節(jié)串之間的轉換 64
4.2 字符串的基本操作 65
4.2.1 元素訪問 65
4.2.2 連接字符串 65
4.2.3 字符串重復 65
4.2.4 切片 66
4.2.5 字符串測試 67
4.3 字符串格式化 67
4.3.1 使用運算符%格式化 67
4.3.2 使用format()方法格式化 69
4.3.3 格式化字符串常量 70
4.4 字符串方法 70
4.4.1 find()、index() 70
4.4.2 split()、join() 71
4.4.3 lower()、upper()、swapcase() 71
4.4.4 strip() 72
4.4.5 replace() 72
4.4.6 maketrans、translate() 73
4.4.7 isupper()、islower()、isdigit() 73
4.4.8 center()、ljust()、rjust() 74
4.5 正則表達式與re模塊 74
4.5.1 正則表達式基本語法 74
4.5.2 貪婪模式與非貪婪模式 75
4.5.3 re.match()、re.search() 76
4.5.4 re.split() 77
4.5.5 re.sub() 77
第5章 字典 80
5.1 字典創(chuàng)建與使用 80
5.1.1 字典的創(chuàng)建與刪除 80
5.1.2 訪問元素值 80
5.1.3 添加元素、修改元素值 81
5.2 字典方法 82
5.2.1 get() 82
5.2.2 items()、keys()、values() 82
5.2.3 pop()、popitem() 82
第6章 集合 84
6.1 集合創(chuàng)建與使用 84
6.1.1 集合的創(chuàng)建與刪除 84
6.1.2 元素插入與刪除 84
6.2 集合常用運算 85
第7章 文件操作 87
7.1 文件基本概念 87
7.1.1 文本文件 87
7.1.2 二進制文件 87
7.1.3 兩者的區(qū)別 87
7.2 打開與關閉文件 87
7.2.1 open()函數(shù)與close()方法 87
7.2.2 with關鍵字 87
7.3 文件對象基本方法 87
7.3.1 read()、readline()、readlines() 87
7.3.2 write()、writelines() 87
7.3.3 讀寫二進制文件(是不是應該使用Struct?) 87
7.4 數(shù)據(jù)序列化與反序列化 87
7.4.1 序列化和反序列化的作用 87
7.4.2 使用pickle進行序列化和反序列化 87
7.4.3 使用JSON進行序列化和反序列化 87
7.5 文件與文件夾基本操作 87
7.5.1 os模塊 87
7.5.2 os.path模塊 87
第8章 函數(shù) 87
8.1 函數(shù)的定義和調用 87
8.1.1 定義函數(shù) 87
8.1.2 調用函數(shù) 87
8.2.3 遞歸函數(shù) 87
8.2 函數(shù)參數(shù) 87
8.2.1 形參與實參概念 87
8.2.2 位置參數(shù) 87
8.2.3 關鍵字參數(shù) 87
8.2.4 默認值參數(shù) 87
8.2.5 長度可變參數(shù) 87
8.3 變量作用域 87
8.4 函數(shù)返回值 87
8.5 函數(shù)嵌套定義、閉包、裝飾器 87
第9章 面向對象 87
9.1 類的定義與使用 87
9.1.1 class關鍵字 87
9.1.2 數(shù)據(jù)成員與成員方法 87
9.1.3 創(chuàng)建對象 87
9.2 構造方法與析構方法 87
9.3 成員訪問權限 87
9.4 繼承 87
第10章 異常處理結構 87
10.1 異常概念與常見表現(xiàn)形式 87
10.2 常見異常處理結構 87
10.2.1 try...except... 87
10.2.2 try...except...else... 87
10.2.3 帶多個except的異常處理結構 87
10.2.4 try...finally... 87
10.3 raise語句 87
第11章 使用pandas進行數(shù)據(jù)分析 87
11.1 Series和DataFrame簡介 87
11.2 DataFrame常用屬性和方法 87
11.2.1 創(chuàng)建DataFrame 87
11.2.2 DataFrame常用方法 87
11.3 數(shù)據(jù)訪問與修改 87
11.3.1 數(shù)據(jù)訪問 87
11.4 缺失值處理 87
11.5 重復值處理 87
11.6 異常值處理 87
11.7 讀寫文件 87
11.8 結合Matplotlib進行數(shù)據(jù)可視化 87
第12章 可視化技術與Matplotlib 87
12.1 繪制折線圖 87
12.2 繪制散點圖 87
12.3 繪制餅狀圖 87
12.4 繪制柱狀圖 87
12.5 繪圖區(qū)域分割 87
12.5.1 plt.subplot(nrows, ncols, plot_number) 87
12.5.2 plt.subplot2grid(shape, loc, rowspan=1, colspan=1, fig=None) 87
12.5.3 matplotlib.gridspec 類 87
第13章 分類與預測 87
13.1 Logistic回歸分析 87
13.1.1 Logistic回歸分析定義 87
13.1.2 Logistic回歸模型基本思想及內(nèi)容 87
13.1.3 Logistic回歸分析模型建模步驟 87
13.1.4 Logistic回歸分析算法實例 87
13.2 決策樹 87
13.2.1 決策樹定義 87
13.2.2 常用決策樹算法 87
13.2.3 決策樹基本思想及內(nèi)容 87
13.2.4 決策樹計算公式及語法 87
13.2.5 決策樹實例 87
13.3 K近鄰分類算法 87
13.3.1 K近鄰分類算法定義 87
13.3.2 K鄰近分類算法計算步驟 87
13.3.3 K近鄰分類算法優(yōu)缺點 87
13.3.4 K鄰近分類算法語法結構 87
13.3.5 K近鄰分類算法實例 87
13.4 人工神經(jīng)網(wǎng)絡 87
13.4.1 人工神經(jīng)網(wǎng)絡定義 87
13.4.2 人工神經(jīng)網(wǎng)絡基本思想及內(nèi)容 87
13.4.3 BP神經(jīng)網(wǎng)絡算法步驟 87
13.4.4 人工神經(jīng)網(wǎng)絡實例 87
13.5 支持向量機 87
13.5.1 支持向量機定義 87
13.5.2 支持向量機優(yōu)缺點 87
13.5.3 支持向量機語法結構 87
13.5.4 支持向量機算法實例 87
13.6 隨機森林 87
13.6.1 隨機森林定義 87
13.6.2 隨機森林執(zhí)行步驟 87
13.6.3 隨機森林優(yōu)缺點 87
13.6.4 隨機森林語法結構 87
13.6.5 隨機森林方法實例 87
第14章 常用聚類分析算法 87
14.1 K-Means聚類算法 87
14.1.1 K-Means聚類算法過程 87
14.1.2 K-Means聚類的主要特點 87
14.1.3 K-Means聚類語法結構 87
14.1.4 K-Means聚類實例 87
14.2 系統(tǒng)聚類算法 87
14.2.1 系統(tǒng)聚類算法定義 87
14.2.2 系統(tǒng)聚類算法步驟 87
14.2.3 系統(tǒng)聚類算法語法結構 87
14.2.4 系統(tǒng)聚類算法實例 87
14.3 DBSCAN聚類算法 87
14.3.1 DBSCAN聚類算法定義 87
14.3.2 DBSCAN聚類算法步驟 87
14.3.3 DBSCAN聚類算法優(yōu)缺點 87
14.3.4 DBSCAN聚類算法語法結構 87
14.3.5 DBSCAN聚類算法實例 87
第15章 關聯(lián)規(guī)則算法 87
15.1 Apriori算法簡介 87
15.1.1 挖掘項集相關定義 87
15.1.2 步驟 87
15.1.3 由頻繁項集產(chǎn)生關聯(lián)規(guī)則 87
15.2 Apriori算法應用 87
第16章 協(xié)同過濾算法 87
16.1 基于用戶的協(xié)同過濾算法 87
16.1.1 基于用戶的協(xié)同過濾算法定義 87
16.1.2 基于用戶的協(xié)同過濾算法的方法步驟 87
16.1.3 基于用戶的協(xié)同過濾算法的優(yōu)缺點 87
16.1.4 基于用戶的協(xié)同過濾算法實例 87
16.2 基于物品的協(xié)同過濾算法 87
16.2.1 基于物品的協(xié)同過濾算法定義 87
16.2.2 基于物品的協(xié)同過濾算法方法步驟 87
16.2.3 基于物品的協(xié)同過濾算法實例 87
第17章 時間序列數(shù)據(jù)分析 87
17.1 時間序列的預處理 87
17.1.1 平穩(wěn)性檢驗 87
17.1.2 純隨機性檢驗 87
17.2 平穩(wěn)時間序列分析 87
17.2.1 AR模型 87
17.2.2 MA模型 87
17.2.3 ARMA模型 87
17.2.4 平穩(wěn)時間序列建模 87
17.3 非平穩(wěn)時間序列分析 87
17.3.1 差分運算 87
17.3.2 ARIMA模型 87
17.4 Python 主要時序模式算法 87
第18章 離群點檢測方法 87
18.1 離群點檢測概述 87
18.1.1 離群點檢測概念 87
18.1.2 離群點的成因 87
18.1.3 離群點的類型 87
18.1.4常用離群點檢測方法 87
18.2 基于密度的離群點檢測方法 87
18.2.1 平穩(wěn)性檢驗 87
18.2.2 一元正態(tài)分布中的的離群點檢測 87
18.2.3 混合模型的離群點檢測 87
18.3 基于聚類的離群點檢測方法 87
18.4 基于距離的離群點檢測方法 87
18.4.1 基于原型的聚類 87
18.4.2 基于聚類的離群點檢測的改進 87
第19章 數(shù)據(jù)降維 87
19.1 數(shù)據(jù)降維概述 87
19.1.1 數(shù)據(jù)降維概述 87
19.1.2 有監(jiān)督和無監(jiān)督 87
19.1.3 線性降維 87
19.1.4 非線性降維 87
19.1.5 數(shù)據(jù)標準化 87
19.2 常用降維方法簡介 87
19.2.1 缺失值的比率 87
19.2.2 低方差過濾 87
19.2.3 高相關過濾 87
19.2.4 Random Forests/Ensemble Trees 87
19.2.5 PCA(主成分分析) 87
19.2.6 反向特征的消除 87
19.2.7 正向特征的構建 87
第20章 模型評估與調優(yōu) 87
20.1 模型評估和調優(yōu)的意義 87
20.1.1 機器學習 87
20.1.2 模型評估 87
20.2 評估指標(Evaluation metrics) 87
20.2.1 分類評估指標 87
20.2.2 回歸評估指標 87
20.2.3 排序評估指標 87
20.3 模型調優(yōu)建議與注意事項 87
20.3.1 數(shù)據(jù)傾斜 87
20.3.2 類別不均衡(Imbalanced Classes) 87
20.3.3 異常點(Outliers) 87
第21章 數(shù)據(jù)分析與挖掘實戰(zhàn) 87
21.1 熱水器使用情況分析 87
21.1.1 背景與挖掘目標 87
21.1.2 分析方法與過程 87
21.1.3 數(shù)據(jù)抽取 87
21.1.4 數(shù)據(jù)探索分析 87
21.1.5 數(shù)據(jù)預處理 87
21.1.6 模型構建 87
21.1 電子商務的智能推薦 87
21.1.1 背景與挖掘目標 87
21.1.2 分析方法與過程 87
21.1.3 數(shù)據(jù)抽取 87
21.1.4 數(shù)據(jù)探索分析 87
21.1.5 數(shù)據(jù)預處理 87
21.1.6 模型構建 87
21.2 財政收入分析 87
21.2.1 背景與挖掘目標 87
21.2.2 分析方法與過程 87
21.2.3 灰色預測與神經(jīng)網(wǎng)絡的組合模型 87
21.2.4 數(shù)據(jù)探索分析 87
21.2.5 模型構建 87
21.3 電商產(chǎn)品評價分析 87
21.3.1 背景與挖掘目標 87
21.3.2 分析方法與過程 87
21.3.3 評論數(shù)據(jù)采集 87
21.3.4 評論預處理 87
21.3.5 機械壓縮去詞 87
21.3.6 文本評論分詞 87
21.3.7 模型構建 87
21.4 電力竊漏識別分析 87
21.4.1 背景與挖掘目標 87
21.4.2 分析方法與過程 87
21.4.3 灰色預測與神經(jīng)網(wǎng)絡的組合模型 87
21.4.4 數(shù)據(jù)探索分析 87
21.4.5 數(shù)據(jù)預處理 87
21.4.6 構建專家樣本 87
21.4.7 模型構建 87
參考文獻: 87