本書著力于介紹數(shù)據挖掘基礎知識、基本原理、常用算法,主要內容包括數(shù)據挖掘概述、數(shù)據的描述與可視化、數(shù)據的采集和預處理、數(shù)據的歸約、關聯(lián)規(guī)則挖掘、分類與預測、 非線性預測模型、聚類分析、深度學習簡介、使用 Weka 進行數(shù)據挖掘。本書通俗易懂,注重基礎知識、基本原理和基本方法,注重啟發(fā)和引申,以培養(yǎng)學生獨立思考和獨立發(fā)現(xiàn)的能力。本書適合作為數(shù)據科學與大數(shù)據、信息管理、統(tǒng)計等專業(yè)的本科層次基礎課教材,也可作為相關專業(yè)研究生層次的參考用書。
本書是基于人工智能和大數(shù)據及相關專業(yè)的新工科教材,重點介紹了數(shù)據挖掘領域具有代表性的概念和算法基礎。全書側重基本概念,并配有大量通俗易懂案例。本教材適合48學時、32學時的本科和專科教材,也可作為研究生的入門參考書。
隨著信息技術的普及和應用,各行各業(yè)產生了大量的數(shù)據,人們持續(xù)不斷地探索
處理這些數(shù)據的方法,以期大程度地從中挖掘有用信息,面對如潮水般不斷增加的
數(shù)據,人們不再滿足于數(shù)據的查詢和統(tǒng)計分析,而是期望從數(shù)據中提取信息或者知識
為決策服務。數(shù)據挖掘技術突破數(shù)據分析技術的種種局限,結合統(tǒng)計學、數(shù)據庫、機
器學習等技術解決從數(shù)據中發(fā)現(xiàn)新的信息并輔助決策這一難題,是正在飛速發(fā)展的前
沿學科。近年來,隨著教育部新工科建設的不斷推進,大數(shù)據技術受到廣泛的關
注,數(shù)據挖掘作為大數(shù)據技術的重要實現(xiàn)手段,能夠挖掘數(shù)據的關聯(lián)規(guī)則,實現(xiàn)數(shù)據
的分類、聚類、異常檢測和時間序列分析等,解決商務管理、生產控制、市場分析、
工程設計和科學探索等各行各業(yè)中的數(shù)據分析與信息挖掘問題。
截至 2018 年本書出版,共有 283 所高校獲批數(shù)據科學與大數(shù)據技術專業(yè),
其中 985 及 211 高校占比為 13%。目前國內數(shù)據人才缺口更是達到百萬級。數(shù)據科學
是一門交叉學科,除了計算機相關知識,還需要統(tǒng)計和數(shù)學基礎,以及業(yè)務應用能力。
目前,
數(shù)據科學與大數(shù)據逐漸成為高校信息類、
管理類和數(shù)學統(tǒng)計類專業(yè)的必修課程,
同時,作為面向各專業(yè)的通識課也廣受歡迎。
本書作為立足于應用型本科數(shù)據科學與大數(shù)據教學的入門級教材,具有如下特色:
(1)內容安排合理且全面,從數(shù)據的預處理到常用數(shù)據挖掘算法的描述,循序漸
進,深入淺出。
(2)難度適中,適用于本科中低年級的入門級教材,零基礎要求,對編程及數(shù)學
知識不作要求。
(3)融入了大量本領域的前沿知識與方法,如包括基于 GAN 網絡的深度學習的
新進展。
(4)理論與案例相結合,理論與實踐相結合,包含了 Weka 工具的使用。特別地
在第 10 章還給出了完整的數(shù)據挖掘應用案例,使讀者能夠在數(shù)據挖掘平臺上感受完
整的數(shù)據分析過程。
本書全面介紹了數(shù)據挖掘的基礎知識、
基本原理、 常用算法以及相應的實踐工具,
主要內容分為以下四塊內容:
(1)數(shù)據挖掘基本知識。第 1 章為數(shù)據挖掘概述,主要介紹數(shù)據挖掘的基本概念、
基本流程及算法等。第 2 章介紹數(shù)據的描述與可視化,包括數(shù)據按屬性分類、數(shù)據的
基本統(tǒng)計描述、數(shù)據的相似性度量方法及數(shù)據的可視化技術等。
(2)數(shù)據預處理。第 3 章介紹數(shù)據的采集和預處理,包括數(shù)據的采集、數(shù)據預處
理的目的和任務、數(shù)據清洗、數(shù)據集成和數(shù)據變換等。第 4 章介紹數(shù)據的歸約,包括
線性回歸和主成分分析。
(3)數(shù)據挖掘算法詳解。第 5 章介紹關聯(lián)規(guī)則挖掘,包括關聯(lián)規(guī)則挖掘的概念、
關聯(lián)規(guī)則挖掘算法及應用實例。第 6 章介紹分類與預測,包括決策樹模型、貝葉斯分數(shù)據挖掘
2
類模型、線性判別模型、邏輯回歸模型以及模型的評估與選擇方法。第 7 章介紹非線
性預測模型,包括支持向量機和神經網絡。第 8 章介紹聚類分析,包括聚類分析概
述、 k-均值聚類、 k-中心聚類以及聚類評估。第 9 章介紹深度學習,包括深度學習
的來由、深度學習網絡的基本結構、卷積神經網絡及一個應用實例。
(4)數(shù)據挖掘實踐。第 10 章為使用 Weka 進行數(shù)據挖掘,包括 Weka 的基本操作、
如何使用 Weka 進行關聯(lián)規(guī)則挖掘、分類、回歸和聚類等。
另外,附錄還介紹了拉格朗日乘子法在支持向量機中的優(yōu)化算法。
本書由宋萬清、楊壽淵、陳劍雪、高永彬編著。具體分工如下:上海工程技術大
學宋萬清編寫第 2、5、6、8、10 章和附錄,上海工程技術大學陳劍雪編寫第 3、7 章,
上海工程技術大學高永彬編寫第 9 章,江西財經大學楊壽淵編寫第 1、4 章。全書由
上海工程技術大學方志軍、上海交通大學錢亮宏主審。同時,本書部分內容借鑒了許
多學者的研究成果,在此深表謝意!
由于編者水平有限,加之時間倉促,書中難免存在疏漏和不足之處,敬請讀者批
評指正。
編
者
2018 年 8 月
宋萬清:上海工程技術大學電子電氣工程學院教授,主要研究方向:狀態(tài)監(jiān)測與故障診斷,隨機信號分析,大數(shù)據處理,機電一體化控制與現(xiàn)場總線技術。主講了智能控制、系統(tǒng)辨識、數(shù)據挖掘等25門本科生與研究生課程。
第 1 章
數(shù)據挖掘概述 ...................... 1
1.1 什么是數(shù)據挖掘
...................... 1
1.1.1 數(shù)據、信息和知識 ........ 1
1.1.2 數(shù)據挖掘的定義 ............
2
1.1.3 數(shù)據挖掘的發(fā)展簡史 .... 3
1.2 數(shù)據挖掘的基本流程
及方法概述 ............................. 4
1.2.1 數(shù)據挖掘的基本流程 .... 4
1.2.2 數(shù)據挖掘的任務
和方法概述 ................... 6
1.3 數(shù)據挖掘的應用
...................... 9
1.3.1 數(shù)據挖掘在商務
領域的應用 ................... 9
1.3.2 數(shù)據挖掘在醫(yī)療
和醫(yī)學領域的應用 ...... 10
1.3.3 數(shù)據挖掘在銀行
和保險領域的應用 ...... 10
1.3.4 數(shù)據挖掘在社交
媒體領域的應用 ......... 11
習題 ............................................... 11
第 2 章
數(shù)據的描述與可視化.......... 12
2.1 概述
...................................... 12
2.2 數(shù)據對象與屬性類型.............
12
2.2.1 什么是屬性
................. 12
2.2.2 標稱屬性
..................... 12
2.2.3 二元屬性
..................... 13
2.2.4 序數(shù)屬性
..................... 13
2.2.5 數(shù)值屬性
..................... 14
2.2.6 離散屬性與連續(xù)
屬性 ............................ 14
2.3 數(shù)據的基本統(tǒng)計描述
............ 15
2.3.1 中心趨勢度量 .............
15
2.3.2 度量數(shù)據散布:極差、
四分位數(shù)、方差、
標準差和四分位數(shù)
極差 ............................ 17
2.3.3 數(shù)據基本統(tǒng)計的
圖形描述 .................... 19
2.4 數(shù)據可視化
........................... 23
2.4.1 基于像素的可視化 ...... 23
2.4.2 幾何投影可視化.......... 25
2.4.3 基于圖符的可視化 ...... 27
2.4.4 層次可視化
................. 28
2.4.5 可視化復雜對象和
關系 ............................ 30
2.5 數(shù)據相似性和相異性度量 ..... 32
2.5.1 數(shù)據矩陣與相異性
矩陣 ............................ 32
2.5.2 標稱屬性的鄰近性
度量 ............................ 33
2.5.3 二元屬性的鄰近性
度量 ............................ 34
2.5.4 數(shù)值屬性的相異性:
閔可夫斯基距離 ......... 36
2.5.5 序數(shù)屬性的鄰近性
度量 ............................ 37
2.5.6 混合類型屬性的
相異性 ........................ 38
2.5.7 余弦相似性
................. 40
習題............................................... 40
第 3 章
數(shù)據的采集和預處理 .......... 42
3.1 概述
...................................... 42
3.1.1 大數(shù)據采集的特點 ...... 42數(shù)據挖掘
2
3.1.2 大數(shù)據采集的方法 ...... 43
3.2 數(shù)據預處理的目的和任務 ..... 44
3.3 數(shù)據清洗
............................... 45
3.3.1 缺失值清洗
................. 46
3.3.2 異常值清洗
................. 48
3.3.3 格式內容清洗 .............
50
3.3.4 邏輯錯誤清洗 .............
50
3.3.5 非需求數(shù)據清洗 .......... 51
3.3.6 關聯(lián)性驗證
................. 51
3.4 數(shù)據集成
............................... 52
3.5 數(shù)據變換 ...............................
53
習題 ............................................... 56
第 4 章
數(shù)據的歸約........................ 57
4.1 概述
...................................... 57
4.2 屬性的選擇與數(shù)值歸約 .........
57
4.2.1 屬性的評估準則 .......... 58
4.2.2 屬性子集選擇方法 ...... 59
4.2.3 數(shù)值歸約
..................... 60
4.3 線性回歸
............................... 61
4.4 主成分分析
........................... 63
習題 ............................................... 66
第 5 章
關聯(lián)規(guī)則挖掘 .................... 67
5.1 概述
...................................... 67
5.2 關聯(lián)規(guī)則的分類
.................... 68
5.3 關聯(lián)規(guī)則的研究步驟.............
68
5.3.1 關聯(lián)規(guī)則挖掘算法的
分類 ............................ 69
5.3.2 各種算法類型的
對比 ............................ 70
5.4 Apriori 算法分析
................... 70
5.5 實例分析
............................... 70
5.6 關聯(lián)規(guī)則的推廣(GRI) ...... 72
5.7 關聯(lián)規(guī)則的深入挖掘.............
74
習題 ............................................... 75
第 6 章
分類與預測........................ 76
6.1 概述
...................................... 76
6.1.1 基本概念
..................... 76
6.1.2 數(shù)據分類的
一般方法 .................... 77
6.2 決策樹模型
........................... 77
6.2.1 決策樹的工作原理 ...... 78
6.2.2 決策樹的適用問題 ...... 78
6.2.3 ID3 算法
..................... 79
6.2.4 決策樹的結點劃分 ...... 80
6.3 貝葉斯分類模型
.................... 81
6.3.1 貝葉斯定理
................. 81
6.3.2 貝葉斯模型的特點 ...... 82
6.4 線性判別模型
....................... 82
6.5 邏輯回歸模型
....................... 83
6.5.1 邏輯回歸模型
概述 ............................ 83
6.5.2 邏輯回歸模型的
基本概念 .................... 83
6.6 模型的評估與選擇
................ 85
6.6.1 評估分類器性能的
度量 ............................ 85
6.6.2 保持方法和隨機
二次抽樣 .................... 90
6.6.3 交叉驗證
..................... 90
6.6.4 自助法
........................ 91
6.6.5 使用統(tǒng)計顯著性檢驗
選擇模型 .................... 91
習題............................................... 93
第 7 章
非線性預測模型 ................. 94
7.1 概述
...................................... 94
7.2 支持向量機
........................... 94
7.2.1 支持向量機分類
原理 ............................ 95
7.2.2 非線性支持向量機 ...... 99
7.2.3 支持向量機回歸
預測 .......................... 102
7.2.4 基于支持向量機的
預測分析 .................. 106
7.3 神經網絡
............................. 108
7.3.1 人工神經網絡模型
與分類 ...................... 108
7.3.2 BP 神經網絡 .............
112目 錄
3
7.3.3 RBF 神經網絡 ........... 117
7.3.4 基于神經網絡的
預測分析................... 121
習題 ............................................. 124
第 8 章
聚類分析 ......................... 125
8.1 概述
.................................... 125
8.2 k-均值聚類
......................... 126
8.3 k-中心聚類
......................... 129
8.4 聚類評估
............................. 130
8.4.1 外部法
...................... 130
8.4.2 內部法
...................... 131
8.4.3 可視化方法 ...............
131
習題 ............................................. 131
第 9 章
深度學習簡介 .................. 133
9.1 概述
.................................... 133
9.2 來自人類視覺機理的啟發(fā) ... 134
9.3 深層神經網絡......................
136
9.4 卷積神經網絡......................
137
9.4.1 卷積和池化 ...............
138
9.4.2 CNN 網絡框架 .......... 141
9.4.3 CNN 的應用 ..............
142
9.5 RNN 循環(huán)神經網絡 .............
144
9.5.1 RNN 的結構 ..............
145
9.5.2 RNN 的缺陷 ..............
146
9.5.3 RNN 的應用 ..............
147
9.6 生成對抗網絡
..................... 147
9.6.1 GAN 的原理與架構 .. 148
9.6.2 GAN 的應用 ..............
150
習題............................................. 151
第 10 章
使用 Weka 進行
數(shù)據挖掘 ....................... 153
10.1 概述
.................................. 153
10.2 Weka 關聯(lián)數(shù)據挖掘的
基本操作 ........................... 153
10.3 數(shù)據格式
........................... 158
10.4 關聯(lián)規(guī)則挖掘
................... 160
10.5 分類與回歸
....................... 163
10.6 聚類分析
........................... 166
習題............................................. 167
附錄 A 拉格朗日優(yōu)化法 ............... 169
參考文獻........................................ 177