數(shù)據(jù)挖掘原理、算法與應(yīng)用
定 價:49 元
叢書名:高等教育規(guī)劃教材
- 作者:梁亞聲 ... [等] 編著
- 出版時間:2015/4/1
- ISBN:9787111496328
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:322
- 紙張:膠版紙
- 版次:1
- 開本:16K
本書系統(tǒng)介紹了數(shù)據(jù)挖掘原理、算法和應(yīng)用的相關(guān)知識。主要內(nèi)容包括:數(shù)據(jù)存儲;數(shù)據(jù)與處理;數(shù)據(jù)相似度與異常檢測;數(shù)據(jù)分類和預(yù)測;數(shù)據(jù)聚類分析;數(shù)據(jù)關(guān)聯(lián)分析等。
隨著信息技術(shù)的普及和應(yīng)用,各個領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)被獲取、存儲下來,其中蘊含著豐富的信息。人們持續(xù)不斷地探索處理這些數(shù)據(jù)的方法,以期最大程度地從中挖掘有用的信息,面對如潮水般不斷增加的數(shù)據(jù),人們不再滿足于數(shù)據(jù)的查詢和統(tǒng)計分析,而是期望從數(shù)據(jù)中提取信息或者知識為決策服務(wù)。數(shù)據(jù)挖掘技術(shù)突破了數(shù)據(jù)分析技術(shù)的種種局限,它結(jié)合統(tǒng)計學(xué)、數(shù)據(jù)庫、機器學(xué)習(xí)等技術(shù)解決從數(shù)據(jù)中發(fā)現(xiàn)新的信息,輔助決策這一難題,是正在飛速發(fā)展的前沿學(xué)科。一些大型企業(yè)對數(shù)據(jù)挖掘產(chǎn)品和工具的使用都超過20年,并已產(chǎn)生了期望的效應(yīng)。此外,數(shù)據(jù)挖掘產(chǎn)品和工具在金融、商業(yè)、電信、醫(yī)學(xué)等多個領(lǐng)域也得到廣泛推廣應(yīng)用。
數(shù)據(jù)挖掘并不是要取代其他數(shù)據(jù)分析技術(shù),而是將它們作為其工作的基矗盡管有些技術(shù)(如關(guān)聯(lián)分析)是數(shù)據(jù)挖掘獨有的,但是,另一些技術(shù)(如聚類、分類和異常檢測)則建立在其他學(xué)科長期研究的基礎(chǔ)之上。數(shù)據(jù)挖掘利用已有技術(shù)加速其發(fā)展,并一直與其他學(xué)科的技術(shù)緊密結(jié)合。成功地進行數(shù)據(jù)挖掘是綜合使用多種技術(shù),以及理解數(shù)據(jù)的專業(yè)人員和數(shù)據(jù)分析人員合作的成果。
本書結(jié)合數(shù)據(jù)挖掘技術(shù)的最新發(fā)展,系統(tǒng)地介紹了數(shù)據(jù)挖掘的基礎(chǔ)理論、技術(shù)原理、算法和應(yīng)用,以使讀者對數(shù)據(jù)挖掘有一個系統(tǒng)、全面的了解。本書共9章,第1章主要介紹數(shù)據(jù)挖掘的基本概念和數(shù)據(jù)挖掘的過程。第2章主要介紹關(guān)系數(shù)據(jù)集和數(shù)據(jù)倉庫等數(shù)據(jù)存儲方式的基本概念、數(shù)據(jù)組織及其涉及的關(guān)鍵技術(shù),以及分布式文件系統(tǒng)、NoSQL等大數(shù)據(jù)存儲方式的概念、結(jié)構(gòu)、原理和數(shù)據(jù)組織方法等。第3章主要介紹了數(shù)據(jù)預(yù)處理的概念和必要性,以及數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約、數(shù)據(jù)離散化和特征選擇等數(shù)據(jù)預(yù)處理技術(shù)。第4章主要介紹了相似度度量的基礎(chǔ)知識和5種異常檢測方法,并深入分析歐式距離等6種傳統(tǒng)的度量方法和大數(shù)據(jù)度量方法。第5章主要介紹了數(shù)據(jù)分類和預(yù)測的基本概念,決策樹分類、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)等分類方法,以及預(yù)測算法與應(yīng)用。第6章主要介紹了數(shù)據(jù)聚類分析的基本概念,以及基于劃分、基于層次、基于密度、基于網(wǎng)格和基于模型的聚類算法,還介紹了聚類分析的評估方法及其應(yīng)用。第7章主要介紹了關(guān)聯(lián)分析的基本概念,分析了關(guān)聯(lián)規(guī)則挖掘的兩個子任務(wù):頻繁項集產(chǎn)生和規(guī)則產(chǎn)生,介紹了頻繁項集的緊湊表示及產(chǎn)生頻繁項集的其他方法、FP-growth算法、關(guān)聯(lián)評估及其應(yīng)用等內(nèi)容。第8章主要針對數(shù)據(jù)挖掘模型的評價和度量介紹了評分函數(shù)(包括常用的預(yù)測性評分函數(shù)和描述性評分函數(shù));介紹了針對數(shù)據(jù)挖掘模型的成本評價曲線;從評價模型復(fù)雜度角度介紹了最短描述長度原則等評價方法;針對模型有效性驗證介紹了交叉驗證和Bootstrap驗證方法;從數(shù)據(jù)挖掘模型效率和準(zhǔn)確率提升角度,介紹了云計算和集成學(xué)習(xí)方法。第9章主要介紹了針對文本、圖像、語音識別、視頻、網(wǎng)絡(luò)拓撲、網(wǎng)絡(luò)輿情、推薦系統(tǒng)、空間數(shù)據(jù)和數(shù)據(jù)流等復(fù)雜數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),分析了各類復(fù)雜數(shù)據(jù)的特點,介紹了相關(guān)數(shù)據(jù)挖掘的關(guān)鍵技術(shù)。本書涉及的內(nèi)容較為廣泛,在教學(xué)時,可根據(jù)實際情況選擇。
本書由梁亞聲編寫第1、5章,徐欣編寫第8、9章,成小菊編寫第6、7章,梁佳領(lǐng)編寫第2、3章,朱霞編寫第4章。何成宇為第4章的編寫提供了部分資料。徐欣對全書進行了統(tǒng)稿。
本書編著得到了國家自然科學(xué)基金(61402426)資助。
由于作者水平有限,書中難免存在不妥之處,敬請讀者批評指正。
出版說明
前言
第1章 概述
1.1 從數(shù)據(jù)中獲取知識
1.2 數(shù)據(jù)挖掘的基本概念
1.3 數(shù)據(jù)挖掘的發(fā)展歷程
1.4 數(shù)據(jù)挖掘的功能和數(shù)據(jù)挖掘系統(tǒng)的分類
1.4.1 分類與回歸
1.4.2 聚類分析
1.4.3 關(guān)聯(lián)規(guī)則
1.4.4 時序模式
1.4.5 異常檢測
1.4.6 數(shù)據(jù)挖掘系統(tǒng)的分類
1.5 數(shù)據(jù)挖掘的過程
1.5.1 數(shù)據(jù)挖掘的一般流程
1.5.2 跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程
1.6 數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系
1.6.1 數(shù)據(jù)挖掘與數(shù)據(jù)庫知識發(fā)現(xiàn)
1.6.2 數(shù)據(jù)挖掘與數(shù)據(jù)庫查詢
1.6.3 數(shù)據(jù)挖掘與統(tǒng)計分析
1.6.4 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫
1.6.5 數(shù)據(jù)挖掘與聯(lián)機分析處理
1.6.6 數(shù)據(jù)挖掘與人工智能、專家系統(tǒng)、機器學(xué)習(xí)
1.7 數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢
1.7.1 商業(yè)的數(shù)據(jù)挖掘
1.7.2 金融業(yè)的數(shù)據(jù)挖掘
1.7.3 欺詐偵測中的數(shù)據(jù)挖掘
1.7.4 DNA數(shù)據(jù)分析中的數(shù)據(jù)挖掘
1.7.5 電信業(yè)中的數(shù)據(jù)挖掘
1.7.6 科學(xué)和統(tǒng)計數(shù)據(jù)挖掘
1.7.7 數(shù)據(jù)挖掘系統(tǒng)和軟件
1.7.8 數(shù)據(jù)挖掘的發(fā)展趨勢
1.8 小結(jié)
1.9 習(xí)題
第2章 數(shù)據(jù)存儲
2.1 關(guān)系數(shù)據(jù)集
2.2 數(shù)據(jù)倉庫
2.2.1 數(shù)據(jù)倉庫的概念和特點
2.2.2 數(shù)據(jù)倉庫的數(shù)據(jù)組織
2.2.3 數(shù)據(jù)倉庫的關(guān)鍵技術(shù)
2.2.4 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系
2.3 NoSQL數(shù)據(jù)庫
2.3.1 NoSQL概念與理論
2.3.2 NoSQL數(shù)據(jù)模型
2.3.3 NoSQL與關(guān)系數(shù)據(jù)庫
2.4 分布式文件系統(tǒng)
2.4.1 分布式文件系統(tǒng)的歷史
2.4.2 分布式文件系統(tǒng)的體系結(jié)構(gòu)
2.4.3 谷歌文件系統(tǒng)(GoogleFS)
2.4.4 Hadoop分布式文件系統(tǒng)(HDFS)
2.5 小結(jié)
2.6 習(xí)題
第3章 數(shù)據(jù)預(yù)處理
3.1 數(shù)據(jù)預(yù)處理的必要性
3.2 數(shù)據(jù)清理
3.2.1 缺失數(shù)據(jù)處理方法
3.2.2 噪聲數(shù)據(jù)平滑技術(shù)
3.2.3 時間相關(guān)數(shù)據(jù)的處理
3.3 數(shù)據(jù)集成
3.3.1 實體識別與匹配
3.3.2 冗余和相關(guān)分析
3.3.3 元組重復(fù)數(shù)據(jù)的檢測
3.3.4 沖突數(shù)據(jù)的檢測與處理
3.4 數(shù)據(jù)轉(zhuǎn)換
3.4.1 數(shù)據(jù)標(biāo)準(zhǔn)化
3.4.2 數(shù)據(jù)泛化
3.5 數(shù)據(jù)歸約
3.5.1 數(shù)據(jù)立方體聚集
3.5.2 維度歸約
3.5.3 數(shù)據(jù)壓縮
3.5.4 數(shù)值歸約
3.6 數(shù)據(jù)離散化
3.6.1 分箱方法
3.6.2 直方圖分析
3.6.3 基于熵的離散化
3.6.4 ChiMerge技術(shù)
3.6.5 人工劃分分段
3.7 特征提取、選擇和構(gòu)造
3.7.1 特征提取
3.7.2 特征選擇
3.7.3 特征構(gòu)造
3.8 小結(jié)
3.9 習(xí)題
第4章 數(shù)據(jù)相似度與異常檢測
4.1 相似度度量
4.1.1 對象與屬性類型
4.1.2 相似度度量的定義
4.1.3 由距離度量變換而來的相似度度量
4.1.4 屬性之間的相似度度量
4.1.5 對象之間的相似度度量
4.2 傳統(tǒng)度量方法
4.2.1 二值屬性的相似度度量
4.2.2 歐氏距離
4.2.3 余弦距離
4.2.4 Mahalanobis距離
4.2.5 Jaccard距離
4.2.6 海明距離
4.3 大數(shù)據(jù)度量方法
4.3.1 文檔的Shingling
4.3.2 局部敏感散列算法
4.4 異常檢測
4.4.1 基于統(tǒng)計的檢測方法
4.4.2 基于距離的檢測方法
4.4.3 基于密度的檢測方法
4.4.4 基于聚類的檢測方法
4.4.5 基于分類的檢測方法
4.4.6 高維數(shù)據(jù)中的異常點檢測
4.5 小結(jié)
4.6 習(xí)題
第5章 數(shù)據(jù)分類和預(yù)測
5.1 分類和預(yù)測的基本概念
5.1.1 準(zhǔn)備數(shù)據(jù)
5.1.2 分類和預(yù)測方法的評估標(biāo)準(zhǔn)
5.2 決策樹分類
5.2.1 ID3算法生成決策樹
5.2.2 C4.5 算法生成決策樹
5.2.3 CART算法和Gini指標(biāo)
5.2.4 決策樹歸納的可擴展性
5.2.5 數(shù)據(jù)倉庫與決策樹
5.2.6 決策樹和決策規(guī)則的局限性
5.3 貝葉斯分類
5.3.1 貝葉斯定理
5.3.2 樸素貝葉斯分類
5.3.3 貝葉斯信念網(wǎng)絡(luò)
5.3.4 訓(xùn)練貝葉斯信念網(wǎng)絡(luò)
5.4 神經(jīng)網(wǎng)絡(luò)
5.4.1 多層前饋神經(jīng)網(wǎng)絡(luò)
5.4.2 定義神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)
5.4.3 后向傳播
5.4.4 后向傳播和可理解性
5.5 其他分類方法
5.5.1 基于關(guān)聯(lián)的分類方法
5.5.2 K-最近鄰分類
5.5.3 基于案例推理
5.5.4 遺傳算法
5.5.5 粗糙集方法
5.5.6 模糊集合方法
5.6 預(yù)測算法
5.6.1 預(yù)測算法分類
5.6.2 預(yù)測算法選擇
5.6.3 線性和多元回歸
5.6.4 非線性回歸
5.6.5 其他回歸模型
5.7 分類預(yù)測應(yīng)用實例
5.7.1 樣本選取
5.7.2 建立預(yù)測模型
5.7.3 模型評估
5.7.4 實用價值
5.8 小結(jié)
5.9 習(xí)題
第6章 數(shù)據(jù)聚類分析
6.1 基本概念
6.1.1 對聚類分析的要求
6.1.2 聚類分析方法分類
6.2 劃分聚類算法
6.2.1 K-means算法(基于質(zhì)心的技術(shù))
6.2.2 K-medoids算法(基于代表對象的技術(shù))
6.3 層次聚類算法
6.3.1 BIRCH算法
6.3.2 CURE算法
6.3.3 ROCK算法
6.3.4 Chameleon算法
6.4 基于密度的聚類算法
6.4.1 DBSCAN算法
6.4.2 OPTICS算法
6.4.3 DENCLUE算法
6.5 基于網(wǎng)格的聚類算法
6.5.1 STING算法
6.5.2 WaveCluster算法
6.5.3 CLIQUE算法
6.6 基于模型的聚類算法
6.6.1 EM算法
6.6.2 COBWEB算法
6.6.3 SOM算法
6.7 聚類評估
6.7.1 估計聚類趨勢
6.7.2 確定簇數(shù)
6.7.3 測定聚類質(zhì)量
6.8 聚類分析應(yīng)用實例
6.8.1 問題理解與提出
6.8.2 數(shù)據(jù)收集與選擇
6.8.3 數(shù)據(jù)預(yù)處理
6.8.4 應(yīng)用K-means聚類算法建模
6.9 小結(jié)
6.10 習(xí)題
第7章 數(shù)據(jù)關(guān)聯(lián)分析
7.1 數(shù)據(jù)關(guān)聯(lián)分析的基本概念
7.2 頻繁項集產(chǎn)生
7.2.1 先驗原理
7.2.2 Apriori算法的頻繁項集產(chǎn)生
7.2.3 支持度計數(shù)
7.2.4 計算復(fù)雜度
7.3 規(guī)則產(chǎn)生
7.3.1 基本步驟
7.3.2 Apriori算法中規(guī)則的產(chǎn)生
7.4 頻繁項集的緊湊表示
7.4.1 最大頻繁項集
7.4.2 閉頻繁項集
7.5 產(chǎn)生頻繁項集的其他方法
7.5.1 項集格遍歷
7.5.2 事務(wù)數(shù)據(jù)集的表示
7.6 FP-Growth算法
7.6.1 FP樹構(gòu)造
7.6.2 頻繁項集產(chǎn)生
7.7 關(guān)聯(lián)評估
7.7.1 興趣度客觀度量
7.7.2 多個二元變量的度量
7.7.3 傾斜支持度分布的影響
7.8 關(guān)聯(lián)分析應(yīng)用實例
7.8.1 關(guān)聯(lián)分析學(xué)生成績
7.8.2 數(shù)據(jù)處理
7.8.3 算法的應(yīng)用
7.8.4 挖掘結(jié)果的分析
7.9 小結(jié)
7.10 習(xí)題
第8章 性能評估和提升
8.1 評分函數(shù)
8.1.1 預(yù)測性評分函數(shù)
8.1.2 描述性評分函數(shù)
8.1.3 一致性評價
8.2 成本評價
8.2.1 成本評價曲線
8.2.2 Cost-Sensitive學(xué)習(xí)
8.3 復(fù)雜度評估
8.4 驗證
8.4.1 交叉驗證
8.4.2 Bootstrap
8.4.3 模型比較
8.5 性能提升
8.5.1 效率提升
8.5.2 準(zhǔn)確率提升
8.6 小結(jié)
8.7 習(xí)題
第9章 復(fù)雜數(shù)據(jù)挖掘
9.1 文本數(shù)據(jù)挖掘
9.1.1 文本數(shù)據(jù)預(yù)處理
9.1.2 文本數(shù)據(jù)挖掘技術(shù)
9.1.3 文本數(shù)據(jù)挖掘的應(yīng)用
9.2 圖像數(shù)據(jù)挖掘
9.2.1 圖像數(shù)據(jù)的特點和挖掘技術(shù)現(xiàn)狀
9.2.2 圖像數(shù)據(jù)預(yù)處理
9.2.3 圖像數(shù)據(jù)挖掘技術(shù)
9.2.4 圖像數(shù)據(jù)挖掘的應(yīng)用
9.3 語音識別挖掘
9.3.1 語音數(shù)據(jù)特點及挖掘技術(shù)現(xiàn)狀
9.3.2 語音信號預(yù)處理
9.3.3 語音識別技術(shù)
9.3.4 語音識別技術(shù)的應(yīng)用
9.4 視頻數(shù)據(jù)挖掘
9.4.1 視頻數(shù)據(jù)特點及挖掘技術(shù)現(xiàn)狀
9.4.2 視頻數(shù)據(jù)預(yù)處理
9.4.3 視頻數(shù)據(jù)挖掘技術(shù)
9.4.4 視頻數(shù)據(jù)挖掘的應(yīng)用
9.5 網(wǎng)絡(luò)拓撲挖掘
9.5.1 拓撲發(fā)現(xiàn)的技術(shù)現(xiàn)狀及網(wǎng)絡(luò)數(shù)據(jù)的采集
9.5.2 基于挖掘技術(shù)的網(wǎng)絡(luò)拓撲發(fā)現(xiàn)
9.6 網(wǎng)絡(luò)輿情挖掘
9.6.1 輿情研究發(fā)展現(xiàn)狀及輿情特點
9.6.2 網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)處理
9.6.3 網(wǎng)絡(luò)輿情挖掘技術(shù)
9.7 推薦系統(tǒng)
9.7.1 推薦系統(tǒng)發(fā)展現(xiàn)狀
9.7.2 相關(guān)技術(shù)
9.7.3 推薦系統(tǒng)
9.8 空間數(shù)據(jù)挖掘
9.8.1 空間數(shù)據(jù)的特點
9.8.2 空間數(shù)據(jù)預(yù)處理
9.8.3 空間數(shù)據(jù)挖掘技術(shù)
9.8.4 空間數(shù)據(jù)挖掘工具
9.9 數(shù)據(jù)流挖掘
9.9.1 數(shù)據(jù)流的特點
9.9.2 數(shù)據(jù)流預(yù)處理
9.9.3 數(shù)據(jù)流挖掘技術(shù)
9.9.4 數(shù)據(jù)流挖掘技術(shù)的應(yīng)用
9.10 小結(jié)
9.11 習(xí)題
參考文獻