數(shù)據(jù)挖掘技術(shù),又稱為數(shù)據(jù)庫知識發(fā)現(xiàn),是20世紀(jì)90年代在信息技術(shù)領(lǐng)域開始迅速發(fā)展起來的計算機(jī)技術(shù)。作者結(jié)合自己近20年從事人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等方面的科研工作積累與教學(xué)經(jīng)驗,編著此書。
本書較全面系統(tǒng)地介紹了數(shù)據(jù)挖掘中常用和常見的數(shù)據(jù)挖掘方法,以及文本與視頻數(shù)據(jù)挖掘方法。
本書的主要內(nèi)容包括:數(shù)據(jù)挖掘基本知識、數(shù)據(jù)挖掘預(yù)處理方法、決策樹分類及其他分類方法、關(guān)聯(lián)知識挖掘方法、各種聚類分析方法,以及文本挖掘所涉及表示、分類和聚類等方法,還包括視頻挖掘所涉及的視頻鏡頭檢測、字幕提取、視頻摘要和視頻檢索等主要分析方法。
本書作為學(xué)習(xí)、掌握和應(yīng)用數(shù)據(jù)挖掘方法和技術(shù)的綜合指導(dǎo)書,是從事數(shù)據(jù)挖掘研究與應(yīng)用人員,以及希望了解數(shù)據(jù)挖掘主要方法和技術(shù)的IT技術(shù)人員的良師益友;同時也是一本可用于大學(xué)高年級或研究生相關(guān)課程的教材和參考文獻(xiàn)。
數(shù)據(jù)挖掘技術(shù),又稱為數(shù)據(jù)庫知識發(fā)現(xiàn),是20世紀(jì)90年代在信息技術(shù)領(lǐng)域開始迅速發(fā)展起來的計算機(jī)技術(shù)。作者結(jié)合自己近20年從事人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等方面的科研工作積累與教學(xué)經(jīng)驗,編著此書。
本書較全面系統(tǒng)地介紹了數(shù)據(jù)挖掘中常用和常見的數(shù)據(jù)挖掘方法,以及文本與視頻數(shù)據(jù)挖掘方法。
總序
前言
第1章 數(shù)據(jù)挖掘?qū)д?br>1.1 數(shù)據(jù)挖掘的發(fā)展背景
1.2 數(shù)據(jù)挖掘定義
1.3 數(shù)據(jù)挖掘過程
1.4 數(shù)據(jù)挖掘功能
1.5 數(shù)據(jù)挖掘應(yīng)用
1.6 數(shù)據(jù)挖掘發(fā)展
1.7 本章小結(jié)
第2章 數(shù)據(jù)預(yù)處理
2.1 數(shù)據(jù)描述
2.1.1 數(shù)據(jù)集類型
2.1.2 數(shù)據(jù)質(zhì)量
2.2 數(shù)據(jù)清理
2.2.1 缺失值處理
2.2.2 噪聲數(shù)據(jù)處理
2.2.3 數(shù)據(jù)清理過程
2.3 數(shù)據(jù)集成和變換
2.3.1 數(shù)據(jù)集成
2.3.2 數(shù)據(jù)變換
2.3.3 維度歸約
2.4 數(shù)據(jù)歸約
2.4.1 數(shù)據(jù)立方體聚集
2.4.2 屬性子集選擇
2.5 本章小結(jié)
第3章 分類挖掘:決策樹
3.1 決策樹方法
3.2 決策樹深入
3.2.1 信息熵基礎(chǔ)
3.2.2 C4.5方法
3.2.3 CART方法
3.2.4 SLIQ方法
3.2.5 SPRINT方法
3.2.6 其他決策樹方法
3.3 決策樹的簡化
3.4 決策樹的改進(jìn)
3.4.1 屬性選擇
3.4.2 連續(xù)屬性離散化
3.5 決策樹的討論
3.5.1 決策樹優(yōu)化問題
3.5.2 決策樹優(yōu)化方法
3.6 分類模型的評估
3.7 本章小結(jié)
第4章 分類挖掘
4.1 貝葉斯方法
4.1.1 貝葉斯方法概述
4.1.2 樸素貝葉斯分類
4.2 k-近鄰方法
4.3 人工神經(jīng)網(wǎng)絡(luò)方法
4.4 遺傳進(jìn)化方法
4.5 支持向量機(jī)方法
4.5.1 SVM分類方法
4.6 粗糙集方法
4.7 集成學(xué)習(xí)方法
4.7.1 基本概念
4.7.2 Bagging
4.7.3 Boosting
4.8 本章小結(jié)
第5章 關(guān)聯(lián)挖掘
5.1 關(guān)聯(lián)挖掘簡述
5.1.1 關(guān)聯(lián)挖掘應(yīng)用
5.2 關(guān)聯(lián)挖掘基本方法
5.2.1 關(guān)聯(lián)挖掘基本概念
5.2.2 關(guān)聯(lián)挖掘問題
5.2.3 關(guān)聯(lián)挖掘類型
5.2.4 關(guān)聯(lián)挖掘基本方法
5.3 關(guān)聯(lián)挖掘方法改進(jìn)
5.3.1 Apriori算法改進(jìn)
5.3.2 頻繁模式增長(FP.tree)算法
5.3.3 其他改進(jìn)算法
5.4 關(guān)聯(lián)挖掘并行方法
5.4.1 基于候選集復(fù)制的算法
5.4.2 劃分候選集的算法
5.4.3 混合策略:候選集部分復(fù)制
5.5 基于粒計算的關(guān)聯(lián)挖掘
5.5.1 基本思想
5.6 本章小結(jié)
第6章 聚類挖掘
6.1 聚類挖掘簡述
6.2 基于劃分的聚類挖掘
6.2.1 k.means方法
6.3 基于層次的聚類挖掘
6.4 基于密度的聚類挖掘
6.5 基于網(wǎng)格的聚類挖掘
6.6 基于模型的聚類挖掘
6.7 高維海量數(shù)據(jù)的聚類挖掘
6.7.1 高維海量數(shù)據(jù)特點
6.7.2 高維海量數(shù)據(jù)聚類算法
6.8 基于蟻群算法的聚類挖掘
6.8.1 蟻群算法概述
6.8.2 蟻群算法特征
6.8.3 蟻群算法的研究熱點
6.8.4 基于蟻穴清理行為的聚類算法
6.8.5 基于蟻群覓食行為的聚類算法
6.8.6 螞蟻聚類算法分析
6.9 本章小結(jié)
第7章 異類挖掘
7.1 異類挖掘簡述
7.1.1 基于統(tǒng)計的異常點檢測
7.1.2 基于距離的異常點檢測
7.1.3 基于偏差的異常點檢測
7.1.4 基于密度的異常點檢測
7.1.5 高維數(shù)據(jù)的異常點檢測
7.2 基于屬性的異常點檢測
7.2.1 基于屬性的異常點檢測
7.3 時序異常點檢測
7.3.1 時序異常點檢測概述
7.3.2 時序異常模式挖掘
7.4 空間異常點挖掘
7.5 時空異常點挖掘
7.6 數(shù)據(jù)流異常挖掘
7.6.1 基于單調(diào)搜索空間的突變檢測
7.6.2 基于分段分形模型的無參數(shù)異常檢測
7.7 本章小結(jié)
第8章 文本挖掘
第9章 視頻挖掘
第10章 視頻分析
第1章 數(shù)據(jù)挖掘?qū)д?br> 數(shù)據(jù)挖掘是20世紀(jì)80年代末開始逐步發(fā)展起來的一個新的研究領(lǐng)域,它是多個學(xué)科和技術(shù)相結(jié)合的產(chǎn)物。本章將簡要介紹數(shù)據(jù)挖掘的發(fā)展背景、概念定義、主要方法及應(yīng)用案例等內(nèi)容。
1.1 數(shù)據(jù)挖掘的發(fā)展背景
隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,無數(shù)個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等領(lǐng)域,超級市場中的交易數(shù)據(jù)、加油站里的汽油銷售數(shù)據(jù)、旅行社的旅游信息等等,均構(gòu)成了數(shù)據(jù)庫系統(tǒng)的信息來源。近年來,數(shù)據(jù)庫所管理的數(shù)據(jù)量急劇增大,人們積累的數(shù)據(jù)越來越多。例如:美國NASA的地球觀測系統(tǒng)(EoS)每小時向地面發(fā)回約50 GB的圖像數(shù)據(jù);美國沃爾瑪零售系統(tǒng)每天會產(chǎn)生約2億條交易數(shù)據(jù)。人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。激增的數(shù)據(jù)背后隱藏著許多重要的信息,目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)富有但知