關(guān)于我們
書單推薦
新書推薦
|
數(shù)據(jù)挖掘 讀者對象:本書是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域內(nèi)的所有教師、研究人員、開發(fā)人員和用戶都必讀的參考書, 是一本適用于數(shù)據(jù)分析、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)課程的優(yōu)秀教材, 可以用做高年級本科生或者一年級研究生的數(shù)據(jù)挖掘?qū)д摻滩?/p>
《數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版)》完整全面地講述數(shù)據(jù)挖掘的概念、方法、技術(shù)和最新研究進展。本書對前兩版做了全面修訂,加強和重新組織了全書的技術(shù)內(nèi)容,重點論述了數(shù)據(jù)預(yù)處理、頻繁模式挖掘、分類和聚類等的內(nèi)容,還全面講述了OLAP和離群點檢測,并研討了挖掘網(wǎng)絡(luò)、復(fù)雜數(shù)據(jù)類型以及重要應(yīng)用領(lǐng)域。
《數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版)》是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域內(nèi)的所有教師、研究人員、開發(fā)人員和用戶都必讀的參考書,是一本適用于數(shù)據(jù)分析、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)課程的優(yōu)秀教材,可以用做高年級本科生或者一年級研究生的數(shù)據(jù)挖掘?qū)д摻滩摹?br />
·數(shù)據(jù)挖掘領(lǐng)域最具里程碑意義的經(jīng)典著作 ·完整全面闡述該領(lǐng)域的重要知識和技術(shù)創(chuàng)新海報:
社會的計算機化顯著地增強了我們產(chǎn)生和收集數(shù)據(jù)的能力。大量數(shù)據(jù)從我們生活的每個角落涌出。存儲的或瞬態(tài)的數(shù)據(jù)的爆炸性增長已激起對新技術(shù)和自動工具的需求,以幫助我們智能地將海量數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。這導致稱做數(shù)據(jù)挖掘的一個計算機科學前沿學科的產(chǎn)生,這是一個充滿希望和欣欣向榮并具有廣泛應(yīng)用的學科。數(shù)據(jù)挖掘通常又稱為數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD),是自動地或方便地提取代表知識的模式;這些模式隱藏在大型數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他大量信息庫或數(shù)據(jù)流中。
本書考察知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的基本概念和技術(shù)。作為一個多學科領(lǐng)域,數(shù)據(jù)挖掘從多個學科汲取營養(yǎng)。這些學科包括統(tǒng)計學、機器學習、模式識別、數(shù)據(jù)庫技術(shù)、信息檢索、網(wǎng)絡(luò)科學、知識庫系統(tǒng)、人工智能、高性能計算和數(shù)據(jù)可視化。我們提供發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的模式的技術(shù),關(guān)注可行性、有用性、有效性和可伸縮性問題。因此,本書不打算作為數(shù)據(jù)庫系統(tǒng)、機器學習、統(tǒng)計學或其他某領(lǐng)域的導論,盡管我們確實提供了這些領(lǐng)域的必要背景材料,以便讀者理解它們各自在數(shù)據(jù)挖掘中的作用。本書是對數(shù)據(jù)挖掘的全面介紹。對于計算科學的學生、應(yīng)用開發(fā)人員、行業(yè)專業(yè)人員以及涉及以上列舉的學科的研究人員,本書應(yīng)當是有用的。 數(shù)據(jù)挖掘出現(xiàn)于20世紀80年代后期,20世紀90年代有了突飛猛進的發(fā)展,并可望在新千年繼續(xù)繁榮。本書全面展示該領(lǐng)域,介紹有趣的數(shù)據(jù)挖掘技術(shù)和系統(tǒng),并討論數(shù)據(jù)挖掘的應(yīng)用和研究方向。寫本書的重要動機是需要建立一個學習數(shù)據(jù)挖掘的有組織的框架——由于這個快速發(fā)展領(lǐng)域的多學科特點,這是一項具有挑戰(zhàn)性的任務(wù)。我們希望本書有助于具有不同背景和經(jīng)驗的人交換關(guān)于數(shù)據(jù)挖掘的見解,為進一步促進這個令人激動的、不斷發(fā)展的領(lǐng)域的成長做出貢獻。 本書的組織 自本書第1版、第2版出版以來,數(shù)據(jù)挖掘領(lǐng)域已經(jīng)取得了重大進展,開發(fā)出了許多新的數(shù)據(jù)挖掘方法、系統(tǒng)和應(yīng)用,特別是對于處理包括信息網(wǎng)絡(luò)、圖、復(fù)雜結(jié)構(gòu)和數(shù)據(jù)流,以及文本、Web、多媒體、時間序列、時間空間數(shù)據(jù)在內(nèi)的新的數(shù)據(jù)類型。這種快速發(fā)展、新技術(shù)不斷涌現(xiàn)使得在一本書中涵蓋整個領(lǐng)域的廣泛內(nèi)容非常困難。因此,我們決定與其繼續(xù)擴大本書的涵蓋面,還不如讓本書以足夠的廣度和深度涵蓋該領(lǐng)域的核心內(nèi)容,而把復(fù)雜數(shù)據(jù)類型的處理留給另一本即將面世的書。 第3版對本書的前兩版做了全面修訂,加強和重新組織了全書的技術(shù)內(nèi)容,顯著地擴充和加強處理一般數(shù)據(jù)類型挖掘的核心技術(shù)。第2版中討論特定主題的章節(jié)(例如,數(shù)據(jù)預(yù)處理、頻繁模式挖掘、分類和聚類)在這一版都被擴充,每章都分成兩章。對于這些主題,一章囊括基本概念和技術(shù),而另一章提供高級概念和方法。 第2版關(guān)于復(fù)雜數(shù)據(jù)類型的章節(jié)(例如,流數(shù)據(jù)、序列數(shù)據(jù)、圖結(jié)構(gòu)數(shù)據(jù)、社會網(wǎng)絡(luò)數(shù)據(jù)和多重關(guān)系數(shù)據(jù),以及文本、Web、多媒體和時間空間數(shù)據(jù))現(xiàn)在保留給專門介紹數(shù)據(jù)挖掘的高級課題的新書。為了支持讀者學習這些高級課題,我們把第2版的相關(guān)章節(jié)的電子版放在本書的網(wǎng)站上,作為第3版的配套材料。 第3版各章的簡要內(nèi)容如下(重點介紹新的內(nèi)容): 第1章提供關(guān)于數(shù)據(jù)挖掘的多學科領(lǐng)域的導論。該章討論導致需要數(shù)據(jù)挖掘的數(shù)據(jù)庫技術(shù)的發(fā)展歷程和數(shù)據(jù)挖掘應(yīng)用的重要性。該章考察挖掘的數(shù)據(jù)類型,包括關(guān)系的、事務(wù)的和數(shù)據(jù)倉庫數(shù)據(jù),以及復(fù)雜的數(shù)據(jù)類型,如時間序列、序列、數(shù)據(jù)流、時間空間數(shù)據(jù)、多媒體數(shù)據(jù)、文本數(shù)據(jù)、圖、社會網(wǎng)絡(luò)和Web數(shù)據(jù)。該章根據(jù)所挖掘的知識類型、所使用的技術(shù)以及目標應(yīng)用的類型,對數(shù)據(jù)挖掘任務(wù)進行了一般分類。最后討論該領(lǐng)域的主要挑戰(zhàn)。 第2章介紹一般數(shù)據(jù)特征。該章首先討論數(shù)據(jù)對象和屬性類型,然后介紹基本統(tǒng)計數(shù)據(jù)描述的典型度量。該章概述各種類型數(shù)據(jù)的數(shù)據(jù)可視化技術(shù)。除了數(shù)值數(shù)據(jù)的可視化方法外,還介紹文本、標簽、圖和多維數(shù)據(jù)的可視化方法。第2章還介紹度量各種類型數(shù)據(jù)的相似性和相異性的方法。 第3章介紹數(shù)據(jù)預(yù)處理技術(shù)。該章首先介紹數(shù)據(jù)質(zhì)量的概念,然后討論數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換和數(shù)據(jù)離散化的方法。 第4章和第5章是數(shù)據(jù)倉庫、OLAP(聯(lián)機分析處理)和數(shù)據(jù)立方體技術(shù)的引論。第4章介紹數(shù)據(jù)倉庫和OLAP的基本概念、建模、結(jié)構(gòu)、一般實現(xiàn),以及數(shù)據(jù)倉庫和其他數(shù)據(jù)泛化的關(guān)系。第5章更深入地考察數(shù)據(jù)立方體技術(shù),詳細地研究數(shù)據(jù)立方體的計算方法,包括Star-Cubing和高維OLAP方法。該章還討論數(shù)據(jù)立方體和OLAP技術(shù)的進一步研究,如抽樣立方體、排序立方體、預(yù)測立方體、用于復(fù)雜數(shù)據(jù)挖掘查詢的多特征立方體和發(fā)現(xiàn)驅(qū)動的數(shù)據(jù)立方體的探查。 第6章和第7章介紹挖掘大型數(shù)據(jù)集中的頻繁模式、關(guān)聯(lián)和相關(guān)性的方法。第6章介紹基本概念,如購物籃分析,還有條理地提供了許多頻繁項集挖掘技術(shù)。這些涵蓋從基本Apriori算法和它的變形,到改進性能的更高級的方法,包括頻繁模式增長方法,使用數(shù)據(jù)的垂直形式的頻繁模式挖掘,挖掘閉頻繁項集和極大頻繁項集。該章還討論模式評估方法并介紹挖掘相關(guān)模式的度量。第7章介紹高級模式挖掘方法。該章討論多層和多維空間中的模式挖掘,挖掘稀有和負模式,挖掘巨型模式和高維空間數(shù)據(jù),基于約束的模式挖掘和挖掘壓縮或近似模式。該章還介紹模式探查和應(yīng)用的方法,包括頻繁模式的語義注解。 第8章和第9章介紹數(shù)據(jù)分類方法。由于分類方法的重要性和多樣性,內(nèi)容被劃分成兩章。第8章介紹分類的基本概念和方法,包括決策樹歸納、貝葉斯分類和基于規(guī)則的分類。該章還討論模型評估和選擇方法,以及提高分類準確率的方法,包括組合方法和處理不平衡數(shù)據(jù)。第9章討論分類的高級方法,包括貝葉斯信念網(wǎng)絡(luò)、后向傳播的神經(jīng)網(wǎng)絡(luò)技術(shù)、支持向量機、使用頻繁模式的分類、k-最鄰近分類、基于案例的推理、遺傳算法、粗糙集理論和模糊集方法。附加的主題包括多類分類、半監(jiān)督分類、主動學習和遷移學習。 聚類分析是第10章和第11章的主題。第10章介紹數(shù)據(jù)聚類的基本概念和方法,包括基本聚類分析方法的概述、劃分方法、層次方法、基于密度的方法和基于網(wǎng)格的方法。該章還介紹聚類評估方法。第11章討論聚類的高級方法,包括基于概率模型的聚類、聚類高維數(shù)據(jù)、聚類圖和網(wǎng)絡(luò)數(shù)據(jù),以及基于約束的聚類。 第12章專門討論離群點檢測。本章介紹離群點的基本概念和離群點分析,并從各種監(jiān)督力度(監(jiān)督的、半監(jiān)督的和無監(jiān)督的)以及方法角度(統(tǒng)計學方法、基于鄰近性的方法、基于聚類的方法和基于分類的方法)討論離群點檢測方法。該章還討論挖掘情境離群點和集體離群點,以及高維數(shù)據(jù)中的離群點檢測。 最后,在第13章我們討論數(shù)據(jù)挖掘的趨勢、應(yīng)用和研究前沿。我們簡略地介紹挖掘復(fù)雜數(shù)據(jù)類型,包括挖掘序列數(shù)據(jù)(例如,時間序列、符號序列和生物學序列),挖掘圖和網(wǎng)絡(luò),以及挖掘空間、多媒體、文本和Web數(shù)據(jù)。這些數(shù)據(jù)挖掘方法的深入討論留給正在撰寫的數(shù)據(jù)挖掘高級課題一書。然后,該章轉(zhuǎn)向討論其他數(shù)據(jù)挖掘方法學,包括統(tǒng)計學數(shù)據(jù)挖掘、數(shù)據(jù)挖掘基礎(chǔ)、可視和聽覺數(shù)據(jù)挖掘,以及數(shù)據(jù)挖掘的應(yīng)用。討論數(shù)據(jù)挖掘在金融數(shù)據(jù)分析、零售和電信產(chǎn)業(yè)、科學與工程,以及入侵檢測和預(yù)防方面的應(yīng)用。該章還討論數(shù)據(jù)挖掘與推薦系統(tǒng)的聯(lián)系。由于數(shù)據(jù)挖掘出現(xiàn)在我們?nèi)粘I畹姆椒矫婷,所以我們討論?shù)據(jù)挖掘與社會,包括無處不在和無形的數(shù)據(jù)挖掘,以及隱私、安全和數(shù)據(jù)挖掘?qū)ι鐣挠绊憽N覀冇每疾鞌?shù)據(jù)挖掘的發(fā)展趨勢結(jié)束本書。 書中楷體字用于強調(diào)定義的術(shù)語,而黑體字用于突出主要思想。 本書與其他數(shù)據(jù)挖掘教材相比具有一些顯著特點:它廣泛、深入地討論了數(shù)據(jù)挖掘原理。各章盡可能是自包含的,使得讀者可以按自己感興趣的次序閱讀。高級章節(jié)提供了更大的視野,感興趣的讀者可以選讀。本書提供了數(shù)據(jù)挖掘的所有主要方法,還提供了關(guān)于多維OLAP分析等數(shù)據(jù)挖掘的重要主題,這些主題在其他書中常常被忽略或很少提及。本書還維護了一個網(wǎng)站,其中包含大量在線資源,為教師、學生和該領(lǐng)域的專業(yè)人員提供支持。這些將在下面介紹。 致教師 本書旨在提供數(shù)據(jù)挖掘領(lǐng)域的一個廣泛而深入的概覽,可以作為高年級本科生或一年級研究生的數(shù)據(jù)挖掘?qū)д。除了講稿、教師指南和閱讀材料列表等教學資源之外,本書網(wǎng)站還提供了一個樣本課程安排。 根據(jù)授課學時、學生的背景和你的興趣,你可以選取章節(jié)的子集,以不同的順序進行講授。例如,如果你只打算給學生講授數(shù)據(jù)挖掘入門導論,可以按照圖P.1的建議。注意,根據(jù)需要,必要時可以省略其中某些節(jié)或某些小節(jié)。 圖P.1 入門導論課程的建議章節(jié)序列 根據(jù)學時和講授范圍,你可以有選擇地把更多的章節(jié)增加到這個基本序列中。例如,對高級分類方法更感興趣的教師可以首先增加“第9章 分類:高級方法”;對模式挖掘更感興趣的教師可以選擇包括“第7章 高級模式挖掘”;而對OLAP和數(shù)據(jù)立方體技術(shù)感興趣的教師可以增加“第4章 數(shù)據(jù)倉庫與聯(lián)機分析處理”和“第5章 數(shù)據(jù)立方體技術(shù)”。 或者,你可以選擇在兩個學期的系列課程中講授整本書,包括本書的所有章節(jié),時間允許的話,加上圖和網(wǎng)絡(luò)挖掘這樣的高級課題。這些高級課題可以從本書網(wǎng)站提供的配套材料選擇,輔以挑選的研究論文。 本書的每一章都可以用做自學材料,或者用做數(shù)據(jù)庫系統(tǒng)、機器學習、模式識別和數(shù)據(jù)智能分析等相關(guān)課程的專題。 每章后面都有一些習題,適合作為家庭作業(yè)。這些習題或者是用于測驗對內(nèi)容的掌握情況的小問題,或者是需要分析思考的大問題,或者是實現(xiàn)設(shè)計。有些習題也可以用做研究討論課題。每章后面的文獻注釋可以用來查找包含正文中提供的概念和方法的來源、相關(guān)課題的深入討論和可能的擴展的研究文獻。 致學生 我們希望本書將激發(fā)你對年青,但正在快速發(fā)展的數(shù)據(jù)挖掘領(lǐng)域的興趣。我們試圖以清晰的方式提供材料,仔細地解釋所涵蓋的主題。每一章后面都附有一個小結(jié),總結(jié)要點。全書包含了許多圖和解釋,以便使本書更加有趣和便于閱讀。盡管本書是作為教材編寫的,但是我們也試圖把它組織成一本有用的參考書或手冊,以有助于你今后在數(shù)據(jù)挖掘方面進行深入研究和求職。 為閱讀本書,你需要知道什么? ·你應(yīng)當具有關(guān)于統(tǒng)計學、數(shù)據(jù)庫系統(tǒng)和機器學習的概念和術(shù)語方面的知識。然而,我們盡力提供這些基礎(chǔ)知識的足夠背景,以便在讀者對這些領(lǐng)域不太熟悉或者記憶有些淡忘時,也能夠理解本書的討論。 ·你應(yīng)當具有一些程序設(shè)計經(jīng)驗。特別是你應(yīng)當能夠閱讀偽代碼,能夠理解像多維數(shù)組這樣的簡單數(shù)據(jù)結(jié)構(gòu)。 致專業(yè)人員 本書旨在涵蓋數(shù)據(jù)挖掘領(lǐng)域的廣泛主題。因此,本書是關(guān)于該主題的一本優(yōu)秀手冊。由于每一章的編寫都盡可能獨立,所以讀者可以關(guān)注自己最感興趣的課題。希望學習數(shù)據(jù)挖掘關(guān)鍵思想的應(yīng)用程序員和信息服務(wù)管理人員可以使用本書。對于有興趣使用數(shù)據(jù)挖掘技術(shù)解決其業(yè)務(wù)問題的銀行、保險、醫(yī)藥和零售業(yè)的數(shù)據(jù)分析人員,本書也是有用的。此外,本書也可以作為數(shù)據(jù)挖掘領(lǐng)域的全面綜述,有助于研究人員提升數(shù)據(jù)挖掘技巧,擴展數(shù)據(jù)挖掘的應(yīng)用范圍。 本書所提供的技術(shù)和算法是實用的,介紹的算法適合于發(fā)現(xiàn)隱藏在大型、現(xiàn)實數(shù)據(jù)集中的模式和知識,而不是挑選在小型“玩具”數(shù)據(jù)庫上運行良好的算法。本書提供的每個算法都用偽代碼解釋。偽代碼類似于程序設(shè)計語言C,但也精心加以策劃,使得不熟悉C或C++的程序員易于理解。如果你想實現(xiàn)算法,你會發(fā)現(xiàn)將我們的偽代碼轉(zhuǎn)換成選定的程序設(shè)計語言程序是一項非常簡單的任務(wù)。 本書資源網(wǎng)站 這些網(wǎng)站為本書的讀者和對數(shù)據(jù)挖掘感興趣的人提供了一些附加材料,資源包括: ·每章的幻燈片。提供了用微軟的PowerPoint制作的每章教案。 ·高級數(shù)據(jù)挖掘的配套章節(jié)。本書第2版的第8~10章涵蓋了挖掘復(fù)雜的數(shù)據(jù)類型,這超出了本書的主題,對這些高級主題感興趣的讀者可從網(wǎng)站上獲取。 ·教師手冊。本書習題的完整答案通過出版社的網(wǎng)站只向教師提供。 ·課程提綱和教學計劃。使用本書和幻燈片用于數(shù)據(jù)挖掘?qū)д撜n程和高級教程的本科生和研究生,可以獲取這些資源。 ·帶超鏈接的輔助閱讀文獻列表。補充讀物的原創(chuàng)性文章按章組織。 ·到數(shù)據(jù)挖掘數(shù)據(jù)集和軟件的鏈接。我們將提供到數(shù)據(jù)挖掘數(shù)據(jù)集和某些包含有趣的數(shù)據(jù)挖掘軟件包的站點的鏈接,如到伊利諾伊大學厄巴納-尚佩恩分校IlliMine的鏈接。 ·作業(yè)、考試和課程設(shè)計樣本。一組作業(yè)、考試和課程設(shè)計樣本將在出版社的網(wǎng)站上向教師提供。 ·本書的插圖。這可能有助于你制作自己的課堂教學幻燈片。 ·本書目錄。PDF格式。 ·本書不同印次的勘誤表。歡迎讀者指出本書中的錯誤。一旦錯誤被證實,我們將更新勘誤表,并對你的貢獻致謝。
Jiawei Han(韓家煒),是伊利諾伊大學厄巴納-尚佩恩分校計算機科學系的Bliss教授。他因知識發(fā)現(xiàn)和數(shù)據(jù)挖掘研究方面的貢獻而獲得許多獎勵,包括ACM SIGKDD創(chuàng)新獎(2004)、IEEE計算機學會技術(shù)成就獎(2005)和IEEE W.Wallace McDowell獎(2009)。他是ACM和IEEE會士。他還擔任《ACM Transactions on Knowledge Discovery from Data》的執(zhí)行主編(2006—2011)和許多雜志的編委,包括《IEEE Transactions on Knowledge and Data Engineering》和《Data Mining Knowledge Discovery》。
Micheline Kamber,由加拿大魁北克蒙特利爾Concordia大學獲計算機科學(人工智能專業(yè))碩士學位。她曾是NSERC學者,作為研究者在McGill大學、西蒙-弗雷澤大學和瑞士工作。她的數(shù)據(jù)挖掘背景和以易于理解的形式寫作的熱情使得本書更受專業(yè)人員、教師和學生的歡迎。 Jian Pei(裴健),現(xiàn)在是西蒙-弗雷澤大學計算機科學學院教授。他在Jiawei Han的指導下,于2002年獲西蒙-弗雷澤大學計算科學博士學位。他在數(shù)據(jù)挖掘、數(shù)據(jù)庫、Web搜索和信息檢索的主要學術(shù)論壇發(fā)表了大量文章,并積極服務(wù)于學術(shù)團體。他的文章被引用數(shù)千次,并獲多次榮譽獎。他是多種數(shù)據(jù)挖掘和數(shù)據(jù)分析雜志的助理編輯。
出版者的話
中文版序 譯者序 譯者簡介 第3版序 第2版序 前言 致謝 作者簡介 第1章 引論 1.1 為什么進行數(shù)據(jù)挖掘 1.1.1 邁向信息時代 1.1.2 數(shù)據(jù)挖掘是信息技術(shù)的進化 1.2 什么是數(shù)據(jù)挖掘 1.3 可以挖掘什么類型的數(shù)據(jù) 1.3.1 數(shù)據(jù)庫數(shù)據(jù) 1.3.2 數(shù)據(jù)倉庫 1.3.3 事務(wù)數(shù)據(jù) 1.3.4 其他類型的數(shù)據(jù) 1.4 可以挖掘什么類型的模式 1.4.1 類/概念描述:特征化與區(qū)分 1.4.2 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性 1.4.3 用于預(yù)測分析的分類與回歸 1.4.4 聚類分析 1.4.5 離群點分析 1.4.6 所有模式都是有趣的嗎 1.5 使用什么技術(shù) 1.5.1 統(tǒng)計學 1.5.2 機器學習 1.5.3 數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫 1.5.4 信息檢索 1.6 面向什么類型的應(yīng)用 1.6.1 商務(wù)智能 1.6.2 Web搜索引擎 1.7 數(shù)據(jù)挖掘的主要問題 1.7.1 挖掘方法 1.7.2 用戶界面 1.7.3 有效性和可伸縮性 1.7.4 數(shù)據(jù)庫類型的多樣性 1.7.5 數(shù)據(jù)挖掘與社會 1.8 小結(jié) 1.9 習題 1.10 文獻注釋 第2章 認識數(shù)據(jù) 2.1 數(shù)據(jù)對象與屬性類型 2.1.1 什么是屬性 2.1.2 標稱屬性 2.1.3 二元屬性 2.1.4 序數(shù)屬性 2.1.5 數(shù)值屬性 2.1.6 離散屬性與連續(xù)屬性 2.2 數(shù)據(jù)的基本統(tǒng)計描述 2.2.1 中心趨勢度量:均值、中位數(shù)和眾數(shù) 2.2.2 度量數(shù)據(jù)散布:極差、四分位數(shù)、方差、標準差和四分位數(shù)極差 2.2.3 數(shù)據(jù)的基本統(tǒng)計描述的圖形顯示 2.3 數(shù)據(jù)可視化 2.3.1 基于像素的可視化技術(shù) 2.3.2 幾何投影可視化技術(shù) 2.3.3 基于圖符的可視化技術(shù) 2.3.4 層次可視化技術(shù) 2.3.5 可視化復(fù)雜對象和關(guān)系 2.4 度量數(shù)據(jù)的相似性和相異性 2.4.1 數(shù)據(jù)矩陣與相異性矩陣 2.4.2 標稱屬性的鄰近性度量 2.4.3 二元屬性的鄰近性度量 2.4.4 數(shù)值屬性的相異性:閔可夫斯基距離 2.4.5 序數(shù)屬性的鄰近性度量 2.4.6 混合類型屬性的相異性 2.4.7 余弦相似性 2.5 小結(jié) 2.6 習題 2.7 文獻注釋 第3章 數(shù)據(jù)預(yù)處理 3.1 數(shù)據(jù)預(yù)處理:概述 3.1.1 數(shù)據(jù)質(zhì)量:為什么要對數(shù)據(jù)預(yù)處理 3.1.2 數(shù)據(jù)預(yù)處理的主要任務(wù) 3.2 數(shù)據(jù)清理 3.2.1 缺失值 3.2.2 噪聲數(shù)據(jù) 3.2.3 數(shù)據(jù)清理作為一個過程 3.3 數(shù)據(jù)集成 3.3.1 實體識別問題 3.3.2 冗余和相關(guān)分析 3.3.3 元組重復(fù) 3.3.4 數(shù)據(jù)值沖突的檢測與處理 3.4 數(shù)據(jù)歸約 3.4.1 數(shù)據(jù)歸約策略概述 3.4.2 小波變換 3.4.3 主成分分析 3.4.4 屬性子集選擇 3.4.5 回歸和對數(shù)線性模型:參數(shù)化數(shù)據(jù)歸約 3.4.6 直方圖 3.4.7 聚類 3.4.8 抽樣 3.4.9 數(shù)據(jù)立方體聚集 3.5 數(shù)據(jù)變換與數(shù)據(jù)離散化 3.5.1 數(shù)據(jù)變換策略概述 3.5.2 通過規(guī)范化變換數(shù)據(jù) 3.5.3 通過分箱離散化 3.5.4 通過直方圖分析離散化 3.5.5 通過聚類、決策樹和相關(guān)分析離散化 3.5.6 標稱數(shù)據(jù)的概念分層產(chǎn)生 3.6 小結(jié) 3.7 習題 3.8 文獻注釋 第4章 數(shù)據(jù)倉庫與聯(lián)機分析處理 4.1 數(shù)據(jù)倉庫:基本概念 4.1.1 什么是數(shù)據(jù)倉庫 4.1.2 操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別 4.1.3 為什么需要分離的數(shù)據(jù)倉庫 4.1.4 數(shù)據(jù)倉庫:一種多層體系結(jié)構(gòu) 4.1.5 數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫 4.1.6 數(shù)據(jù)提取、變換和裝入 4.1.7 元數(shù)據(jù)庫 4.2 數(shù)據(jù)倉庫建模:數(shù)據(jù)立方體與OLAP 4.2.1 數(shù)據(jù)立方體:一種多維數(shù)據(jù)模型 4.2.2 星形、雪花形和事實星座:多維數(shù)據(jù)模型的模式 4.2.3 維:概念分層的作用 4.2.4 度量的分類和計算 4.2.5 典型的OLAP操作 4.2.6 查詢多維數(shù)據(jù)庫的星網(wǎng)查詢模型 4.3 數(shù)據(jù)倉庫的設(shè)計與使用 4.3.1 數(shù)據(jù)倉庫的設(shè)計的商務(wù)分析框架 4.3.2 數(shù)據(jù)倉庫的設(shè)計過程 4.3.3 數(shù)據(jù)倉庫用于信息處理 4.3.4 從聯(lián)機分析處理到多維數(shù)據(jù)挖掘 4.4 數(shù)據(jù)倉庫的實現(xiàn) 4.4.1 數(shù)據(jù)立方體的有效計算:概述 4.4.2 索引OLAP數(shù)據(jù):位圖索引和連接索引 4.4.3 OLAP查詢的有效處理 4.4.4 OLAP服務(wù)器結(jié)構(gòu):ROLAP、MOLAP、HOLAP的比較 4.5 數(shù)據(jù)泛化:面向?qū)傩缘臍w納 4.5.1 數(shù)據(jù)特征的面向?qū)傩缘臍w納 4.5.2 面向?qū)傩詺w納的有效實現(xiàn) 4.5.3 類比較的面向?qū)傩詺w納 4.6 小結(jié) 4.7 習題 4.8 文獻注釋 第5章 數(shù)據(jù)立方體技術(shù) 5.1 數(shù)據(jù)立方體計算:基本概念 5.1.1 立方體物化:完全立方體、冰山立方體、閉立方體和立方體外殼 5.1.2 數(shù)據(jù)立方體計算的一般策略 5.2 數(shù)據(jù)立方體計算方法 5.2.1 完全立方體計算的多路數(shù)組聚集 5.2.2 BUC:從頂點方體向下計算冰山立方體 5.2.3 Star-Cubing:使用動態(tài)星樹結(jié)構(gòu)計算冰山立方體 5.2.4 為快速高維OLAP預(yù)計算殼片段 5.3 使用探索立方體技術(shù)處理高級查詢 5.3.1 抽樣立方體:樣本數(shù)據(jù)上基于OLAP的挖掘 5.3.2 排序立方體:top-k查詢的有效計算 5.4 數(shù)據(jù)立方體空間的多維數(shù)據(jù)分析 5.4.1 預(yù)測立方體:立方體空間的預(yù)測挖掘 5.4.2 多特征立方體:多粒度上的復(fù)雜聚集 5.4.3 基于異常的、發(fā)現(xiàn)驅(qū)動的立方體空間探查 5.5 小結(jié) 5.6 習題 5.7 文獻注釋 第6章 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性:基本概念和方法 6.1 基本概念 6.1.1 購物籃分析:一個誘發(fā)例子 6.1.2 頻繁項集、閉項集和關(guān)聯(lián)規(guī)則 6.2 頻繁項集挖掘方法 6.2.1 Apriori算法:通過限制候選產(chǎn)生發(fā)現(xiàn)頻繁項集 6.2.2 由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則 6.2.3 提高Apriori算法的效率 6.2.4 挖掘頻繁項集的模式增長方法 6.2.5 使用垂直數(shù)據(jù)格式挖掘頻繁項集 6.2.6 挖掘閉模式和極大模式 6.3 哪些模式是有趣的:模式評估方法 6.3.1 強規(guī)則不一定是有趣的 6.3.2 從關(guān)聯(lián)分析到相關(guān)分析 6.3.3 模式評估度量比較 6.4 小結(jié) 6.5 習題 6.6 文獻注釋 第7章 高級模式挖掘 7.1 模式挖掘:一個路線圖 7.2 多層、多維空間中的模式挖掘 7.2.1 挖掘多層關(guān)聯(lián)規(guī)則 7.2.2 挖掘多維關(guān)聯(lián)規(guī)則 7.2.3 挖掘量化關(guān)聯(lián)規(guī)則 7.2.4 挖掘稀有模式和負模式 7.3 基于約束的頻繁模式挖掘 7.3.1 關(guān)聯(lián)規(guī)則的元規(guī)則制導挖掘 7.3.2 基于約束的模式產(chǎn)生:模式空間剪枝和數(shù)據(jù)空間剪枝 7.4 挖掘高維數(shù)據(jù)和巨型模式 7.5 挖掘壓縮或近似模式 7.5.1 通過模式聚類挖掘壓縮模式 7.5.2 提取感知冗余的top-k模式 7.6 模式探索與應(yīng)用 7.6.1 頻繁模式的語義注解 7.6.2 模式挖掘的應(yīng)用 7.7 小結(jié) 7.8 習題 7.9 文獻注釋 第8章 分類:基本概念 8.1 基本概念 8.1.1 什么是分類 8.1.2 分類的一般方法 8.2 決策樹歸納 8.2.1 決策樹歸納 8.2.2 屬性選擇度量 8.2.3 樹剪枝 8.2.4 可伸縮性與決策樹歸納 8.2.5 決策樹歸納的可視化挖掘 8.3 貝葉斯分類方法 8.3.1 貝葉斯定理 8.3.2 樸素貝葉斯分類 8.4 基于規(guī)則的分類 8.4.1 使用IF-THEN規(guī)則分類 8.4.2 由決策樹提取規(guī)則 8.4.3 使用順序覆蓋算法的規(guī)則歸納 8.5 模型評估與選擇 8.5.1 評估分類器性能的度量 8.5.2 保持方法和隨機二次抽樣 8.5.3 交叉驗證 8.5.4 自助法 8.5.5 使用統(tǒng)計顯著性檢驗選擇模型 8.5.6 基于成本效益和ROC曲線比較分類器 8.6 提高分類準確率的技術(shù) 8.6.1 組合分類方法簡介 8.6.2 裝袋 8.6.3 提升和AdaBoost 8.6.4 隨機森林 8.6.5 提高類不平衡數(shù)據(jù)的分類準確率 8.7 小結(jié) 8.8 習題 8.9 文獻注釋 第9章 分類:高級方法 9.1 貝葉斯信念網(wǎng)絡(luò) 9.1.1 概念和機制 9.1.2 訓練貝葉斯信念網(wǎng)絡(luò) 9.2 用后向傳播分類 9.2.1 多層前饋神經(jīng)網(wǎng)絡(luò) 9.2.2 定義網(wǎng)絡(luò)拓撲 9.2.3 后向傳播 9.2.4 黑盒內(nèi)部:后向傳播和可解釋性 9.3 支持向量機 9.3.1 數(shù)據(jù)線性可分的情況 9.3.2 數(shù)據(jù)非線性可分的情況 9.4 使用頻繁模式分類 9.4.1 關(guān)聯(lián)分類 9.4.2 基于有區(qū)別力的頻繁模式分類 9.5 惰性學習法(或從近鄰學習) 9.5.1 k-最近鄰分類 9.5.2 基于案例的推理 9.6 其他分類方法 9.6.1 遺傳算法 9.6.2 粗糙集方法 9.6.3 模糊集方法 9.7 關(guān)于分類的其他問題 9.7.1 多類分類 9.7.2 半監(jiān)督分類 9.7.3 主動學習 9.7.4 遷移學習 9.8 小結(jié) 9.9 習題 9.10 文獻注釋 第10章 聚類分析:基本概念和方法 10.1 聚類分析 10.1.1 什么是聚類分析 10.1.2 對聚類分析的要求 10.1.3 基本聚類方法概述 10.2 劃分方法 10.2.1 k-均值:一種基于形心的技術(shù) 10.2.2 k-中心點:一種基于代表對象的技術(shù) 10.3 層次方法 10.3.1 凝聚的與分裂的層次聚類 10.3.2 算法方法的距離度量 10.3.3 BIRCH:使用聚類特征樹的多階段聚類 10.3.4 Chameleon:使用動態(tài)建模的多階段層次聚類 10.3.5 概率層次聚類 10.4 基于密度的方法 10.4.1 DBSCAN:一種基于高密度連通區(qū)域的基于密度的聚類 10.4.2 OPTICS:通過點排序識別聚類結(jié)構(gòu) 10.4.3 DENCLUE:基于密度分布函數(shù)的聚類 10.5 基于網(wǎng)格的方法 10.5.1 STING:統(tǒng)計信息網(wǎng)格 10.5.2 CLIQUE:一種類似于Apriori的子空間聚類方法 10.6 聚類評估 10.6.1 估計聚類趨勢 10.6.2 確定簇數(shù) 10.6.3 測定聚類質(zhì)量 10.7 小結(jié) 10.8 習題 10.9 文獻注釋 第11章 高級聚類分析 11.1 基于概率模型的聚類 11.1.1 模糊簇 11.1.2 基于概率模型的聚類 11.1.3 期望最大化算法 11.2 聚類高維數(shù)據(jù) 11.2.1 聚類高維數(shù)據(jù):問題、挑戰(zhàn)和主要方法 11.2.2 子空間聚類方法 11.2.3 雙聚類 11.2.4 維歸約方法和譜聚類 11.3 聚類圖和網(wǎng)絡(luò)數(shù)據(jù) 11.3.1 應(yīng)用與挑戰(zhàn) 11.3.2 相似性度量 11.3.3 圖聚類方法 11.4 具有約束的聚類 11.4.1 約束的分類 11.4.2 具有約束的聚類方法 11.5 小結(jié) 11.6 習題 11.7 文獻注釋 第12章 離群點檢測 12.1 離群點和離群點分析 12.1.1 什么是離群點 12.1.2 離群點的類型 12.1.3 離群點檢測的挑戰(zhàn) 12.2 離群點檢測方法 12.2.1 監(jiān)督、半監(jiān)督和無監(jiān)督方法 12.2.2 統(tǒng)計方法、基于鄰近性的方法和基于聚類的方法 12.3 統(tǒng)計學方法 12.3.1 參數(shù)方法 12.3.2 非參數(shù)方法 12.4 基于鄰近性的方法 12.4.1 基于距離的離群點檢測和嵌套循環(huán)方法 12.4.2 基于網(wǎng)格的方法 12.4.3 基于密度的離群點檢測 12.5 基于聚類的方法 12.6 基于分類的方法 12.7 挖掘情境離群點和集體離群點 12.7.1 把情境離群點檢測轉(zhuǎn)換成傳統(tǒng)的離群點檢測 12.7.2 關(guān)于情境對正常行為建模 12.7.3 挖掘集體離群點 12.8 高維數(shù)據(jù)中的離群點檢測 12.8.1 擴充的傳統(tǒng)離群點檢測 12.8.2 發(fā)現(xiàn)子空間中的離群點 12.8.3 高維離群點建模 12.9 小結(jié) 12.10 習題 12.11 文獻注釋 第13章 數(shù)據(jù)挖掘的發(fā)展趨勢和研究前沿 13.1 挖掘復(fù)雜的數(shù)據(jù)類型 13.1.1 挖掘序列數(shù)據(jù):時間序列、符號序列和生物學序列 13.1.2 挖掘圖和網(wǎng)絡(luò) 13.1.3 挖掘其他類型的數(shù)據(jù) 13.2 數(shù)據(jù)挖掘的其他方法 13.2.1 統(tǒng)計學數(shù)據(jù)挖掘 13.2.2 關(guān)于數(shù)據(jù)挖掘基礎(chǔ)的觀點 13.2.3 可視和聽覺數(shù)據(jù)挖掘 13.3 數(shù)據(jù)挖掘應(yīng)用 13.3.1 金融數(shù)據(jù)分析的數(shù)據(jù)挖掘 13.3.2 零售和電信業(yè)的數(shù)據(jù)挖掘 13.3.3 科學與工程數(shù)據(jù)挖掘 13.3.4 入侵檢測和預(yù)防數(shù)據(jù)挖掘 13.3.5 數(shù)據(jù)挖掘與推薦系統(tǒng) 13.4 數(shù)據(jù)挖掘與社會 13.4.1 普適的和無形的數(shù)據(jù)挖掘 13.4.2 數(shù)據(jù)挖掘的隱私、安全和社會影響 13.5 數(shù)據(jù)挖掘的發(fā)展趨勢 13.6 小結(jié) 13.7 習題 13.8 文獻注釋 參考文獻 索引
第1章 引論
本書是一個導論,介紹一個年青并且快速成長的領(lǐng)域——數(shù)據(jù)挖掘(又稱從數(shù)據(jù)中發(fā)現(xiàn)知識,簡稱KDD)。本書關(guān)注從各種各樣的應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)有趣數(shù)據(jù)模式的數(shù)據(jù)挖掘基本概念和技術(shù),特別是那些開發(fā)有效的、可伸縮的數(shù)據(jù)挖掘工具的卓越技術(shù)。 本章組織如下:在1.1節(jié),我們將學習為什么需要數(shù)據(jù)挖掘和數(shù)據(jù)挖掘如何成為信息技術(shù)自然進化的一部分。1.2節(jié)從知識發(fā)現(xiàn)過程定義數(shù)據(jù)挖掘。之后,我們將從各種角度學習數(shù)據(jù)挖掘,如可供挖掘的數(shù)據(jù)(1.3節(jié)),可以發(fā)現(xiàn)的模式(1.4節(jié)),所使用的技術(shù)(1.5節(jié)),以及應(yīng)用(1.6節(jié))。這樣,你將獲得數(shù)據(jù)挖掘的多維視圖。最后,1.7節(jié)概述數(shù)據(jù)挖掘研究和發(fā)展的主要問題。 1.1 為什么進行數(shù)據(jù)挖掘 需要是發(fā)明之母!乩瓐D 我們生活在大量數(shù)據(jù)日積月累的年代。分析這些數(shù)據(jù)是一種重要需求。1.1.1節(jié)考察數(shù)據(jù)挖掘如何通過提供從數(shù)據(jù)中發(fā)現(xiàn)知識的工具來滿足這種需求。在1.1.2節(jié),我們觀察數(shù)據(jù)挖掘為何被視為信息技術(shù)的自然進化的結(jié)果。 1.1.1 邁向信息時代 一種流行的說法是“我們生活在信息時代”。然而,實際上我們生活在數(shù)據(jù)時代。每天,來自商業(yè)、社會、科學和工程、醫(yī)學以及我們?nèi)粘I畹姆椒矫婷娴臄?shù)兆兆字節(jié)(Tera-Byte,TB)或數(shù)千兆兆字節(jié)(Peta-Byte,PB)?的數(shù)據(jù)注入我們的計算機網(wǎng)絡(luò)、萬維網(wǎng)(WWW)和各種數(shù)據(jù)存儲設(shè)備。1可用數(shù)據(jù)的爆炸式增長是我們的社會計算機化和功能強大的數(shù)據(jù)收集和存儲工具快速發(fā)展的結(jié)果。世界范圍的商業(yè)活動產(chǎn)生了巨大的數(shù)據(jù)集,包括銷售事務(wù)、股票交易記錄、產(chǎn)品描述、促銷、公司利潤和業(yè)績以及顧客反饋。例如,像沃爾瑪這樣的大型商場遍及世界各地的數(shù)以千計的超市每周都要處理數(shù)億交易?茖W和工程實踐持續(xù)不斷地從遙感、過程測量、科學實驗、系統(tǒng)實施、工程觀測和環(huán)境監(jiān)測中產(chǎn)生多達數(shù)千兆兆字節(jié)的數(shù)據(jù)。 ……
你還可能感興趣
我要評論
|