關(guān)于我們
書單推薦
新書推薦
|
數(shù)據(jù)挖掘與預(yù)測分析(第2版)
通過做數(shù)據(jù)分析學(xué)習(xí)數(shù)據(jù)分析
《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》提供了從數(shù)據(jù)準備到探索性數(shù)據(jù)分析、數(shù)據(jù)建模及模型評估等整個數(shù)據(jù)分析過程的內(nèi)容!稊(shù)據(jù)挖掘與預(yù)測分析(第2版)》不僅提供了理解軟件底層算法的白盒方法,而且提供了能夠使讀者利用現(xiàn)實世界數(shù)據(jù)集開展數(shù)據(jù)挖掘與預(yù)測分析的應(yīng)用方法。
第2版的新內(nèi)容:
● 添加了500多頁的新內(nèi)容,包括20個新章節(jié),例如,數(shù)據(jù)建模準備、成本-效益分析、缺失數(shù)據(jù)填充、聚類優(yōu)劣度量以及細分模型等。
● 針對前沿主題的新章節(jié),例如,多元分類模型、BIRCH聚類、集成學(xué)習(xí)(bagging及boosting)、模型投票與趨向平均等。
● 每章節(jié)后均附有R語言開發(fā)園地,讀者可以獲得完成書中分析所需的R語言源代碼,以及通過R代碼生成的圖、表和結(jié)果。
● 書中的附錄為那些對統(tǒng)計基礎(chǔ)生疏的讀者提供了了解基本概念的材料。
● 超過750個章節(jié)練習(xí),使讀者能夠自己測試對所學(xué)知識的掌握程度,并著手開展數(shù)據(jù)挖掘與預(yù)測分析工作。
《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》將對數(shù)據(jù)分析人員、數(shù)據(jù)庫分析人員以及CIO具有極大的吸引力,通過學(xué)習(xí)將使他們知道何種類型的分析將會增加其投資回報。
本書提出的方法和技術(shù)全面、深入,幾乎涵蓋了當前應(yīng)用中常見的各類挖掘與分析方法。對方法的介紹從概念、算法、評價等部分著手,深入淺出地加以介紹。在介紹方法的章節(jié)中增加了R語言開發(fā)園地,幫助讀者利用R語言開展實際設(shè)計和開發(fā)工作,獲得章節(jié)中涉及內(nèi)容的結(jié)果,便于讀者掌握所學(xué)內(nèi)容。
序言
什么是數(shù)據(jù)挖掘?什么是預(yù)測分析數(shù)據(jù)挖掘是從大型數(shù)據(jù)集合中發(fā)現(xiàn)有用的模式和趨勢的過程。預(yù)測分析是從大型數(shù)據(jù)集合中抽取信息以便對未來的情況做出預(yù)測和估計的過程。由Daniel Larose 和 Chantal Larose合著的《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書能夠確保讀者成為這一前沿且大有前途的領(lǐng)域的專家。為什么需要本書根據(jù)MarketsandMarkets研究公司的調(diào)查,從2013年~2018年,全球大數(shù)據(jù)市場有望以每年26%的速度增長,將從2013年的148.7億美元增加到2018年的463.4億美元 。世界范圍內(nèi)的公司和團體正在學(xué)習(xí)如何應(yīng)用數(shù)據(jù)挖掘和預(yù)測分析以增加利潤。尚未應(yīng)用數(shù)據(jù)挖掘和預(yù)測分析的公司將會在21世紀經(jīng)濟的全球競爭中落伍。在大多數(shù)領(lǐng)域中,人類都被數(shù)據(jù)所淹沒。遺憾的是,這些花費龐大成本收集得到的數(shù)據(jù)多數(shù)都被遺棄在數(shù)據(jù)倉庫中。問題是,缺乏足夠的、受過良好訓(xùn)練的、具備將這些數(shù)據(jù)轉(zhuǎn)換為人類需要的知識并就此將分類樹轉(zhuǎn)換為智慧的分析人員。這也是編寫本書的目的所在。McKinsey Global Institute報告指出 :公司在利用大數(shù)據(jù)的技能需求方面將會存在人才短缺現(xiàn)象。從大數(shù)據(jù)中獲取價值的制約主要體現(xiàn)在缺乏必要的人才,特別是缺乏那些掌握統(tǒng)計和機器學(xué)習(xí)專門知識的人才,缺乏能夠使用從大數(shù)據(jù)中獲取的見識來運營公司的管理人員和分析人員。我們認為對大數(shù)據(jù)世界開展分析工作的職位比目前能夠提供的缺少大約140 000~190 000個。此外,我們認為在美國額外還將需要150萬位能夠提出正確問題并能夠有效利用大數(shù)據(jù)分析結(jié)果的管理和分析人員。本書試圖幫助解決數(shù)據(jù)分析人員短缺的問題。數(shù)據(jù)挖掘得到越來越廣泛的應(yīng)用,因為它有助于增強公司從其已有的數(shù)據(jù)集合中發(fā)現(xiàn)有利的模式和趨勢的能力。公司和團體花費了大量的金錢,收集到海量的數(shù)據(jù),但是未能很好地利用隱藏在其數(shù)據(jù)倉庫中的有價值的和可操作的信息。然而,隨著數(shù)據(jù)挖掘?qū)嵺`變得越來越廣泛,無法應(yīng)用這些技術(shù)的公司將存在落后于市場的危險,將逐漸失去市場份額,因為他們的競爭對手都在使用數(shù)據(jù)挖掘,從而贏得競爭優(yōu)勢。誰將從本書獲益《數(shù)據(jù)挖掘和預(yù)測分析(第2版)》一書通過逐步動手解決現(xiàn)實世界的現(xiàn)實問題,介紹了當前廣泛運用于現(xiàn)實世界數(shù)據(jù)集合中的數(shù)據(jù)挖掘技術(shù),這一方式將吸引管理人員、首席信息官、首席執(zhí)行官、首席財務(wù)官、數(shù)據(jù)分析人員、數(shù)據(jù)庫分析人員以及其他需要了解最新方法以提高投資回報率的群體的注意。利用《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》,你將學(xué)習(xí)什么類型的分析能夠從數(shù)據(jù)中發(fā)現(xiàn)最有益的知識,同時避免進入可能會導(dǎo)致公司投入大量資金而不能帶來相應(yīng)利益的誤區(qū)。你將通過真正實踐數(shù)據(jù)挖掘和預(yù)測分析來學(xué)習(xí)數(shù)據(jù)挖掘和預(yù)測分析。危險!數(shù)據(jù)挖掘容易被搞砸能夠開展數(shù)據(jù)挖掘工作的新的現(xiàn)有軟件平臺不斷涌現(xiàn),這將帶來新的危險。這些應(yīng)用處理數(shù)據(jù)非常方便,強大的數(shù)據(jù)挖掘算法以黑盒方式嵌入到軟件中,導(dǎo)致濫用情況出現(xiàn)的比例更高,從而帶來巨大的危險。簡言之,數(shù)據(jù)挖掘工作不容易做好。將強大的模型應(yīng)用于海量數(shù)據(jù)時,一知半解特別危險。例如,對未經(jīng)過預(yù)處理的數(shù)據(jù)開展分析工作可能會得出錯誤的結(jié)論,或者對數(shù)據(jù)集采用不適當?shù)姆治龇椒,又或者模型?gòu)建基于完全不正確或似是而非的假設(shè)之上。如果進行了部署,分析中存在的這些錯誤可能會讓你付出昂貴的代價。《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書有助于使你成為一名能夠避免進入這些昂貴陷阱的精明的分析人員。白盒方法了解基本算法和模型結(jié)構(gòu)數(shù)據(jù)挖掘和預(yù)測分析出現(xiàn)問題的癥結(jié)在于盲目采用黑盒方法,避免代價昂貴錯誤的最佳方法是轉(zhuǎn)而采用白盒方法,白盒方法強調(diào)要求對軟件中基本算法和統(tǒng)計模型結(jié)構(gòu)的了解。《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》通過如下方式應(yīng)用白盒方法:● 明確地揭示為什么需要運用某一特定方法或算法! 讓讀者了解某個算法或方法是如何工作的,采用實例(小型數(shù)據(jù)集)解釋,以便讀者逐步了解其中的邏輯關(guān)系,從而以白盒方法了解方法或算法的內(nèi)部工作模式! 提供將方法應(yīng)用于大型、現(xiàn)實世界數(shù)據(jù)集的實例! 通過練習(xí)測試讀者對概念和算法的理解程度! 為讀者提供將數(shù)據(jù)挖掘應(yīng)用于大型數(shù)據(jù)集的經(jīng)驗。算法概覽《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》將利用小型數(shù)據(jù)集,指引讀者學(xué)習(xí)各種算法的操作和細微差異,讓讀者真正理解算法的內(nèi)部工作情況。例如,在第21章中,我們將逐步利用小型數(shù)據(jù)庫,應(yīng)用BIRCH聚類算法(BIRCH是層次聚類的一種方法)學(xué)習(xí)平衡迭代消減和聚類,精確地展示BIRCH如何針對數(shù)據(jù)集選擇優(yōu)化的聚類解決方法。正如我們所知,此類演示是本書針對BIRCH算法的獨特方法。同樣,在第27章中,我們將通過使用選擇、交叉和變異操作算子,針對小型數(shù)據(jù)集逐步發(fā)現(xiàn)優(yōu)化解決方案,以便讀者能夠更好地理解所涉及的過程。將算法和模型應(yīng)用到大型數(shù)據(jù)庫《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》提供了大量將數(shù)據(jù)分析方法應(yīng)用于大型數(shù)據(jù)庫的示例。例如,第9章通過利用實際數(shù)據(jù)庫,解析營養(yǎng)等級與谷物含量之間的關(guān)系。在第4章中,我們將主成分分析應(yīng)用于實際的加利福尼亞州的人口普查數(shù)據(jù)中。所有數(shù)據(jù)集均可從本書網(wǎng)站www.dataminingconsultant.com中獲得。章節(jié)練習(xí):檢查并確認讀者是否了解了本章內(nèi)容《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書的各章中包含大約750個練習(xí),有助于讀者了解自己對各章提供材料的理解程度,并從中體驗與數(shù)字和數(shù)據(jù)打交道的樂趣。這些練習(xí)包含概念辨析類型的練習(xí),可幫助讀者進一步梳理清楚數(shù)據(jù)挖掘中某些更具有挑戰(zhàn)性的概念;利用數(shù)據(jù)開展工作的練習(xí),幫助讀者將特定數(shù)據(jù)挖掘算法應(yīng)用到小型數(shù)據(jù)集中,從而能夠逐步實現(xiàn)較好的解決方案。例如,在第14章中,我們要求讀者通過該章提供的數(shù)據(jù)集獲得最大后驗分類。動手實踐:通過實際編寫數(shù)據(jù)挖掘算法學(xué)習(xí)數(shù)據(jù)挖掘本書大多數(shù)章節(jié)為讀者提供了動手實踐分析問題,為讀者提供了運用新學(xué)的數(shù)據(jù)挖掘?qū)I(yè)知識,解決大型數(shù)據(jù)集實際問題的方法。許多人都喜歡邊學(xué)邊做,而《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》為讀者提供了一個邊學(xué)邊做的框架。例如,在第13章中,讀者將采用實際的信用卡審批分類數(shù)據(jù)集,構(gòu)建自己的最佳logistic回歸模型,盡可能利用從該章中學(xué)習(xí)到的方法,提供對模型強大的、可解釋的支持,包括對獲取的變量及標識變量的解釋。令人興奮的新主題《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書還提供大量令人興奮的新主題,主要包括:● 通過利用數(shù)據(jù)驅(qū)動的誤分類開銷實現(xiàn)成本-效益分析● 獨立或多元分類模型的成本-效益分析● 分類模型的圖形化評估方法● BIRCH聚類● 分段模型● 集成方法:bagging和boosting方法● 模型投票與趨向平均● 缺失數(shù)據(jù)的填補方法R語言開發(fā)園地R語言是一種探索及分析數(shù)據(jù)集的功能強大的開源語言。使用R語言的分析人員可以利用大量免費的程序包、例程和圖形用戶界面來解決大多數(shù)數(shù)據(jù)分析問題。本書大多數(shù)章節(jié)中都為讀者提供R語言開發(fā)園地,用R語言獲得章節(jié)中涉及內(nèi)容的結(jié)果,以及部分輸出的截圖。附錄:數(shù)據(jù)匯總與可視化一些讀者可能不大容易理解某些統(tǒng)計和圖形化概念,這些概念通常會在統(tǒng)計課程中學(xué)習(xí)!稊(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書提供了介紹常見概念和術(shù)語的附錄,為讀者更好地理解本書的相關(guān)材料奠定基礎(chǔ)。案例研究:分析方法匯總《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》最后提供了詳細的案例研究。通過對案例的研究,讀者能夠了解怎樣將自己從書中學(xué)習(xí)到的方法融會貫通,以建立可操作的、有益的解決方案。詳細的案例研究包括在以下4章中:● 第29章 案例研究,第1部分:業(yè)務(wù)理解、數(shù)據(jù)預(yù)處理和探索性數(shù)據(jù)分析! 第30章 案例研究,第2部分:聚類與主成分分析! 第31章 案例研究,第3部分:建模與評估性能和可解釋性! 第32章 案例研究,第4部分:高性能建模與評估案例研究中包含大量圖形、探索數(shù)據(jù)分析、預(yù)測模型、客戶分析,并提供針對不同用戶需求的解決方案。采用定制的數(shù)據(jù)驅(qū)動成本效益表的模型評估方法,反映分類誤差的真正開銷,而不是采用常見的諸如總體誤差率等評估方法。因此,分析人員能夠使用每位客戶接觸的開銷對模型進行比較工作,給予接觸客戶的數(shù)量,預(yù)測模型能夠?qū)崿F(xiàn)多少利潤。本書組織結(jié)構(gòu)《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書的組織結(jié)構(gòu)有助于讀者直接發(fā)現(xiàn)相關(guān)的邏輯。共設(shè)32章,包含8個主要部分:● 第Ⅰ部分是數(shù)據(jù)準備,包含有關(guān)數(shù)據(jù)預(yù)處理、探索性數(shù)據(jù)分析、降維方法等章節(jié)。● 第Ⅱ部分是統(tǒng)計分析,提供開展數(shù)據(jù)分析工作常見的經(jīng)典統(tǒng)計方法,包括單變量統(tǒng)計分析及多元變量統(tǒng)計分析、簡單及多元線性回歸方法、為構(gòu)建模型準備數(shù)據(jù)、模型構(gòu)建等章節(jié)! 第Ⅲ部分是分類,包含9章,是本書涉及內(nèi)容最多的部分:其中包含k-最近鄰算法、決策樹、神經(jīng)元網(wǎng)絡(luò)、logistic回歸、樸素貝葉斯與貝葉斯網(wǎng)絡(luò)、模型評估技術(shù)、基于數(shù)據(jù)驅(qū)動成本的成本-效益分析、二元及k元分類模型、分類模型的圖形化評估等! 第Ⅳ部分是聚類,包含層次聚類和k-均值聚類、Kohonen網(wǎng)絡(luò)、BIRCH聚類、度量簇的優(yōu)劣等。● 第Ⅴ部分是關(guān)聯(lián)規(guī)則,本部分僅包含一章內(nèi)容,涵蓋A Priori關(guān)聯(lián)規(guī)則以及廣義規(guī)則歸納。● 第Ⅵ部分是模型性能強化,提供細分模型、集成方法:bagging和boosting、模型投票與趨向平均等章節(jié)! 第Ⅶ部分介紹針對預(yù)測建模的其他方法,包括缺失數(shù)據(jù)填補以及遺傳算法等! 第Ⅷ部分是案例研究:針對直郵市場的預(yù)測響應(yīng),包括4章,給出如何從直郵市場營銷活動中獲取最大利潤的完整案例分析方法。軟件本書使用的軟件包括:● IBP SPSS Modeler數(shù)據(jù)挖掘軟件套件● R開放源代碼統(tǒng)計分析軟件● SAS Enterprise Miner● SAS統(tǒng)計分析軟件● Minitab統(tǒng)計分析軟件● Weka開放源代碼數(shù)據(jù)挖掘軟件IBM SPSS Modeler是數(shù)據(jù)挖掘領(lǐng)域應(yīng)用最廣泛的數(shù)據(jù)挖掘軟件套件,該軟件由SPSS開發(fā)(www-01.ibm.com/software/analytics/spss/products/modeler/),本書采用了其基本軟件。SAS Enterprise Miner比IBM Modeler功能更強大,但學(xué)習(xí)該軟件比較困難。SPSS可以獲得免費試用版(通過Google搜索spss即可下載)。Minitab是簡單易用的統(tǒng)計軟件包,可以在該公司提供的網(wǎng)站www.minitab.com下載試用版。Weka:開源軟件Weka機器學(xué)習(xí)平臺是一種基于GNU通用公共許可證發(fā)布的開源軟件,它包括實現(xiàn)多數(shù)數(shù)據(jù)挖掘任務(wù)所需要的工具集合!稊(shù)據(jù)挖掘與預(yù)測分析(第2版)》利用Weka 3.6開發(fā)動手實踐、一步一步實例教程等,該軟件可從本書的相關(guān)網(wǎng)站www.dataminingconsultant.com獲得。讀者可以使用Weka執(zhí)行如下類型的分析:logistic回歸(見第13章)、樸素貝葉斯分類(見第14章)、貝葉斯網(wǎng)絡(luò)分類(見第14章)、遺傳算法(見第27章)。有關(guān)Weka的更多信息可參考www.cs.waikato.ac.nz/ml/weka。作者非常感謝James Steck提供了大量的Weka實例和練習(xí)。James Steck(jame_steck@comcast.net)是2005年康涅狄格州州立中央大學(xué)最早獲得數(shù)據(jù)挖掘?qū)W科碩士學(xué)位的學(xué)生之一,也是最早獲得研究生學(xué)術(shù)研究獎的學(xué)生。本書網(wǎng)站www.dataminingconsultant.com讀者可以獲得由Daniel Larose和Chantal Larose撰寫的、Wiley InterScience出版的數(shù)據(jù)挖掘書籍相關(guān)材料。通過該網(wǎng)站,或掃描本書封底的二維碼,可以下載本書用到的大多數(shù)數(shù)據(jù)集,方便讀者動手實踐開發(fā)各種本書提到的分析方法和模型。網(wǎng)站還包括勘誤表和比較完整的數(shù)據(jù)挖掘相關(guān)資源,涉及數(shù)據(jù)集鏈接、數(shù)據(jù)挖掘研究組鏈接以及相關(guān)的研究論文等。然而,本網(wǎng)站真正強大的原因還在于可供講授本書的教師使用,提供的資源包括:● 所有練習(xí)的答案,包括動手實踐分析。● 各章的PPT,可方便教學(xué)工作! 示例數(shù)據(jù)挖掘課程項目,由作者親自編寫,可以在你的課程講授中采用。● 實際的數(shù)據(jù)集,可用于課程學(xué)習(xí)參考! 每章所涉及的網(wǎng)絡(luò)資源。作為教材的《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》自然適合作為1學(xué)期或2學(xué)期課程的課本,2學(xué)期課程內(nèi)容可分為數(shù)據(jù)挖掘介紹和中級數(shù)據(jù)挖掘。教師在授課時可獲得如下好處:● 數(shù)據(jù)挖掘過程介紹。● 白盒方法,強調(diào)理解基本算法的結(jié)構(gòu):? 利用玩具數(shù)據(jù)集講授算法概覽。? 將算法應(yīng)用于大型數(shù)據(jù)集。? 超過300幅圖、275張表。? 包含750道章節(jié)練習(xí)和動手實踐分析! 大量令人興奮的新專題,例如基于數(shù)據(jù)驅(qū)動誤分類開銷的成本-效益分析! 詳細的案例研究,有助于融會貫通前28章介紹的內(nèi)容! 附錄:數(shù)據(jù)匯總與可視化,包含讀者可能比較生疏的統(tǒng)計和圖形方面的概念綜述! 對應(yīng)Web網(wǎng)站,提供了上述內(nèi)容詳細的資源列表!稊(shù)據(jù)挖掘與預(yù)測分析(第2版)》可作為本科高年級或研究生課程內(nèi)容。若先有選修統(tǒng)計方面的課程更好,但并非必需。讀者不需要具備計算機編程經(jīng)驗或數(shù)據(jù)庫的專門知識。
Daniel T. Larose博士,美國中康涅狄格州立大學(xué)數(shù)學(xué)科學(xué)教授,數(shù)據(jù)挖掘項目負責(zé)人。出版與數(shù)據(jù)挖掘、Web挖掘和統(tǒng)計理論等相關(guān)論著多本。他也是《微軟》、《福布斯》雜志以及《經(jīng)濟學(xué)人》雜志等數(shù)據(jù)挖掘與統(tǒng)計分析領(lǐng)域的顧問。 Chantal D. Larose是美國康涅狄格大學(xué)的在讀博士。其研究領(lǐng)域包括缺失數(shù)據(jù)填補以及基于模型的聚類等。她已獲得美國新帕爾茲紐約州立大學(xué)商學(xué)院決策科學(xué)領(lǐng)域助理教授的職位。
第Ⅰ部分 數(shù)據(jù)準備 第1章 數(shù)據(jù)挖掘與預(yù)測分析概述 3 1.1 什么是數(shù)據(jù)挖掘和預(yù)測分析 3 1.2 需求:數(shù)據(jù)挖掘技術(shù)人員 4 1.3 數(shù)據(jù)挖掘離不開人的參與 5 1.4 跨行業(yè)數(shù)據(jù)挖掘標準過程: CRISP-DM 6 1.5 數(shù)據(jù)挖掘的謬誤 8 1.6 數(shù)據(jù)挖掘能夠完成的任務(wù) 9 1.6.1 描述 9 1.6.2 評估 10 1.6.3 預(yù)測 11 1.6.4 分類 11 1.6.5 聚類 13 1.6.6 關(guān)聯(lián) 14 R語言開發(fā)園地 15 R參考文獻 16 練習(xí) 16 第2章 數(shù)據(jù)預(yù)處理 17 2.1 需要預(yù)處理數(shù)據(jù)的原因 17 2.2 數(shù)據(jù)清理 18 2.3 處理缺失數(shù)據(jù) 19 2.4 識別錯誤分類 22 2.5 識別離群值的圖形方法 22 2.6 中心和散布度量 24 2.7 數(shù)據(jù)變換 26 2.8 min-max規(guī)范化 26 2.9 Z-score標準化 27 2.10 小數(shù)定標規(guī)范化 28 2.11 變換為正態(tài)數(shù)據(jù) 28 2.12 識別離群值的數(shù)值方法 34 2.13 標志變量 35 2.14 將分類變量轉(zhuǎn)換為數(shù)值變量 35 2.15 數(shù)值變量分箱 36 2.16 對分類變量重新劃分類別 37 2.17 添加索引字段 37 2.18 刪除無用變量 38 2.19 可能不應(yīng)該刪除的變量 38 2.20 刪除重復(fù)記錄 39 2.21 ID字段簡述 39 R語言開發(fā)園地 39 R參考文獻 45 練習(xí) 45 第3章 探索性數(shù)據(jù)分析 49 3.1 假設(shè)檢驗與探索性數(shù)據(jù)分析 49 3.2 了解數(shù)據(jù)集 49 3.3 探索分類變量 52 3.4 探索數(shù)值變量 58 3.5 探索多元關(guān)系 62 3.6 選擇感興趣的數(shù)據(jù)子集作進一步研究 64 3.7 使用EDA發(fā)現(xiàn)異常字段 64 3.8 基于預(yù)測值分級 65 3.9 派生新變量:標志變量 67 3.10 派生新變量:數(shù)值變量 69 3.11 使用EDA探測相關(guān)聯(lián)的預(yù)測 變量 70 3.12 EDA概述 73 R語言開發(fā)園地 73 R參考文獻 80 練習(xí) 80 第4章 降維方法 83 4.1 數(shù)據(jù)挖掘中降維的必要性 83 4.2 主成分分析 84 4.3 將主成分分析應(yīng)用于房屋 數(shù)據(jù)集 87 4.4 應(yīng)提取多少個主成分 91 4.4.1 特征值標準 91 4.4.2 解釋變異的比例標準 92 4.4.3 最小共性標準 92 4.4.4 坡度圖標準 92 4.5 主成分描述 94 4.6 共性 96 4.7 主成分驗證 97 4.8 因子分析法 98 4.9 因子分析法在成年人數(shù)據(jù)集中的 應(yīng)用 99 4.10 因子旋轉(zhuǎn) 101 4.11 用戶自定義合成 104 4.12 用戶自定義合成的示例 105 R語言開發(fā)園地 106 R參考文獻 110 練習(xí) 111 第Ⅱ部分 統(tǒng)計分析 第5章 單變量統(tǒng)計分析 117 5.1 數(shù)據(jù)知識發(fā)現(xiàn)中的數(shù)據(jù)挖掘 任務(wù) 117 5.2 用于估計和預(yù)測的統(tǒng)計方法 117 5.3 統(tǒng)計推理 118 5.4 我們對評估的確信程度如何 119 5.5 均值的置信區(qū)間估計 120 5.6 如何減少誤差范圍 121 5.7 比例的置信區(qū)間估計 122 5.8 均值的假設(shè)檢驗 123 5.9 拒絕零假設(shè)的證據(jù)力度的 評估 125 5.10 使用置信區(qū)間執(zhí)行假設(shè)檢驗 126 5.11 比例的假設(shè)檢驗 127 R語言開發(fā)園地 128 R參考文獻 129 練習(xí) 129 第6章 多元統(tǒng)計 133 6.1 描述均值差異的兩樣例t-檢驗 方法 133 6.2 判斷總體差異的兩樣例 Z-檢驗 134 6.3 比例均勻性的測試 135 6.4 多元數(shù)據(jù)擬合情況的 卡方檢驗 137 6.5 方差分析 138 R語言開發(fā)園地 141 R參考文獻 143 練習(xí) 143 第7章 數(shù)據(jù)建模準備 145 7.1 有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí) 145 7.2 統(tǒng)計方法與數(shù)據(jù)挖掘方法 146 7.3 交叉驗證 146 7.4 過度擬合 147 7.5 偏差-方差權(quán)衡 148 7.6 平衡訓(xùn)練數(shù)據(jù)集 150 7.7 建立基線性能 151 R語言開發(fā)園地 152 R參考文獻 153 練習(xí) 153 第8章 簡單線性回歸 155 8.1 簡單線性回歸示例 155 8.2 外推的危險 161 8.3 回歸有用嗎?系數(shù)的確定 162 8.4 估計標準誤差 166 8.5 相關(guān)系數(shù)r 167 8.6 簡單線性回歸的方差分析表 169 8.7 離群點、高杠桿率點與有影響 的觀察點 170 8.8 回歸方程概括 178 8.9 回歸假設(shè)驗證 179 8.10 回歸推理 184 8.11 x與y之間關(guān)系的t-檢驗 185 8.12 回歸直線斜率的置信區(qū)間 187 8.13 相關(guān)系數(shù)的置信區(qū)間 188 8.14 給定均值的置信區(qū)間 190 8.15 給定隨機選擇值的預(yù)測區(qū)間 191 8.16 獲得線性特性的變換 194 8.17 博克斯-考克斯變換 199 R語言開發(fā)園地 199 R參考文獻 205 練習(xí) 205 第9章 多元回歸與模型構(gòu)建 213 9.1 多元回歸示例 213 9.2 總體多元回歸方程 218 9.3 多元回歸推理 219 9.3.1 y與xi之間關(guān)系的t-檢驗 219 9.3.2 營養(yǎng)等級與含糖量之間關(guān)系 的t-檢驗 220 9.3.3 營養(yǎng)等級與纖維含量之間 關(guān)系的t-檢驗 220 9.3.4 總體回歸模型顯著性的 F-檢驗 221 9.3.5 營養(yǎng)等級與含糖量和纖維 含量之間關(guān)系的F-檢驗 222 9.3.6 特定系數(shù)i的置信區(qū)間 223 9.3.7 (在給定x1,x2,…,xm的情況下)y 的均值的置信區(qū)間 223 9.3.8 (在給定x1,x2,…,xm的情況下) 隨機選擇的y值的預(yù)測區(qū)間 223 9.4 利用指示變量的包含范疇型預(yù)測變量的回歸 224 9.5 調(diào)整R2:懲罰包含無用預(yù)測變量的模型 230 9.6 序列平方和 231 9.7 多重共線性 233 9.8 變量選擇方法 239 9.8.1 有偏F-檢驗 239 9.8.2 前向選擇過程 240 9.8.3 反向刪除過程 241 9.8.4 逐步選擇過程 241 9.8.5 最佳子集過程 241 9.8.6 所有可能子集過程 242 9.9 油耗數(shù)據(jù)集 242 9.10 變量選擇方法的應(yīng)用 243 9.10.1 應(yīng)用于油耗數(shù)據(jù)集的前向 選擇過程 244 9.10.2 應(yīng)用于油耗數(shù)據(jù)集的后向 刪除過程 245 9.10.3 應(yīng)用于油耗數(shù)據(jù)集的逐步選擇過程 246 9.10.4 應(yīng)用于油耗數(shù)據(jù)集的最佳子集過程 246 9.10.5 MallowsCp統(tǒng)計量 247 9.11 將主成分作為預(yù)測變量進行 多元回歸 251 R語言開發(fā)園地 255 R參考文獻 265 練習(xí) 265 第Ⅲ部分 分類 第10章 K-最近鄰算法 273 10.1 分類任務(wù) 273 10.2 k-最近鄰算法 274 10.3 距離函數(shù) 276 10.4 組合函數(shù) 279 10.4.1 簡單權(quán)重投票方式 279 10.4.2 加權(quán)投票 279 10.5 量化屬性的相關(guān)性:軸伸縮 280 10.6 數(shù)據(jù)庫方面的考慮 281 10.7 將k-最近鄰算法用于評估和 預(yù)測 281 10.8 k值的選擇 282 10.9 利用IBM/SPSS建模工具應(yīng)用 k-最近鄰算法 283 R語言開發(fā)園地 284 R參考文獻 286 練習(xí) 286 第11章 決策樹 289 11.1 決策樹是什么 289 11.2 使用決策樹的要求 291 11.3 分類與回歸樹 291 11.4 C4.5算法 297 11.5 決策規(guī)則 302 11.6 比較C5.0和CART算法應(yīng)用 到實際的數(shù)據(jù) 303 R語言開發(fā)園地 306 R參考文獻 307 練習(xí) 308 第12章 神經(jīng)元網(wǎng)絡(luò) 311 12.1 輸入和輸出編碼 312 12.2 神經(jīng)元網(wǎng)絡(luò)用于評估和預(yù)測 313 12.3 神經(jīng)元網(wǎng)絡(luò)的簡單示例 314 12.4 sigmoid激活函數(shù) 316 12.5 反向傳播 317 12.6 梯度下降法 317 12.7 反向傳播規(guī)則 318 12.8 反向傳播示例 319 12.9 終止條件 320 12.10 學(xué)習(xí)率 321 12.11 動量項 322 12.12 敏感性分析 323 12.13 神經(jīng)元網(wǎng)絡(luò)建模應(yīng)用 324 R語言開發(fā)園地 326 R參考文獻 328 練習(xí) 328 第13章 logistic回歸 331 13.1 logistic回歸簡單示例 331 13.2 最大似然估計 333 13.3 解釋logistic回歸的輸出 334 13.4 推理:這些預(yù)測有顯著性嗎 335 13.5 概率比比率與相對風(fēng)險 337 13.6 對二分logistic回歸預(yù)測的 解釋 339 13.7 對應(yīng)用于多元預(yù)測變量的 logistic回歸的解釋 342 13.8 對應(yīng)用于連續(xù)型預(yù)測變量的 logistic回歸的解釋 346 13.9 線性假設(shè) 351 13.10 零單元問題 353 13.11 多元logistic回歸 355 13.12 引入高階項處理非線性 359 13.13 logistic回歸模型的驗證 366 13.14 WEKA:應(yīng)用logistic回歸的 實踐分析 370 R語言開發(fā)園地 374 R參考文獻 380 練習(xí) 380 第14章 樸素貝葉斯與貝葉斯網(wǎng)絡(luò) 385 14.1 貝葉斯方法 385 14.2 最大后驗(MAP)分類 387 14.3 后驗概率比 391 14.4 數(shù)據(jù)平衡 393 14.5 樸素貝葉斯分類 394 14.6 解釋對數(shù)后驗概率比 397 14.7 零單元問題 398 14.8 樸素貝葉斯分類中的數(shù)值型 預(yù)測變量 399 14.9 WEKA:使用樸素貝葉斯開展 分析 402 14.10 貝葉斯信念網(wǎng)絡(luò) 406 14.11 衣物購買示例 407 14.12 利用貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn)概率 409 R語言開發(fā)園地 413 R參考文獻 417 練習(xí) 417 第15章 模型評估技術(shù) 421 15.1 用于描述任務(wù)的模型評估 技術(shù) 421 15.2 用于評估和預(yù)測任務(wù)的模型 評估技術(shù) 422 15.3 用于分類任務(wù)的模型評估 方法 423 15.4 準確率和總誤差率 425 15.5 靈敏性和特效性 426 15.6 假正類率和假負類率 427 15.7 真正類、真負類、假正類、 假負類的比例 427 15.8 通過誤分類成本調(diào)整來反映 現(xiàn)實關(guān)注點 429 15.9 決策成本/效益分析 430 15.10 提升圖表和增益圖表 431 15.11 整合模型評估與模型建立 434 15.12 結(jié)果融合:應(yīng)用一系列 模型 435 R語言開發(fā)園地 436 R參考文獻 436 練習(xí) 437 第16章 基于數(shù)據(jù)驅(qū)動成本的 成本-效益分析 439 16.1 在行調(diào)整條件下的決策 不變性 439 16.2 正分類標準 440 16.3 正分類標準的示范 442 16.4 構(gòu)建成本矩陣 444 16.5 在縮放條件下的決策不變性 445 16.6 直接成本和機會成本 446 16.7 案例研究:基于數(shù)據(jù)驅(qū)動誤 分類成本的成本-效益分析 446 16.8 再平衡作為誤分類成本的 代理 450 R語言開發(fā)園地 452 R參考文獻 455 練習(xí) 455 第17章 三元和k元分類模型的成本- 效益分析 459 17.1 三元目標的分類評估變量 459 17.2 三元分類評估度量在貸款審批問題中的應(yīng)用 462 17.3 三元貸款分類問題的數(shù)據(jù)驅(qū)動成本-效益分析 466 17.4 比較使用/不使用數(shù)據(jù)驅(qū)動誤分類成本的CART模型 467 17.5 一般的k元目標的分類評估 度量 470 17.6 k元分類中評估度量和數(shù)據(jù)驅(qū)動誤分類成本的示例 472 R語言開發(fā)園地 474 R參考文獻 475 練習(xí) 475 第18章 分類模型的圖形化評估 477 18.1 回顧提升圖表和增益圖表 477 18.2 使用誤分類成本的提升圖表 和增益圖表 477 18.3 響應(yīng)圖表 479 18.4 利潤圖表 479 18.5 投資回報(ROI)圖表 482 R語言開發(fā)園地 482 R參考文獻 484 練習(xí) 484 第Ⅳ部分 聚類 第19章 層次聚類和k-均值聚類 489 19.1 聚類任務(wù) 489 19.2 層次聚類方法 491 19.3 單一鏈聚類 492 19.4 完全鏈聚類 493 19.5 k-均值聚類 494 19.6 k-均值聚類實操示例 495 19.7 k-均值算法執(zhí)行中MSB、MSE和偽-F的行為 498 19.8 SAS Enterprise Miner中k-均值算法的應(yīng)用 499 19.9 使用簇成員關(guān)系來預(yù)測客戶 流失 501 R語言開發(fā)園地 502 R參考文獻 503 練習(xí) 504 第20章 Kohonen網(wǎng)絡(luò) 505 20.1 自組織映射 505 20.2 Kohonen網(wǎng)絡(luò) 507 20.3 Kohonen網(wǎng)絡(luò)學(xué)習(xí)示例 508 20.4 簇有效性 511 20.5 使用Kohonen網(wǎng)絡(luò)進行聚類 應(yīng)用 511 20.6 解釋簇 512 20.7 將簇成員關(guān)系作為下游數(shù)據(jù) 挖掘模型的輸入 517 R語言開發(fā)園地 518 R參考文獻 520 練習(xí) 520 第21章 BIRCH聚類 521 21.1 BIRCH聚類的理論基礎(chǔ) 521 21.2 簇特征 522 21.3 簇特征樹 523 21.4 階段1:構(gòu)建CF樹 523 21.5 階段2:聚類子簇 525 21.6 BIRCH聚類示例之階段1: 構(gòu)建CF樹 525 21.7 BIRCH聚類示例之階段2: 聚類子簇 530 21.8 候選聚類解決方案的評估 530 21.9 案例研究:在銀行貸款數(shù)據(jù)集 上應(yīng)用BIRCH聚類 531 21.9.1 案例研究第1課:對于 任意聚類算法避免高度 相關(guān)的輸入 532 21.9.2 案例研究第2課:不同的 排序可能會導(dǎo)致不同的 簇數(shù)目 535 R語言開發(fā)園地 537 R參考文獻 538 練習(xí) 538 第22章 度量簇的優(yōu)劣 541 22.1 度量簇優(yōu)劣的基本原理 541 22.2 輪廓方法 541 22.3 輪廓值示例 542 22.4 Iris數(shù)據(jù)集的輪廓值分析 544 22.5 偽-F統(tǒng)計方法 547 22.6 偽-F統(tǒng)計示例 549 22.7 將偽-F統(tǒng)計應(yīng)用于Iris 數(shù)據(jù)集 550 22.8 簇驗證 551 22.9 將簇驗證方法應(yīng)用于貸款 數(shù)據(jù)集 551 R語言開發(fā)園地 554 R參考文獻 556 練習(xí) 557 第Ⅴ部分 關(guān)聯(lián)規(guī)則 第23章 關(guān)聯(lián)規(guī)則 561 23.1 親和度分析與購物籃分析 561 23.2 支持度、可信度、頻繁項集和 先驗屬性 564 23.3 先驗算法工作原理(第1部 分) 建立頻繁項集 565 23.4 先驗算法工作原理(第2部 分) 建立關(guān)聯(lián)規(guī)則 566 23.5 從標志數(shù)據(jù)擴展到分類數(shù)據(jù) 569 23.6 信息理論方法:廣義規(guī)則推理 方法 570 23.7 關(guān)聯(lián)規(guī)則不易做好 571 23.8 度量關(guān)聯(lián)規(guī)則可用性的方法 573 23.9 關(guān)聯(lián)規(guī)則是監(jiān)督學(xué)習(xí)還是 無監(jiān)督學(xué)習(xí) 574 23.10 局部模式與全局模型 574 R語言開發(fā)園地 575 R參考文獻 575 練習(xí) 576 第Ⅵ部分 增強模型性能 第24章 細分模型 581 24.1 細分建模過程 581 24.2 利用EDA識別分段的細分 建模 583 24.3 利用聚類方法識別分段的 細分建模 585 R語言開發(fā)園地 589 R參考文獻 591 練習(xí) 591 第25章 集成方法:bagging和 boosting 593 25.1 使用集成分類模型的理由 593 25.2 偏差、方差與噪聲 594 25.3 適合采用bagging的場合 595 25.4 bagging 596 25.5 boosting 599 25.6 使用IBM/SPSS建模器應(yīng)用 bagging和boosting 602 參考文獻 603 R語言開發(fā)園地 604 R參考文獻 605 練習(xí) 606 第26章 模型投票與趨向平均 609 26.1 簡單模型投票 609 26.2 其他投票方法 610 26.3 模型投票過程 611 26.4 模型投票的應(yīng)用 612 26.5 什么是趨向平均 616 26.6 趨向平均過程 616 26.7 趨向平均的應(yīng)用 618 R語言開發(fā)園地 619 R參考文獻 621 練習(xí) 622 第Ⅶ部分 更多主題 第27章 遺傳算法 627 27.1 遺傳算法簡介 627 27.2 基因算法的基本框架 628 27.3 遺傳算法的簡單示例 629 27.3.1 第1次迭代 629 27.3.2 第2次迭代 631 27.4 改進及增強:選擇 631 27.5 改進及增強:交叉 633 27.5.1 多點交叉 633 27.5.2 通用交叉 634 27.6 實值變量的遺傳算法 634 27.6.1 單一算術(shù)交叉 635 27.6.2 簡單算術(shù)交叉 635 27.6.3 完全算術(shù)交叉 635 27.6.4 離散交叉 635 27.6.5 正態(tài)分布突變 635 27.7 利用遺傳算法訓(xùn)練神經(jīng)元 網(wǎng)絡(luò) 636 27.8 WEKA:使用遺傳算法進行 分析 640 R語言開發(fā)園地 646 R參考文獻 647 練習(xí) 647 第28章 缺失數(shù)據(jù)的填充 649 28.1 缺失數(shù)據(jù)填充的必要性 649 28.2 缺失數(shù)據(jù)填充:連續(xù)型變量 650 28.3 填充的標準誤差 653 28.4 缺失值填充:范疇型變量 653 28.5 缺失的處理模式 654 參考文獻 655 R語言開發(fā)園地 655 R參考文獻 657 練習(xí) 658 第Ⅷ部分 案例研究:對直郵營 銷的響應(yīng)預(yù)測 第29章 案例研究,第1部分:業(yè)務(wù) 理解、數(shù)據(jù)預(yù)處理和探索性 數(shù)據(jù)分析 661 29.1 數(shù)據(jù)挖掘的跨行業(yè)標準 661 29.2 業(yè)務(wù)理解階段 662 29.3 數(shù)據(jù)理解階段,第一部分: 熟悉數(shù)據(jù)集 663 29.4 數(shù)據(jù)準備階段 667 29.4.1 消費金額為負值的情況 667 29.4.2 實現(xiàn)正態(tài)性或?qū)ΨQ性的 轉(zhuǎn)換 669 29.4.3 標準化 671 29.4.4 派生新變量 671 29.5 數(shù)據(jù)理解階段,第二部分: 探索性數(shù)據(jù)分析 674 29.5.1 探索預(yù)測因子和響應(yīng)之間 的關(guān)系 674 29.5.2 研究預(yù)測因子間的相關(guān)性 結(jié)構(gòu) 679 29.5.3 逆轉(zhuǎn)換對于解釋的 重要性 682 第30章 案例研究,第2部分:聚類與 主成分分析 685 30.1 數(shù)據(jù)劃分 685 30.2 制定主成分 686 30.3 驗證主成分 689 30.4 主成分概括 691 30.5 利用BIRCH聚類算法選擇最優(yōu) 聚類數(shù) 694 30.6 利用k均值聚類算法選擇最優(yōu) 聚類數(shù) 695 30.7 k-均值聚類應(yīng)用 696 30.8 驗證聚類 697 30.9 聚類概括 698 第31章 案例研究,第3部分:建模與 評估性能和可解釋性 699 31.1 選擇性能最佳模型,還是既要 性能又要可解釋性 699 31.2 建模與評估概述 700 31.3 利用數(shù)據(jù)驅(qū)動開銷開展損益 分析 700 31.4 輸入到模型中的變量 702 31.5 建立基線模型性能 703 31.6 利用誤分類開銷的模型 704 31.7 需要用代理調(diào)整誤分類開銷 的模型 705 31.8 采用投票和趨向平均方法 合并模型 706 31.9 對利潤最佳模型的解釋 707 第32章 案例研究,第4部分:高性能 建模與評估 709 32.1 輸入到模型中的變量 709 32.2 使用誤分類開銷的模型 710 32.3 需要作為誤分類開銷代理 調(diào)整的模型 710 32.4 使用投票和趨向平均的合并 模型 711 32.5 經(jīng)驗總結(jié) 713 32.6 總結(jié) 713 附錄A 數(shù)據(jù)匯總與可視化 715
你還可能感興趣
我要評論
|