關(guān)于我們
書單推薦
新書推薦
|
R語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)手冊
本書系統(tǒng)地介紹了利用R 語言進行數(shù)據(jù)分析和挖掘的相關(guān)技術(shù),采用由淺入深的框架體系:開篇伊始介紹R 語言的基礎(chǔ)操作,進而介紹回歸分析、方差分析等數(shù)據(jù)分析的方法,以更好地探索數(shù)據(jù)內(nèi)部結(jié)構(gòu),獲取數(shù)據(jù)所包含的信息;更重要的是為后續(xù)的數(shù)據(jù)挖掘提供理論依據(jù);*后介紹典型數(shù)據(jù)挖掘工具和方法,采用理論基礎(chǔ)到算法介紹到案例實戰(zhàn)的布局,讓讀者深刻感知數(shù)據(jù)挖掘的精髓,在了解算法的同時更好地學(xué)以致用。
隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,物聯(lián)網(wǎng)、車聯(lián)網(wǎng)和云計算等技術(shù)的日益成熟,人 們的生活環(huán)境逐漸由一個數(shù)字化的網(wǎng)絡(luò)體系覆蓋。近年來,大數(shù)據(jù)、機器學(xué)習(xí)、人 工智能等詞匯不斷出現(xiàn)在大眾的視野中,而數(shù)據(jù)挖掘作為實現(xiàn)上述目標(biāo)的核心 利器,不容置疑地成為了數(shù)據(jù)分析者必須掌握的關(guān)鍵技術(shù)。 然而,直接接觸或?qū)W習(xí)這項關(guān)鍵技術(shù)都是較為困難的,因為其本身涵蓋了 數(shù)學(xué)、統(tǒng)計學(xué)、算法編程等不同專業(yè)領(lǐng)域的知識,如何克服這種困難,如何在一本 書中既講清必要的理論知識,又能夠使讀者能夠快速上手操作并在操作中學(xué)習(xí)更多 的知識,成為一名數(shù)據(jù)分析達人,這是本書要解決的。 本書作者借助于多年的知識積累和實務(wù)工作經(jīng)驗,將數(shù)據(jù)分析和挖掘的各種干 貨濃縮于本書中,其中囊括了大量精美的圖表與案例分析,行文深入淺出、圖文 并茂,將枯燥生硬的理論知識與案例分析相結(jié)合,便于讀者更快地吸收知識并學(xué)以 致用。本書拋開深奧的理論化條文,除了必備的基礎(chǔ)理論知識介紹外,絕不貪多求 全,特別強調(diào)實務(wù)操作、快速上手,絕不囿于示意與演示,更注重實戰(zhàn)展示從 R 語言軟件的安裝、數(shù)據(jù)的獲取、數(shù)據(jù)的預(yù)處理、數(shù)據(jù)的探索性分析到回歸分析等 數(shù)據(jù)分析的方法,再到常規(guī)聚類等典型的數(shù)據(jù)挖掘工具和方法,隨著本書內(nèi)容的一 步步深入,讀者將真正體會到數(shù)據(jù)挖掘的精髓和樂趣所在。 本書特色 1.內(nèi)容體系由淺入深、詳略得當(dāng),行文安排適用于不同基礎(chǔ)的讀者 本書內(nèi)容涵蓋了軟件安裝、數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)的探索性分析等基礎(chǔ) 內(nèi)容以幫助基礎(chǔ)較為薄弱的初學(xué)者盡快入門,而后介紹了數(shù)據(jù)分析的一些強有力工 具,如回歸分析、方差分析、主成分分析、因子分析和判別分析等數(shù)據(jù)分析的方法, 最后將所有知識綜合起來形成真正的數(shù)據(jù)挖掘知識體系。本書對基礎(chǔ)部分的細(xì)節(jié)進 行詳細(xì)介紹,對較為高深的理論知識和算法進行了簡單的介紹,這種由淺入深、詳 略得當(dāng)?shù)男形陌才胚m用于基礎(chǔ)不盡相同的讀者。 2.內(nèi)容切實可用,輔以大量實例,便于讀者更快地掌握核心技術(shù) 本書注重實戰(zhàn)操作,在基礎(chǔ)部分進行詳細(xì)講解,如軟件安裝和數(shù)據(jù)處理等,均 給出了實打?qū)嵉慕坛,而在?shù)據(jù)分析和挖掘技術(shù)的相關(guān)章節(jié)介紹中均采用了實例分 Foreword 2 R 語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)手冊 析,案例中的數(shù)據(jù)方便易得、真實可靠,在案例分析中按照數(shù)據(jù)挖掘的基本步驟進 行,對分析結(jié)果進行詳細(xì)解讀,便于讀者更好地理解和掌握每一章的核心技術(shù)。 3.將分析結(jié)果進行可視化展示,激發(fā)讀者的閱讀興趣 本書采用較多的可視化展示,從算法介紹到實例分析,盡量采用圖片的形式進 行解讀,以幫助讀者從繁瑣的文字描述中解脫出來,尤其是實例分析部分,將 能夠進行可視化展示的部分轉(zhuǎn)化成圖片形式,并配以簡明扼要的文字解說,以便讀 者更加深刻地理解每一章的內(nèi)容。需要強調(diào)的是,在行業(yè)應(yīng)用中,數(shù)據(jù)挖掘的結(jié)果 大多以圖片的形式匯總為可視化報告,因此本書的初衷就是建立與行業(yè)應(yīng)用的更多 聯(lián)系。 二維碼下載包 為了便于讀者習(xí),我們把全書源代碼以及書中圖片的彩色版放入二維碼下載包 中,供讀者下載使用。 本書讀者對象 數(shù)據(jù)分析師 統(tǒng)計專業(yè)的本科生 經(jīng)管類專業(yè)的研究生 R 語言的編程愛好者 因受作者水平和篇幅所限,本書難免存有疏漏和不當(dāng)之處,敬請指正。
程靜,畢業(yè)于重慶大學(xué),目前就職于西部估值最高的互聯(lián)網(wǎng)公司豬八戒網(wǎng),擔(dān)任高級數(shù)據(jù)分析工程師,負(fù)責(zé)行業(yè)數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)研究、評估和預(yù)測,擅長大數(shù)據(jù)分析及數(shù)據(jù)挖掘的各種算法熟練使用R語言及Python語言。
第1 章 R 語言簡介 1.1 R 語言軟件的安裝與運行................................................................................................. 1 1.1.1 R 語言軟件的安裝、啟動與關(guān)閉........................................................................... 1 1.1.2 R 語言程輯包的安裝和使用.................................................................................. 4 1.2 R 語言的數(shù)據(jù)結(jié)構(gòu)............................................................................................................. 6 1.2.1 R 語言對象和類型................................................................................................. 6 1.2.2 向量........................................................................................................................ 7 1.2.3 數(shù)組和矩陣........................................................................................................... 12 1.2.4 列表...................................................................................................................... 17 1.2.5 數(shù)據(jù)框.................................................................................................................. 20 第2 章 數(shù)據(jù)的讀取與保存 2.1 數(shù)據(jù)的讀取...................................................................................................................... 24 2.1.1 讀取內(nèi)置數(shù)據(jù)集和文本文件................................................................................ 24 2.1.2 讀取Excel 數(shù)據(jù)和CSV 格式的數(shù)據(jù).................................................................... 30 2.1.3 讀取R 語言格式數(shù)據(jù)和網(wǎng)頁數(shù)據(jù)........................................................................ 33 2.1.4 讀取其他格式的數(shù)據(jù)........................................................................................... 34 2.2 數(shù)據(jù)保存.......................................................................................................................... 36 2.2.1 寫出數(shù)據(jù).............................................................................................................. 36 2.2.2 使用函數(shù)cat() ...................................................................................................... 37 2.2.3 保存為R 語言格式文件....................................................................................... 38 2.2.4 保存為其他類型文件........................................................................................... 39 第3 章 數(shù)據(jù)預(yù)處理 3.1 缺失值處理...................................................................................................................... 40 3.1.1 缺失值判斷........................................................................................................... 40 3.1.2 缺失模型判斷....................................................................................................... 44 3.1.3 常用處理方法....................................................................................................... 48 3.2 數(shù)據(jù)整理.......................................................................................................................... 53 3.2.1 數(shù)據(jù)合并.............................................................................................................. 53 3.2.2 選取子集.............................................................................................................. 56 3.2.3 數(shù)據(jù)轉(zhuǎn)換.............................................................................................................. 59 第4 章 數(shù)據(jù)的探索性分析 4.1 基本繪圖函數(shù).................................................................................................................. 66 4.2 探索單個變量.................................................................................................................. 74 4.2.1 單組數(shù)據(jù)的圖形描述........................................................................................... 74 4.2.2 單組數(shù)據(jù)的描述性分析....................................................................................... 79 4.3 探索多個變量.................................................................................................................. 81 4.3.1 兩組數(shù)據(jù)的圖形描述........................................................................................... 81 4.3.2 多組數(shù)據(jù)的圖形描述........................................................................................... 85 4.3.3 多組數(shù)據(jù)的描述性統(tǒng)計....................................................................................... 88 4.4 其他圖像探索.................................................................................................................. 90 第5 章 回歸分析 5.1 一元線性回歸.................................................................................................................. 94 5.1.1 模型簡介.............................................................................................................. 94 5.1.2 函數(shù)介紹.............................................................................................................. 96 5.1.3 綜合案例:iris 數(shù)據(jù)集的一元回歸建模.............................................................. 97 5.2 多元線性回歸.................................................................................................................. 99 5.2.1 模型簡介.............................................................................................................. 99 5.2.2 綜合案例:iris 數(shù)據(jù)集的多元回歸建模............................................................ 100 5.3 變量的選擇.................................................................................................................... 105 5.3.1 逐步回歸方法簡介及函數(shù)介紹.......................................................................... 105 5.3.2 綜合案例:swiss 數(shù)據(jù)集的逐步回歸建模......................................................... 106 5.3.3 嶺回歸的方法簡介及函數(shù)介紹.......................................................................... 109 5.3.4 綜合案例:longley 數(shù)據(jù)集的嶺回歸探索.......................................................... 110 5.3.5 lasso 回歸方法簡介及函數(shù)介紹......................................................................... 114 5.3.6 綜合案例:longley 數(shù)據(jù)集的lasso 回歸建模.................................................... 115 5.4 Logistic 回歸.................................................................................................................. 117 5.4.1 模型簡介............................................................................................................ 117 5.4.2 函數(shù)介紹............................................................................................................ 119 5.4.3 綜合案例:iris 數(shù)據(jù)集的邏輯回歸建模............................................................ 120 第6 章 方差分析 6.1 單因素方差分析............................................................................................................ 124 6.1.1 模型介紹............................................................................................................ 124 6.1.2 函數(shù)介紹............................................................................................................ 126 6.1.3 綜合案例:不同治療方法下膽固醇降低效果的差異性分析............................ 127 6.2 雙因素方差分析............................................................................................................ 130 6.2.1 模型介紹............................................................................................................ 130 6.2.2 綜合案例:不同劑量下老鼠妊娠重量的差異性分析........................................ 132 6.3 協(xié)方差分析.................................................................................................................... 136 6.3.1 模型簡介............................................................................................................ 136 6.3.2 函數(shù)介紹............................................................................................................ 136 6.3.3 綜合案例:hotdog 數(shù)據(jù)集的協(xié)方差分析........................................................... 137 第7 章 主成分分析和因子分析 7.1 降維的基本方法:主成分分析..................................................................................... 139 7.1.1 理論基礎(chǔ):原始變量的線性組合...................................................................... 139 7.1.2 模型介紹............................................................................................................ 141 7.1.3 函數(shù)介紹............................................................................................................ 143 7.1.4 綜合案例:longley 數(shù)據(jù)集的變量降維及回歸.................................................. 144 7.1.5 綜合案例:longley 數(shù)據(jù)集的變量降維及回歸(主成分回歸)....................... 148 7.2 推廣發(fā)展:因子分析.................................................................................................... 150 7.2.1 理論基礎(chǔ):多個變量綜合為少數(shù)因子............................................................... 150 7.2.2 模型介紹............................................................................................................ 151 7.2.3 函數(shù)介紹............................................................................................................ 153 7.2.4 綜合案例:能力和智商測試的因子分析探索................................................... 154 第8 章 判別分析 8.1 距離判別法.................................................................................................................... 160 8.1.1 理論基礎(chǔ):離誰近,就屬于誰.......................................................................... 160 8.1.2 函數(shù)介紹............................................................................................................ 162 8.1.3 綜合案例:基于距離判別的iris 數(shù)據(jù)集分類.................................................... 164 8.2 Bayes 判別法................................................................................................................. 168 8.2.1 理論基礎(chǔ):先驗概率與錯判損失...................................................................... 168 8.2.2 函數(shù)介紹............................................................................................................ 170 8.2.3 綜合案例:基于iris 數(shù)據(jù)集的Bayes 判別分析................................................ 171 8.3 Fisher 判別法................................................................................................................. 171 8.3.1 理論基礎(chǔ):投影................................................................................................. 171 8.3.2 函數(shù)介紹............................................................................................................ 173 8.3.3 綜合案例:基于Fisher 判別的iris 數(shù)據(jù)集分類................................................ 174 第9 章 常規(guī)聚類分析 9.1 深入了解聚類分析........................................................................................................ 178 9.1.1 差異與分類......................................................................................................... 178 9.1.2 主流的聚類算法................................................................................................. 179 9.2 動態(tài)聚類........................................................................................................................ 180 9.2.1 聚類的基本過程................................................................................................. 180 9.2.2 函數(shù)介紹............................................................................................................ 183 9.2.3 綜合案例:基于隨機生成序列的動態(tài)聚類....................................................... 184 9.3 層次聚類........................................................................................................................ 194 9.3.1 聚類的基本過程................................................................................................. 194 9.3.2 函數(shù)介紹............................................................................................................ 197 9.3.3 綜合案例:基于UScitiesD 數(shù)據(jù)集的層次聚類................................................. 199 9.4 密度聚類........................................................................................................................ 202 9.4.1 聚類的基本過程................................................................................................. 202 9.4.2 函數(shù)介紹............................................................................................................ 202 9.4.3 綜合案例:基于隨機生成序列的密度聚類....................................................... 203 9.5 EM 聚類......................................................................................................................... 204 9.5.1 聚類的基本過程................................................................................................. 205 9.5.2 函數(shù)介紹............................................................................................................ 205 9.5.3 綜合案例:基于iris 數(shù)據(jù)集的EM 聚類............................................................ 206 第10 章 關(guān)聯(lián)規(guī)則 10.1 簡單關(guān)聯(lián)規(guī)則.............................................................................................................. 210 10.1.1 基本概念與表示形式....................................................................................... 210 10.1.2 評價簡單關(guān)聯(lián)規(guī)則的有效性和實用性............................................................. 211 10.2 序列關(guān)聯(lián)規(guī)則.............................................................................................................. 212 10.2.1 差異與基本概念............................................................................................... 212 10.2.2 生成序列關(guān)聯(lián)規(guī)則........................................................................................... 213 10.3 Apriori 算法................................................................................................................. 214 10.3.1 算法介紹:挖掘頻繁項集................................................................................ 214 10.3.2 函數(shù)介紹.......................................................................................................... 215 10.3.3 綜合案例:基于Titanic 數(shù)據(jù)集的關(guān)聯(lián)規(guī)則挖掘............................................ 216 10.4 Eclat 算法.................................................................................................................... 224 10.4.1 算法介紹:自底向上的搜索............................................................................ 224 10.4.2 函數(shù)介紹.......................................................................................................... 224 10.4.3 綜合案例:基于美國人口調(diào)查數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘...................................... 225 10.5 SPADE 算法................................................................................................................. 230 10.5.1 算法介紹:基于序列格的搜索和連接............................................................. 231 10.5.2 函數(shù)介紹.......................................................................................................... 232 10.5.3 綜合案例:基于zaki 數(shù)據(jù)集的序列關(guān)聯(lián)規(guī)則挖掘......................................... 233 第11 章 神經(jīng)網(wǎng)絡(luò) 11.1 深入了解人工神經(jīng)網(wǎng)絡(luò)............................................................................................... 239 11.1.1 生物神經(jīng)元....................................................................................................... 240 11.1.2 人工神經(jīng)元模型............................................................................................... 241 11.1.3 人工神經(jīng)網(wǎng)絡(luò)種類........................................................................................... 244 11.1.4 建立模型的一般步驟........................................................................................ 247 11.2 B-P 反向傳播網(wǎng)絡(luò)....................................................................................................... 248 11.2.1 B-P 反向傳播網(wǎng)絡(luò)模型.................................................................................... 248 11.2.2 算法介紹........................................................................................................... 249 11.2.3 函數(shù)介紹........................................................................................................... 250 11.3 綜合案例:基于Boston 數(shù)據(jù)的波士頓郊區(qū)房價預(yù)測建模........................................ 252
你還可能感興趣
我要評論
|