大數(shù)據(jù)技術(shù)是一個(gè)面向?qū)嶋H應(yīng)用的技術(shù)。從大數(shù)據(jù)中獲取有價(jià)值信息是大數(shù)據(jù)技術(shù)的精髓。本書(shū)概括性介紹了數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)的主要內(nèi)容。全書(shū)分為 9 章,主要包括概述、大數(shù)據(jù)處理平臺(tái)、大數(shù)據(jù)獲取與存儲(chǔ)管理技術(shù)、大數(shù)據(jù)抽取技術(shù)、大數(shù)據(jù)清洗技術(shù)、大數(shù)據(jù)去噪與標(biāo)準(zhǔn)化、大數(shù)據(jù)約簡(jiǎn)與集成技術(shù)、大數(shù)據(jù)分析與挖掘技術(shù)、大數(shù)據(jù)分析結(jié)果解釋與展現(xiàn)。
本書(shū)在內(nèi)容上,注重基本概念、基本方法介紹,實(shí)例豐富、語(yǔ)言精練、邏輯層次清晰,適合作為大學(xué)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專(zhuān)業(yè)和相近專(zhuān)業(yè)的教材,也可以作為科技人員的參考書(shū)。
全面:對(duì)大數(shù)據(jù)涉及的各項(xiàng)技術(shù)如Hadoop、MapReduce、Storm、Spark等做了深入簡(jiǎn)出的介紹。
實(shí)用:配有多個(gè)實(shí)際操作案例供讀者參考,輕松學(xué)習(xí)。
大數(shù)據(jù)技術(shù)與應(yīng)用展現(xiàn)出銳不可當(dāng)?shù)膹?qiáng)大生命力,科學(xué)界與企業(yè)界對(duì)其寄予厚望。大數(shù)據(jù)成為繼 20 世紀(jì)末、21 世紀(jì)初互聯(lián)網(wǎng)蓬勃發(fā)展以來(lái)的又一輪 IT 工業(yè)革命。 大數(shù)據(jù)技術(shù)是指經(jīng)過(guò)數(shù)據(jù)獲取、清洗、集成、挖掘、分析與結(jié)果解釋?zhuān)瑥母鞣N類(lèi)型的巨量數(shù)據(jù)中快速獲得有價(jià)值信息的全部技術(shù)。大數(shù)據(jù)技術(shù)的精髓是從大數(shù)據(jù)中產(chǎn)生新見(jiàn)解、識(shí)別復(fù)雜關(guān)系和做出越來(lái)越精準(zhǔn)的預(yù)測(cè)。 大數(shù)據(jù)技術(shù)是現(xiàn)代科學(xué)與技術(shù)發(fā)展,尤其是計(jì)算機(jī)科學(xué)技術(shù)發(fā)展的重要成果和結(jié)晶,是科學(xué)發(fā)展史的又一個(gè)新的里程碑。大數(shù)據(jù)的出現(xiàn)對(duì)計(jì)算機(jī)許多領(lǐng)域提出了挑戰(zhàn)與沖擊,推動(dòng)了計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展。 大數(shù)據(jù)技術(shù)的出現(xiàn)凝集了多學(xué)科的研究成果,是一門(mén)多學(xué)科的交叉融合技術(shù),隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)技術(shù)發(fā)展更為迅速,應(yīng)用更為深入與廣泛,并凸顯其巨大潛力和應(yīng)用價(jià)值。 本書(shū)系統(tǒng)地介紹了大數(shù)據(jù)技術(shù)的核心內(nèi)容,對(duì)大數(shù)據(jù)處理周期的各部分的模型和方法做了概括性介紹,而且基于應(yīng)用的角度介紹了當(dāng)下流行的 Hadoop、Storm 和 Spark 大數(shù)據(jù)處理平臺(tái),為將大數(shù)據(jù)處理周期中的處理方法在這些平臺(tái)上實(shí)現(xiàn)建立了基礎(chǔ)。本書(shū)主要內(nèi)容說(shuō)明如下。 第 1 章為概述,主要包括數(shù)據(jù)科學(xué)、大數(shù)據(jù)的生態(tài)環(huán)境、大數(shù)據(jù)的概念、大數(shù)據(jù)的性質(zhì)、大數(shù)據(jù)處理周期和科學(xué)研究范式;第 2 章為大數(shù)據(jù)處理平臺(tái),主要包括 Hadoop大數(shù)據(jù)處理平臺(tái)、Storm 大數(shù)據(jù)處理平臺(tái)和 Spark 大數(shù)據(jù)處理平臺(tái);第 3 章為大數(shù)據(jù)獲取與存儲(chǔ)管理技術(shù),主要包括大數(shù)據(jù)獲取、領(lǐng)域數(shù)據(jù)、網(wǎng)站數(shù)據(jù)、網(wǎng)絡(luò)爬蟲(chóng)、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)的存儲(chǔ)管理技術(shù)、NewSQL 和 NoSQL、分布式文件系統(tǒng)、虛擬存儲(chǔ)技術(shù)和云存儲(chǔ)技術(shù);第 4 章為大數(shù)據(jù)抽取技術(shù),主要包括大數(shù)據(jù)抽取技術(shù)概述、增量數(shù)據(jù)抽取技術(shù)、非結(jié)構(gòu)化數(shù)據(jù)抽取和基于 Hadoop 平臺(tái)的數(shù)據(jù)抽取;第 5 章為大數(shù)據(jù)清洗技術(shù),主要包括數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗、不完整數(shù)據(jù)清洗、異常數(shù)據(jù)清洗、重復(fù)數(shù)據(jù)清洗、文本清洗和數(shù)據(jù)清洗的實(shí)現(xiàn);第 6 章為大數(shù)據(jù)去噪與標(biāo)準(zhǔn)化,主要包括基本的數(shù)據(jù)轉(zhuǎn)換方法、數(shù)據(jù)平滑技術(shù)、數(shù)據(jù)規(guī)范化和數(shù)據(jù)泛化;第 7 章為大數(shù)據(jù)約簡(jiǎn)與集成技術(shù),主要包括數(shù)據(jù)約簡(jiǎn)概述、特征約簡(jiǎn)、樣本約簡(jiǎn)、數(shù)據(jù)立方體聚集、維約簡(jiǎn)屬性子集選擇算法、數(shù)據(jù)壓縮、數(shù)值約簡(jiǎn)、數(shù)據(jù)集成的概念與相關(guān)問(wèn)題、數(shù)據(jù)遷移、數(shù)據(jù)集成模式、數(shù)據(jù)集成系統(tǒng)和數(shù)據(jù)聚類(lèi)集成;第8章為大數(shù)據(jù)分析與挖掘技術(shù),主要包括大數(shù)據(jù)分析概述、統(tǒng)計(jì)分析方法、數(shù)據(jù)挖掘理論基礎(chǔ)、關(guān)聯(lián)規(guī)則挖掘、分類(lèi)方法、聚類(lèi)方法、序列模式挖掘、非結(jié)構(gòu)化文本數(shù)據(jù)挖掘和基于MapReduce的分析與挖掘?qū)嵗;?章為大數(shù)據(jù)分析結(jié)果解釋與展現(xiàn),主要包括數(shù)據(jù)分析結(jié)果解釋、數(shù)據(jù)的基本展現(xiàn)方式、大數(shù)據(jù)可視化、大數(shù)據(jù)可視分析和數(shù)據(jù)可視化實(shí)現(xiàn)。 本書(shū)在結(jié)構(gòu)上為積木狀,各章內(nèi)容均為獨(dú)立、注重概念性與方法性論述。出于篇幅考慮,書(shū)中所提及理論結(jié)果沒(méi)有給出證明,如需要可以查閱相關(guān)文獻(xiàn)。由于作者水平有限,書(shū)中不足之處在所難免,敬請(qǐng)讀者批評(píng)指正。
陳明,國(guó)內(nèi)計(jì)算機(jī)科學(xué)領(lǐng)域資深專(zhuān)家,曾任大連理工大學(xué)計(jì)算機(jī)科學(xué)與工程系教授、系主任,中國(guó)石油大學(xué)(北京)計(jì)算機(jī)科學(xué)與技術(shù)系教授、系主任。中國(guó)計(jì)算機(jī)學(xué)會(huì)理事、中國(guó)人工智能學(xué)會(huì)理事、中國(guó)人工智能學(xué)會(huì)智能信息網(wǎng)專(zhuān)委會(huì)副主任。全國(guó)高校計(jì)算機(jī)基礎(chǔ)教育研究會(huì)常務(wù)理事、教育部IT&AT 教育工程專(zhuān)家組成員。
第 1 章 概述 ............................................ 1
1.1 數(shù)據(jù)科學(xué) ................................................2
1.1.1 數(shù)據(jù)科學(xué)的產(chǎn)生與發(fā)展 ................2
1.1.2 數(shù)據(jù)科學(xué)的相關(guān)術(shù)語(yǔ) ....................2
1.1.3 數(shù)據(jù)科學(xué)的主要內(nèi)容 ....................3
1.1.4 數(shù)據(jù)科學(xué)的研究過(guò)程與體系框架.................................................4
1.1.5 數(shù)據(jù)科學(xué)、數(shù)據(jù)技術(shù)與數(shù)據(jù)工程.................................................6
1.1.6 大數(shù)據(jù)問(wèn)題 ....................................6
1.2 大數(shù)據(jù)的生態(tài)環(huán)境 ................................7
1.2.1 互聯(lián)網(wǎng)世界 ....................................7
1.2.2 物理世界 ........................................9
1.3 大數(shù)據(jù)的概念 ........................................9
1.3.1 數(shù)據(jù)容量 ......................................10
1.3.2 數(shù)據(jù)類(lèi)型 ...................................... 11
1.3.3 價(jià)值密度 ...................................... 11
1.3.4 速度 .............................................. 11
1.3.5 真實(shí)性 .......................................... 11
1.4 大數(shù)據(jù)的性質(zhì) ...................................... 11
1.4.1 非結(jié)構(gòu)性 ......................................12
1.4.2 不完備性 ......................................13
1.4.3 時(shí)效性 ..........................................13
1.4.4 安全性 ..........................................13
1.4.5 可靠性 ..........................................13
1.5 大數(shù)據(jù)處理周期 ..................................13
1.5.1 大數(shù)據(jù)處理全過(guò)程 ......................14
1.5.2 大數(shù)據(jù)技術(shù)的特征 ......................15
1.5.3 大數(shù)據(jù)的一些熱點(diǎn)技術(shù) ..............17
1.6 科學(xué)研究范式 ......................................18
1.6.1 科學(xué)研究范式的產(chǎn)生與發(fā)展 ......18
1.6.2 數(shù)據(jù)密集型科學(xué)研究第四范式....19
小結(jié) ...............................................................23
第 2 章 大數(shù)據(jù)處理平臺(tái) ........................ 24
2.1 Hadoop 大數(shù)據(jù)處理平臺(tái) ....................24
2.1.1 離線計(jì)算概述 ..............................25
2.1.2 MapReduce 分布編程模型 ..........26
2.1.3 基于 Hadoop 的分布計(jì)算 ............27
2.1.4 MapReduce 程序設(shè)計(jì)分析 ..........31
2.1.5 Hadoop 環(huán)境部署與程序運(yùn)行 .....36
2.2 Storm 大數(shù)據(jù)處理平臺(tái) .......................42
2.2.1 流式數(shù)據(jù)的概念與特征 ..............43
2.2.2 大數(shù)據(jù)的計(jì)算模式 ......................45
2.2.3 流式數(shù)據(jù)處理技術(shù)的應(yīng)用 ..........46
2.2.4 流式計(jì)算的系統(tǒng)架構(gòu) ..................50
2.2.5 Storm 流處理過(guò)程 ........................52
2.2.6 單詞計(jì)數(shù) topology .......................56
2.3 Spark 大數(shù)據(jù)處理平臺(tái) ........................58
2.3.1 交互式處理系統(tǒng)的問(wèn)題 ..............58
2.3.2 Scala 編程語(yǔ)言簡(jiǎn)介 .....................58
2.3.3 Spark 的主要特點(diǎn) ........................59
2.3.4 軟件棧 ..........................................60
2.3.5 核心概念 ......................................61
2.3.6 彈性分布式數(shù)據(jù)集 RDD .............62
2.3.7 單詞計(jì)數(shù)實(shí)例分析 ......................66
小結(jié) ...............................................................67
第 3 章 大數(shù)據(jù)獲取與存儲(chǔ)管理技術(shù) ...... 68
3.1 大數(shù)據(jù)獲取 ..........................................69
3.1.1 大數(shù)據(jù)獲取的挑戰(zhàn) ......................69
3.1.2 傳統(tǒng)的數(shù)據(jù)獲取與大數(shù)據(jù)獲取的區(qū)別...............................................69
3.2 領(lǐng)域數(shù)據(jù) ..............................................70
3.2.1 文本數(shù)據(jù) ......................................70
3.2.2 語(yǔ)音數(shù)據(jù) ......................................71
3.2.3 圖片數(shù)據(jù) ......................................71
3.2.4 攝像頭視頻數(shù)據(jù) ..........................71
3.2.5 圖像數(shù)字化數(shù)據(jù) ..........................71
3.2.6 圖形數(shù)字化數(shù)據(jù) ..........................71
3.2.7 空間數(shù)據(jù) ......................................72
3.3 網(wǎng)站數(shù)據(jù) ..............................................72
3.3.1 網(wǎng)站內(nèi)部數(shù)據(jù) ..............................73
3.3.2 網(wǎng)站外部數(shù)據(jù) ...........................73
3.3.3 移動(dòng)網(wǎng)站數(shù)據(jù) ..............................73
3.4 網(wǎng)絡(luò)爬蟲(chóng) ..............................................73
3.4.1 網(wǎng)絡(luò)爬蟲(chóng)的工作過(guò)程 ..................74
3.4.2 通用網(wǎng)絡(luò)爬蟲(chóng) ..............................74
3.4.3 聚焦網(wǎng)絡(luò)爬蟲(chóng) ..............................77
3.4.4 數(shù)據(jù)抓取目標(biāo)的定義 ..................79
3.4.5 網(wǎng)頁(yè)分析算法 ..............................80
3.4.6 更新策略 ......................................81
3.4.7 分布式爬蟲(chóng)的系統(tǒng)結(jié)構(gòu) ..............82
3.5 大數(shù)據(jù)存儲(chǔ) ..........................................84
3.5.1 大數(shù)據(jù)存儲(chǔ)模型 ..........................84
3.5.2 大數(shù)據(jù)存儲(chǔ)問(wèn)題 ..........................84
3.5.3 大數(shù)據(jù)存儲(chǔ)方式 ..........................85
3.6 大數(shù)據(jù)存儲(chǔ)管理技術(shù) ..........................86
3.6.1 數(shù)據(jù)容量問(wèn)題 ..............................86
3.6.2 大圖數(shù)據(jù) ......................................87
3.6.3 數(shù)據(jù)存儲(chǔ)管理 ..............................88
3.7 NoSQL 和 NewSQL .............................89
3.7.1 NoSQL ..........................................90
3.7.2 NewSQL 數(shù)據(jù)庫(kù) ..........................93
3.7.3 不同數(shù)據(jù)庫(kù)架構(gòu)混合應(yīng)用模式....93
3.8 分布式文件系統(tǒng) ..................................94
3.8.1 評(píng)價(jià)指標(biāo) ......................................94
3.8.2 HDFS 文件系統(tǒng) ...........................95
3.8.3 NFS 文件系統(tǒng) ..............................96
3.9 虛擬存儲(chǔ)技術(shù) ......................................97
3.9.1 虛擬存儲(chǔ)的特點(diǎn) ..........................98
3.9.2 虛擬存儲(chǔ)的應(yīng)用 ..........................98
3.10 云存儲(chǔ)技術(shù) ........................................99
3.10.1 云存儲(chǔ)原理 ................................99
3.10.2 網(wǎng)絡(luò)結(jié)構(gòu) ....................................99
3.10.3 云的分類(lèi) ....................................99
小結(jié) .............................................................100
第 4 章 大數(shù)據(jù)抽取技術(shù) ...................... 101
4.1 大數(shù)據(jù)抽取技術(shù)概述 .......................101
4.1.1 數(shù)據(jù)抽取的定義 ........................102
4.1.2 數(shù)據(jù)映射與數(shù)據(jù)遷移 ................102
4.1.3 數(shù)據(jù)抽取程序 ............................103
4.1.4 抽取、轉(zhuǎn)換和加載 ....................103
4.1.5 數(shù)據(jù)抽取方式 ............................104
4.2 增量數(shù)據(jù)抽取技術(shù) ............................104
4.2.1 增量抽取的特點(diǎn)與策略 ............105
4.2.2 基于觸發(fā)器的增量抽取方式.............................................105
4.2.3 基于時(shí)間戳的增量抽取方式.............................................105
4.2.4 全表刪除插入方式 ..................106
4.2.5 全表比對(duì)抽取方式 ....................106
4.2.6 日志表方式 ................................107
4.2.7 系統(tǒng)日志分析方式 ....................107
4.2.8 各種數(shù)據(jù)抽取機(jī)制的比較與分析.........................................107
4.3 非結(jié)構(gòu)化數(shù)據(jù)抽取 ............................109
4.3.1 非結(jié)構(gòu)化數(shù)據(jù)類(lèi)型 ....................109
4.3.2 非結(jié)構(gòu)化數(shù)據(jù)模型 ....................109
4.3.3 非結(jié)構(gòu)化數(shù)據(jù)組織 .................... 111
4.3.4 純文本抽取通用程序庫(kù) ............ 112
4.4 基于 Hadoop 平臺(tái)的數(shù)據(jù)抽取 ......... 113
小結(jié) ............................................................. 114
第 5 章 大數(shù)據(jù)清洗技術(shù) .......................115
5.1 數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗 ........................ 115
5.1.1 數(shù)據(jù)質(zhì)量 .................................... 116
5.1.2 數(shù)據(jù)質(zhì)量提高技術(shù) .................... 118
5.1.3 數(shù)據(jù)清洗算法的標(biāo)準(zhǔn) ................120
5.1.4 數(shù)據(jù)清洗的過(guò)程與模型 ............120
5.2 不完整數(shù)據(jù)清洗 ................................121
5.2.1 基本方法 ....................................121
5.2.2 基于 k-NN 近鄰缺失數(shù)據(jù)的填充算法.....................................123
5.3 異常數(shù)據(jù)清洗 ....................................124
5.3.1 異常值產(chǎn)生的原因 ....................125
5.3.2 統(tǒng)計(jì)方法 ....................................125
5.3.3 基于鄰近度的離群點(diǎn)檢測(cè) ........126
5.4 重復(fù)數(shù)據(jù)清洗 ....................................127
5.4.1 使用字段相似度識(shí)別重復(fù)值算法.............................................127
5.4.2 搜索引擎快速去重算法 ............128
5.5 文本清洗 ............................................128
5.5.1 字符串匹配算法 ........................129
5.5.2 文本相似度度量 ........................131
5.5.3 文檔去重算法 ............................135
5.6 數(shù)據(jù)清洗的實(shí)現(xiàn) ................................135
5.6.1 數(shù)據(jù)清洗的步驟 ........................135
5.6.2 基于 MapReduce 的大數(shù)據(jù)去重.............................................136
小結(jié) .............................................................138
第 6 章 大數(shù)據(jù)去噪與標(biāo)準(zhǔn)化 ............... 139
6.1 基本的數(shù)據(jù)轉(zhuǎn)換方法 ........................139
6.1.1 對(duì)數(shù)轉(zhuǎn)換 ....................................139
6.1.2 平方根轉(zhuǎn)換 ................................140
6.1.3 平方轉(zhuǎn)換 ....................................140
6.1.4 倒數(shù)變換 ....................................140
6.2 數(shù)據(jù)平滑技術(shù) ....................................140
6.2.1 移動(dòng)平均法 ................................141
6.2.2 指數(shù)平滑法 ................................142
6.2.3 分箱平滑法 ................................146
6.3 數(shù)據(jù)規(guī)范化 ........................................148
6.3.1 zui小 - zui大規(guī)范化方法 ............148
6.3.2 z 分?jǐn)?shù)規(guī)范化方法 ......................149
6.3.3 小數(shù)定標(biāo)規(guī)范化方法 ................149
6.4 數(shù)據(jù)泛化處理 ....................................150
6.4.1 空間數(shù)據(jù)支配泛化算法 ............150
6.4.2 非空間數(shù)據(jù)支配泛化方法 ........151
6.4.3 統(tǒng)計(jì)信息網(wǎng)格方法 ....................151
小結(jié) .............................................................151
第 7 章 大數(shù)據(jù)約簡(jiǎn)與集成技術(shù) ........... 152
7.1 數(shù)據(jù)約簡(jiǎn)概述 ....................................153
7.1.1 數(shù)據(jù)約簡(jiǎn)定義 ............................153
7.1.2 數(shù)據(jù)約簡(jiǎn)方式 ............................153
7.2 特征約簡(jiǎn) ............................................153
7.2.1 特征提取 ....................................154
7.2.2 特征選擇 ....................................154
7.3 樣本約簡(jiǎn) ............................................155
7.3.1 簡(jiǎn)單隨機(jī)抽樣 ............................155
7.3.2 系統(tǒng)抽樣 ....................................155
7.3.3 分層抽樣 ....................................155
7.4 數(shù)據(jù)立方體聚集 ................................155
7.4.1 多維性 ........................................156
7.4.2 數(shù)據(jù)聚集 ....................................156
7.5 維約簡(jiǎn) ................................................157
7.5.1 維約簡(jiǎn)的目的 ............................157
7.5.2 維約簡(jiǎn)的基本策略 ....................158
7.5.3 維約簡(jiǎn)的分類(lèi) ............................158
7.6 屬性子集選擇算法 ............................159
7.6.1 逐步向前選擇屬性 ....................159
7.6.2 逐步向后刪除屬性 ....................159
7.6.3 混合式選擇 ...............................159
7.6.4 判定樹(shù)歸納 ................................159
7.7 數(shù)據(jù)壓縮 ............................................160
7.7.1 離散小波變換方法 ....................160
7.7.2 主成分分析壓縮方法 ................161
7.8 數(shù)值約簡(jiǎn) ............................................162
7.8.1 有參數(shù)值約簡(jiǎn) ............................162
7.8.2 無(wú)參數(shù)值約簡(jiǎn) ............................162
7.9 數(shù)據(jù)集成的概念與相關(guān)問(wèn)題 ............163
7.9.1 數(shù)據(jù)集成的核心問(wèn)題 ................165
7.9.2 數(shù)據(jù)集成的分類(lèi) ........................166
7.10 數(shù)據(jù)遷移 ..........................................168
7.10.1 在組織內(nèi)部移動(dòng)數(shù)據(jù) ..............169
7.10.2 非結(jié)構(gòu)化數(shù)據(jù)集成 ..................169
7.10.3 將處理移動(dòng)到數(shù)據(jù)端 ..............170
7.11 數(shù)據(jù)集成模式 ..................................171
7.11.1 聯(lián)邦數(shù)據(jù)庫(kù)集成模式 ...............171
7.11.2 中間件集成模式 ......................172
7.11.3 數(shù)據(jù)倉(cāng)庫(kù)集成模式 ..................173
7.12 數(shù)據(jù)集成系統(tǒng) ..................................173
7.12.1 全局模式 ..................................174
7.12.2 語(yǔ)義映射 ..................................175
7.12.3 查詢(xún)重寫(xiě) ..................................175
7.13 數(shù)據(jù)聚類(lèi)集成 ..................................175
7.13.1 數(shù)據(jù)聚類(lèi)集成概述 ..................175
7.13.2 高維數(shù)據(jù)聚類(lèi)集成 ..................176
小結(jié) .............................................................178
第 8 章 大數(shù)據(jù)分析與挖掘技術(shù) ........... 179
8.1 大數(shù)據(jù)分析概述 ................................180
8.1.1 大數(shù)據(jù)分析的類(lèi)型 ...................180
8.1.2 數(shù)字特征 ....................................182
8.1.3 統(tǒng)計(jì)方法論 ...............................184
8.1.4 模型與構(gòu)建 ................................186
8.1.5 R 語(yǔ)言 .........................................186
8.2 統(tǒng)計(jì)分析方法 ....................................188
8.2.1 基本方法 ...................................188
8.2.2 常用分析方法 ............................194
8.3 數(shù)據(jù)挖掘理論基礎(chǔ) ............................ 211
8.3.1 數(shù)據(jù)挖掘是面向應(yīng)用的技術(shù) .... 211
8.3.2 數(shù)據(jù)挖掘的理論基礎(chǔ) ................212
8.3.3 基于數(shù)據(jù)存儲(chǔ)方式的數(shù)據(jù)挖掘.............................................212
8.4 關(guān)聯(lián)規(guī)則挖掘 ....................................214
8.4.1 頻繁項(xiàng)目集生成算法 ................215
8.4.2 關(guān)聯(lián)規(guī)則挖掘質(zhì)量 ....................217
8.5 分類(lèi)方法 ............................................218
8.5.1 基于距離的分類(lèi)算法 ................219
8.5.2 KNN 算法的 MapReduce實(shí)現(xiàn) ............................................220
8.5.3 決策樹(shù)分類(lèi)方法 ........................220
8.6 聚類(lèi)方法 ............................................223
8.6.1 聚類(lèi)定義與分類(lèi) ........................223
8.6.2 距離與相似性的度量 ................225
8.6.3 劃分聚類(lèi)方法 ............................226
8.6.4 層次聚類(lèi)方法 ............................228
8.7 序列模式挖掘與文本數(shù)據(jù)挖掘 ........229
8.7.1 時(shí)間序列預(yù)測(cè)的常用方法 ........229
8.7.2 序列模式挖掘 ............................230
8.8 非結(jié)構(gòu)化文本數(shù)據(jù)挖掘 ....................231
8.8.1 用戶(hù)反饋文本 ............................232
8.8.2 用戶(hù)反饋文本挖掘的一般過(guò)程 ............................................232
8.8.3 文本的自然語(yǔ)言處理 ...............234
8.9 基于 MapReduce 的分析與挖掘?qū)嵗?....................................................235
8.9.1 大數(shù)據(jù)平均值計(jì)算 ....................235
8.9.2 大數(shù)據(jù)排序 ................................236
8.9.3 倒排索引 ....................................237
小結(jié) .............................................................241
第 9 章 大數(shù)據(jù)分析結(jié)果解釋與展現(xiàn) .... 242
9.1 數(shù)據(jù)分析結(jié)果解釋的目的與內(nèi)容 ....243
9.1.1 解釋的目的 ................................243
9.1.2 檢查和驗(yàn)證假設(shè) ........................243
9.1.3 追蹤分析過(guò)程 ............................244
9.2 數(shù)據(jù)的基本展現(xiàn)方式 ........................245
9.2.1 基于時(shí)間變化的可視化展現(xiàn) ....245
9.2.2 由大及小的可視化展現(xiàn) ............245
9.2.3 由小及大的可視化展現(xiàn) ............246
9.2.4 突出對(duì)比的可視化展現(xiàn) ............246
9.2.5 地域空間可視化展現(xiàn) ................246
9.2.6 概念可視化展現(xiàn) ........................248
9.2.7 氣泡圖可視化展現(xiàn) ....................248
9.2.8 注重交叉點(diǎn)的數(shù)據(jù)可視化展現(xiàn) ............................................248
9.2.9 剖析原因的數(shù)據(jù)可視化展現(xiàn) ....248
9.2.10 描繪出異常值的可視化展現(xiàn) ..........................................249
9.3 大數(shù)據(jù)可視化 ....................................249
9.3.1 文本可視化 ................................249
9.3.2 網(wǎng)絡(luò)(圖)可視化 ....................250
9.3.3 時(shí)空數(shù)據(jù)可視化 ........................252
9.3.4 多維數(shù)據(jù)可視化 ........................252
9.4 大數(shù)據(jù)可視分析 ................................253
9.4.1 可視分析的理論基礎(chǔ) ................254
9.4.2 大數(shù)據(jù)可視分析技術(shù) ................257
9.5 數(shù)據(jù)可視化實(shí)現(xiàn) ................................260
小結(jié) .............................................................262
參考文獻(xiàn) ............................................... 263
?