數(shù)據(jù)科學是一門新興的熱門科學,國外一流大學紛紛設立同名課程,相應的專業(yè)、課程及書籍也深受歡迎。本書是國內(nèi)第一部系統(tǒng)闡述數(shù)據(jù)科學的重要專著,填補了國內(nèi)此領域的空白。本書在結(jié)構(gòu)設計和內(nèi)容選擇上不僅充分借鑒了國外著名大學設立的相關課程以及全球暢銷的外文專著,也考慮到了國內(nèi)相關課程定位與專業(yè)人才的培養(yǎng)需求。 本書共包括8個部分(基礎知識、數(shù)據(jù)預處理、數(shù)據(jù)統(tǒng)計、機器學習、數(shù)據(jù)可視化、數(shù)據(jù)計算、數(shù)據(jù)管理以及R編程),既涵蓋了數(shù)據(jù)科學的基本內(nèi)容,又避免了與相關課程的低級重復。每章設有綜合例題,做到理論學習與動手操作相結(jié)合。例題均采用R語言完成數(shù)據(jù)科學的特定任務。每章的首尾配有“導讀”與“小結(jié)”,便于教師的教學和學生的自學!傲曨}”部分以主動數(shù)據(jù)收集和分析的開放題目為主,旨在幫助學生提高自我學習能力。書后附有R語言語法,便于入門的教學與學習。 本書可以滿足數(shù)據(jù)科學、計算機科學與技術(shù)、管理學、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析、圖情檔類等多個專業(yè)的老師、學生(含碩士生和博士生)的教學與自學需要。
(1)本書是國內(nèi)系統(tǒng)介紹數(shù)據(jù)科學的重要的專著,填補了國內(nèi)此領域的空白。
。2)在結(jié)構(gòu)設計和內(nèi)容選擇上,不僅充分借鑒了國外著名大學設立的相關課程以及全球暢銷的英文專著,而且也考慮到了國內(nèi)相關課程定位與專業(yè)人才的培養(yǎng)需求。
。3)每章提供了基于R的數(shù)據(jù)處理例題和領域經(jīng)典案例,做到理論學習與實踐應用相結(jié)合。書后附有R語言基本語法,便于教學與學習。
(4)讀者范圍廣,可以滿足計算機科學與技術(shù)類、管理類、統(tǒng)計分析類、圖情檔類等多個專業(yè)人才,尤其是碩士生和博士生的教學與自學需要。
(5)每章的首尾配有【導讀】、【小結(jié)】、【習題】和【參考文獻及擴展閱讀】,便于教師的教學和學生的自學。習題部分以主動學習型開放題目為主,旨在幫助學生的自學能力。參考文獻部分既提供了引用文獻,又給出了推薦閱讀文獻目錄。
第1章基礎理論
1.1數(shù)據(jù)
1.1.1數(shù)據(jù)模型
1.1.2數(shù)據(jù)維度
1.2大數(shù)據(jù)
1.2.1內(nèi)涵與特征
1.2.2大數(shù)據(jù)時代的新理念
1.2.3大數(shù)據(jù)時代的新術(shù)語
1.3數(shù)據(jù)科學概述
1.3.1研究目的
1.3.2理論基礎
1.3.3研究內(nèi)容
1.3.4基本流程
1.3.5主要原則
1.3.6典型應用
1.4數(shù)據(jù)科學家
1.4.1主要任務
1.4.2能力要求
1.4.3常用工具
1.4.4團隊工作
1.5數(shù)據(jù)科學項目
1.5.1角色定義
1.5.2基本流程
1.6應用案例
小結(jié)
習題
參考文獻及擴展閱讀資料
第2章數(shù)據(jù)預處理
2.1數(shù)據(jù)質(zhì)量
2.1.1統(tǒng)計學規(guī)律
2.1.2語言學規(guī)律
2.1.3數(shù)據(jù)連續(xù)性理論
2.1.4數(shù)據(jù)鑒別技術(shù)
2.1.5探索性數(shù)據(jù)分析
2.2數(shù)據(jù)審計
2.2.1預定義審計
2.2.2自定義審計
2.2.3可視化審計
2.3數(shù)據(jù)清洗
2.3.1缺失數(shù)據(jù)處理
2.3.2冗余數(shù)據(jù)處理
2.3.3噪聲數(shù)據(jù)處理
2.4數(shù)據(jù)變換
2.4.1大小變換
2.4.2類型變換
2.5數(shù)據(jù)集成
2.5.1基本類型
2.5.2主要問題
2.6其他預處理方法
2.6.1數(shù)據(jù)脫敏
2.6.2數(shù)據(jù)歸約
2.6.3數(shù)據(jù)標注
2.7應用案例
小結(jié)
習題
參考文獻及擴展閱讀資料
第3章數(shù)據(jù)統(tǒng)計
3.1概率分布
3.1.1正態(tài)分布
3.1.2卡方分布
3.1.3t分布
3.1.4F分布
3.2參數(shù)估計
3.2.1點估計
3.2.2區(qū)間估計
3.3假設檢驗
3.3.1參數(shù)檢驗
3.3.2非參數(shù)檢驗
3.4基本分析方法
3.4.1相關分析
3.4.2回歸分析
3.4.3方差分析
3.4.4分類分析
3.4.5聚類分析
3.4.6時間序列分析
3.4.7其他方法
3.5元分析方法
3.5.1加權(quán)平均法
3.5.2優(yōu)化方法
3.6應用案例
小結(jié)
習題
參考文獻及擴展閱讀資料
第4章機器學習
4.1基本概念
4.1.1定義
4.1.2應用
4.2機器學習活動
4.2.1訓練經(jīng)驗的選擇
4.2.2目標函數(shù)的選擇
4.2.3目標函數(shù)的表示
4.2.4函數(shù)逼近算法的選擇
4.3機器學習系統(tǒng)
4.3.1執(zhí)行器
4.3.2評價器
4.3.3泛化器
4.3.4實驗生成器
4.4主要類型
4.4.1基于實例學習
4.4.2概念學習
4.4.3決策樹學習
4.4.4人工神經(jīng)網(wǎng)絡學習
4.4.5貝葉斯學習
4.4.6遺傳算法
4.4.7分析學習
4.4.8增強學習
4.5典型算法
4.5.1KMeans算法
4.5.2KNN算法
4.5.3ID3算法
4.6應用案例
小結(jié)
習題
參考文獻及擴展閱讀資料
第5章數(shù)據(jù)可視化
5.1主要類型
5.1.1科學可視化
5.1.2信息可視化
5.1.3可視分析學
5.2基本模型
5.2.1順序模型
5.2.2循環(huán)模型
5.2.3分析模型
5.3常用方法
5.3.1視覺編碼
5.3.2統(tǒng)計圖表
5.3.3圖論方法
5.3.4視覺隱喻
5.3.5圖形符號學
5.3.6面向領域的方法
5.4視覺編碼
5.4.1視覺感知
5.4.2數(shù)據(jù)類型
5.4.3視覺通道
5.4.4視覺假象
5.5評價與改進
5.5.1測評原則
5.5.2測評流程
5.5.3測評方法
5.6應用案例
小結(jié)
習題
參考文獻及擴展閱讀資料
第6章數(shù)據(jù)計算
6.1計算模式的演變
6.1.1集中式計算
6.1.2分布式計算
6.1.3網(wǎng)格計算
6.1.4云計算
6.2主流計算框架——MapReduce
6.2.1基本思想
6.2.2實現(xiàn)過程
6.2.3主要特征
6.2.4關鍵技術(shù)
6.5.5下一代MapReduce
6.3主流計算平臺——Hadoop MapReduce
6.3.1數(shù)據(jù)流
6.3.2任務處理
6.3.3技術(shù)實現(xiàn)
6.3.4YARN
6.4其他相關計算系統(tǒng)——Hadoop生態(tài)系統(tǒng)
6.4.1HDFS
6.4.2Hive
6.4.3Pig
6.4.4Mahout
6.4.5HBase
6.4.6ZooKeeper
6.4.7Flume
6.4.8Sqoop
6.5應用案例
小結(jié)
習題
參考文獻及擴展閱讀資料
第7章數(shù)據(jù)管理
7.1基本類型
7.1.1關系數(shù)據(jù)庫
7.1.2NoSQL
7.1.3關系云
7.2體系結(jié)構(gòu)
7.2.1MasterSlave結(jié)構(gòu)
7.2.2P2P結(jié)構(gòu)
7.3關鍵技術(shù)
7.3.1數(shù)據(jù)模型
7.3.2數(shù)據(jù)分布
7.3.3數(shù)據(jù)一致性
7.3.4CAP理論與BASE原則
7.3.5視圖與物化視圖
7.3.6事務與版本戳
7.4典型系統(tǒng)
7.4.1Memcached
7.4.2MongoDB
7.4.3Cassandra
7.4.4HBase
7.5應用案例
小結(jié)
習題
參考文獻及擴展閱讀資料
附錄AR語言與R軟件
附錄B術(shù)語索引