數(shù)據(jù)科學導論——基于Python語言(微課版)
定 價:42 元
叢書名:高等院校“十三五”規(guī)劃教材——Python系列
- 作者:朝樂門 著
- 出版時間:2021/1/1
- ISBN:9787115548207
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561-43
- 頁碼:202
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書重點講解數(shù)據(jù)科學的核心理論與實踐應用。全書共7章,主要介紹數(shù)據(jù)科學的基礎理論、統(tǒng)計學與模型、機器學習與算法、數(shù)據(jù)可視化、數(shù)據(jù)加工、大數(shù)據(jù)技術、數(shù)據(jù)產品開發(fā)及數(shù)據(jù)科學中的人文與管理等內容。本書內容通俗易懂,深入淺出,便于讀者理解。
本書可作為數(shù)據(jù)科學與大數(shù)據(jù)技術、大數(shù)據(jù)管理與應用、計算機科學與技術、管理科學與工程、工商管理、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析、信息管理與信息系統(tǒng)、商業(yè)分析等多個專業(yè)的教材,也可作為數(shù)據(jù)科學從業(yè)人士的參考用書。
1.作者權威,編寫經(jīng)驗豐富,且讀者反映良好。
1.內容以實踐為主,強化技能訓練。 本書通過Python編程實踐、書中代碼演示和習題等,幫助讀者快速掌握數(shù)據(jù)科學相關技能。
2.實例貼近實際,實用性強。本書案例皆與生活例子相關,更實用。
3.配套資源豐富。本書提供PPT、教學大綱、參考答案等資源,方便讀者使用。
中國人民大學副教授,博士生導師;國家精品開放在線課程《數(shù)據(jù)科學導論》負責人;中國計算機學會信息系統(tǒng)專委員會委員、全國高校人工智能與大數(shù)據(jù)創(chuàng)新聯(lián)盟專家委員會副主任、國際信息學院聯(lián)盟iSchools數(shù)據(jù)科學課程專委會委員、全國高校大數(shù)據(jù)教育聯(lián)盟大數(shù)據(jù)教材專家指導委員會委員、《計算機科學》執(zhí)行編委;獲得國家自然科學基金項目優(yōu)秀項目、數(shù)據(jù)科學50人、全國高校大數(shù)據(jù)教育杰出貢獻獎、IBM全球卓越教師獎、中國大數(shù)據(jù)學術創(chuàng)新獎、中國大數(shù)據(jù)創(chuàng)新百人榜單、全國高校人工智能與大數(shù)據(jù)學術創(chuàng)新獎等多種獎勵30余項。主持完成國家自然科學基金、國家社會科學基金等重要科學研究項目10余項;參與完成核高基、973、863、國家自然科學基金重點項目等10余項。
第 1章 數(shù)據(jù)科學的基礎理論 1
1.1 為什么要學習數(shù)據(jù)科學 1
1.2 數(shù)據(jù)科學的定義 4
1.3 數(shù)據(jù)科學的知識體系 6
1.4 數(shù)據(jù)科學的基本流程 8
1.5 數(shù)據(jù)科學與其他學科的區(qū)別 11
1.5.1 學科定位 11
1.5.2 研究視角 13
1.5.3 研究范式 13
1.6 數(shù)據(jù)科學的人才類型 16
1.7 數(shù)據(jù)科學的常用工具 19
1.8 數(shù)據(jù)科學的相關應用 21
1.9 繼續(xù)學習本章知識 23
習題 26
第 2章 統(tǒng)計學與模型 29
2.1 統(tǒng)計學與數(shù)據(jù)科學 29
2.1.1 描述統(tǒng)計與推斷統(tǒng)計 30
2.1.2 基本分析法和元分析法 31
2.2 統(tǒng)計方法的選擇思路 32
2.3 數(shù)據(jù)劃分及準備方法 33
2.3.1 自變量與因變量 34
2.3.2 數(shù)據(jù)抽樣 35
2.4 參數(shù)估計與假設檢驗 37
2.4.1 參數(shù)估計 37
2.4.2 假設檢驗 38
2.5 常用統(tǒng)計方法及選擇 39
2.5.1 相關分析 39
2.5.2 回歸分析 41
2.5.3 方差分析 41
2.5.4 分類分析 42
2.5.5 聚類分析 43
2.5.6 時間序列分析 44
2.5.7 關聯(lián)規(guī)則分析 44
2.6 統(tǒng)計學面臨的挑戰(zhàn) 45
2.7 Python編程實踐 45
2.8 繼續(xù)學習本章知識 53
習題 55
第3章 機器學習與算法 57
3.1 數(shù)據(jù)科學與機器學習 57
3.2 機器學習的應用步驟 60
3.3 數(shù)據(jù)劃分及準備方法 61
3.4 算法類型及選擇方法 62
3.5 模型的評估方法 64
3.6 機器學習面臨的挑戰(zhàn) 67
3.7 Python編程實踐 68
3.8 繼續(xù)學習本章知識 77
習題 79
第4章 數(shù)據(jù)可視化 81
4.1 數(shù)據(jù)科學與數(shù)據(jù)可視化 81
4.2 數(shù)據(jù)可視化的基本原則 84
4.3 視覺編碼與數(shù)據(jù)類型 84
4.4 可視分析學 87
4.5 常用統(tǒng)計圖表 89
4.6 數(shù)據(jù)可視化的發(fā)展趨勢 92
4.7 Python編程實踐 93
4.8 繼續(xù)學習本章知識 97
習題 98
第5章 數(shù)據(jù)加工 100
5.1 數(shù)據(jù)科學與數(shù)據(jù)加工 100
5.2 探索性數(shù)據(jù)分析 101
5.3 數(shù)據(jù)大小及標準化 103
5.4 缺失數(shù)據(jù)及其處理方法 104
5.5 噪聲數(shù)據(jù)及其處理方法 105
5.5.1 離群點處理 105
5.5.2 分箱處理 106
5.6 數(shù)據(jù)維度及其降維處理方法 108
5.6.1 特征選擇 109
5.6.2 主成分分析 110
5.7 數(shù)據(jù)脫敏及其處理方法 110
5.8 數(shù)據(jù)形態(tài)及其規(guī)整化方法 112
5.9 Python編程實踐 115
5.10 繼續(xù)學習本章知識 121
習題 122
第6章 大數(shù)據(jù)技術 124
6.1 數(shù)據(jù)科學與大數(shù)據(jù)技術 124
6.2 Hadoop生態(tài)系統(tǒng) 125
6.3 大數(shù)據(jù)計算技術與Spark 128
6.3.1 大數(shù)據(jù)計算與Lambda
架構 128
6.3.2 Spark的出現(xiàn)及其特點 129
6.3.3 Spark的計算流程 131
6.3.4 Spark的關鍵技術 132
6.4 大數(shù)據(jù)管理技術與MongoDB 136
6.4.1 關系數(shù)據(jù)庫及其優(yōu)缺點 136
6.4.2 NoSQL及其數(shù)據(jù)模型 139
6.4.3 CAP理論與BASE原則 140
6.4.4 分片技術與復制技術 141
6.4.5 MongoDB 144
6.5 大數(shù)據(jù)分析技術 150
6.5.1 Analytics 3.0 150
6.5.2 Gartner分析學價值扶梯模型 152
6.5.3 數(shù)據(jù)分析中的陷阱 152
6.6 Python編程實踐 154
6.7 繼續(xù)學習本章知識 165
習題 167
第7章 數(shù)據(jù)產品開發(fā)及數(shù)據(jù)科學中的人文與管理 171
7.1 數(shù)據(jù)產品開發(fā)及數(shù)據(jù)科學的人文與管理屬性 171
7.2 數(shù)據(jù)產品及開發(fā) 172
7.3 數(shù)據(jù)科學的項目管理 174
7.3.1 數(shù)據(jù)科學項目中的主要角色 174
7.3.2 數(shù)據(jù)科學項目中的主要活動 175
7.4 數(shù)據(jù)能力 176
7.4.1 關鍵過程域 177
7.4.2 成熟度等級 179
7.4.3 成熟度評價 181
7.5 數(shù)據(jù)治理 183
7.5.1 主要內容 183
7.5.2 基本過程 184
7.5.3 參考框架 185
7.6 數(shù)據(jù)安全 186
7.6.1 信息系統(tǒng)安全等級保護 186
7.6.2 P2DR模型 187
7.7 數(shù)據(jù)偏見 187
7.7.1 數(shù)據(jù)來源選擇偏見 188
7.7.2 數(shù)據(jù)加工和準備偏見 189
7.7.3 算法與模型選擇偏見 189
7.7.4 分析結果的解讀和呈現(xiàn)上的偏見 189
7.8 數(shù)據(jù)倫理與道德 190
7.9 繼續(xù)學習本章知識 191
習題 191
術語索引 193
參考文獻 198