Python數(shù)據(jù)科學(xué)實戰(zhàn)
定 價:178 元
叢書名:人工智能與大數(shù)據(jù)系列
- 作者:(美)Nathan George(內(nèi)森?喬治)
- 出版時間:2023/7/1
- ISBN:9787121459429
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:548
- 紙張:
- 版次:01
- 開本:16開
數(shù)據(jù)科學(xué)如今已經(jīng)深入到我們生活中的各個領(lǐng)域,行業(yè)從業(yè)者都應(yīng)該懂得一些數(shù)據(jù)科學(xué)的知識。那么如何能夠快速掌握這門流行的技術(shù)呢?通過系統(tǒng)地學(xué)習(xí)本書和動手實踐,可以滿足這個需求。本書共六個部分,用通俗的語言和生動的例子為讀者展現(xiàn)數(shù)據(jù)科學(xué)的魅力。第一部分介紹了數(shù)據(jù)科學(xué)的基本知識,讓讀者可以輕松了解它的流程與原理。第二部分,通過幾個例子為讀者介紹如何處理各種數(shù)據(jù),從電子表格到網(wǎng)絡(luò)抓取,涵蓋了工作中的常用數(shù)據(jù)處理方法。第三部分,使用通俗易懂的語言為讀者介紹數(shù)據(jù)科學(xué)中使用到的統(tǒng)計學(xué)知識。第四部分,通過示例介紹機(jī)器學(xué)習(xí)技術(shù),讓讀者可以根據(jù)以往的數(shù)據(jù)對未來進(jìn)行預(yù)測。在本書的后兩部分,為讀者介紹如何對文本進(jìn)行分析及制作生動的報告,并討論了數(shù)據(jù)科學(xué)的未來發(fā)展趨勢。
Nathan George在科羅拉多州丹佛市的里吉斯大學(xué)(Regis University)擔(dān)任教授并講授了4年的數(shù)據(jù)科學(xué)課程。他擁有化學(xué)工程、LED照明用熒光粉和薄膜太陽能電池方面的相關(guān)背景,并利用所學(xué)知識成為一名數(shù)據(jù)科學(xué)家。他為Regis、DataCamp和ManningliveProject創(chuàng)建了許多數(shù)據(jù)科學(xué)課程。Nathan還為在Udacity學(xué)習(xí)人工智能和機(jī)器學(xué)習(xí)的學(xué)生提供指導(dǎo)。他目前在瑞典斯德哥爾摩的一家金融科技公司Tink擔(dān)任數(shù)據(jù)科學(xué)家。
殷海英,從2013年底開始在美國大學(xué)作為客座教授,主持?jǐn)?shù)據(jù)分析與數(shù)據(jù)科學(xué)項目的研究生研修班,截止2021年已經(jīng)開辦近20期,培訓(xùn)來自世界多個國家的數(shù)百名碩士(含博士)研究生。并獨立編寫數(shù)據(jù)分析與數(shù)據(jù)科學(xué)教材,并設(shè)計多版實訓(xùn)教程。在甲骨文公司,作為亞太區(qū)的數(shù)據(jù)科學(xué)家參與Oracle數(shù)據(jù)科學(xué)產(chǎn)品的研發(fā)與推廣。近期的主要研究方向為機(jī)器視覺與高性能運算在現(xiàn)實當(dāng)中的應(yīng)用。作為甲骨文公司官方媒體的管理員及編輯,從2016年起編寫并發(fā)表近100篇技術(shù)文章,涵蓋數(shù)據(jù)庫技術(shù)、數(shù)據(jù)科學(xué)以及機(jī)器視覺等方面。
第1部分 簡介和基礎(chǔ)知識
第1章 數(shù)據(jù)科學(xué)簡介 2
數(shù)據(jù)科學(xué)的起源 2
頂級數(shù)據(jù)科學(xué)工具和技能 5
GUI和平臺 9
云端工具 10
統(tǒng)計方法和數(shù)學(xué) 12
數(shù)據(jù)的收集、組織和準(zhǔn)備 12
軟件開發(fā) 13
業(yè)務(wù)理解與溝通 13
數(shù)據(jù)科學(xué)及相關(guān)專業(yè) 13
選擇如何專業(yè)化 16
數(shù)據(jù)科學(xué)項目方法論 18
進(jìn)一步閱讀數(shù)據(jù)科學(xué)項目管理策略 20
本章測試 21
本章小結(jié) 21
第2章 Python入門 23
使用Anaconda安裝并使用Python 23
運行Python代碼 25
為什么使用命令行 31
安裝并使用代碼文本編輯器—VS Code 33
安裝Python包和創(chuàng)建虛擬環(huán)境 35
Python基礎(chǔ) 38
列表、元組、集合和字典 45
循環(huán)和遍歷 49
布爾值和條件 51
包和模塊 53
函數(shù) 55
類 57
多線程和多進(jìn)程 58
軟件工程最佳實踐 59
開發(fā)技巧 62
本章測試 64
本章小結(jié) 64
第2部分 處理數(shù)據(jù)
第3章 Python中的SQL和內(nèi)置文件處理模塊 67
本章主要內(nèi)容 67
使用基礎(chǔ)Python加載、讀取和寫入文件 67
在Python中使用SQLAlchemy包 85
本章測試 87
本章小結(jié) 88
第4章 使用Pandas和NumPy加載和整理數(shù)據(jù) 89
對iTunes數(shù)據(jù)進(jìn)行整理和分析 89
使用Pandas進(jìn)行探索性數(shù)據(jù)分析(EDA)和基本數(shù)據(jù)清理 94
清洗數(shù)據(jù) 104
使用GroupBy 115
將DataFrame寫入磁盤 116
分析比特幣價格數(shù)據(jù) 117
了解NumPy基礎(chǔ)知識 119
本章測試 122
本章小結(jié) 122
第5章 探索性數(shù)據(jù)分析和可視化 123
Python中的EDA和可視化庫 123
使用Seaborn和pandas執(zhí)行EDA 124
使用Python EDA包 140
使用可視化最佳實踐 148
為共享及報告保存繪圖 157
使用Plotly進(jìn)行繪圖 158
本章測試 161
本章小結(jié) 161
第6章 數(shù)據(jù)處理文檔和電子表格 163
解析和處理Word和PDF文檔 163
使用Excel文件讀取和寫入數(shù)據(jù) 176
分析數(shù)據(jù) 181
使用openpyxl處理Excel文件 182
本章測試 184
本章小結(jié) 184
第7章 網(wǎng)頁抓取 186
了解互聯(lián)網(wǎng)的結(jié)構(gòu) 187
執(zhí)行簡單的網(wǎng)頁抓取 189
從抓取的頁面中解析HTML 196
使用XPath、lxml和bs4從網(wǎng)頁中提取數(shù)據(jù) 199
從多個頁面收集數(shù)據(jù) 203
使用API收集數(shù)據(jù) 205
使用API包裝器 207
網(wǎng)絡(luò)抓取的道德規(guī)范及合法性 212
本章測試 213
本章小結(jié) 214
第3部分 數(shù)據(jù)科學(xué)中的統(tǒng)計學(xué)
第8章 概率、分布和抽樣 216
概率基礎(chǔ) 216
分布 223
從數(shù)據(jù)中采樣 234
本章測試 237
本章小結(jié) 238
第9章 數(shù)據(jù)科學(xué)的統(tǒng)計檢驗 239
統(tǒng)計檢驗基礎(chǔ)和樣本比較檢驗 239
其他統(tǒng)計檢驗 248
本章測驗 251
本章小結(jié) 251
第4部分 機(jī)器學(xué)習(xí)
第10章 為機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù):特征選擇、特征工程和降維 253
機(jī)器學(xué)習(xí)的類型 253
特征選擇 255
單變量統(tǒng)計特征選擇 260
特征工程 270
數(shù)據(jù)的清洗和準(zhǔn)備 271
轉(zhuǎn)換數(shù)值數(shù)據(jù) 277
提取日期時間特征 281
分箱(Binning) 282
熱獨編碼和標(biāo)簽編碼 283
降維 287
本章測試 291
本章小結(jié) 292
第11章 機(jī)器學(xué)習(xí)分類 293
機(jī)器學(xué)習(xí)分類算法 293
邏輯回歸的工作原理 297
使用sklearn檢查特征的重要性 299
使用統(tǒng)計模型進(jìn)行邏輯回歸 301
最大似然估計、優(yōu)化器和邏輯回歸算法 304
正則化 307
超參數(shù)和交叉驗證 308
大數(shù)據(jù)的邏輯回歸(和其他模型) 310
用于二元分類的樸素貝葉斯 311
k-最近鄰(KNN) 313
多類分類 315
選擇正確的模型 319
“沒有免費的午餐”定理 319
模型的計算復(fù)雜度 320
本章測試 321
本章小結(jié) 321
第12章 評估機(jī)器學(xué)習(xí)分類模型和分類抽樣 322
使用指標(biāo)評估分類算法的性能 322
采樣和平衡分類數(shù)據(jù) 339
本章測試 344
本章小結(jié) 344
第13章 帶有回歸的機(jī)器學(xué)習(xí) 345
線性回歸 345
評估回歸模型 354
線性回歸假設(shè) 358
大數(shù)據(jù)回歸模型 362
預(yù)測 363
本章測試 366
本章小結(jié) 366
第14章 優(yōu)化模型和使用AutoML 368
使用搜索方法進(jìn)行超參數(shù)優(yōu)化 368
使用ML模型優(yōu)化特征數(shù)量 377
使用PyCaret進(jìn)行AutoML 378
本章測試 384
本章小結(jié) 384
第15章 基于樹的機(jī)器學(xué)習(xí)模型 385
決策樹 385
隨機(jī)森林 390
基于樹的方法的特征重要性 395
增強樹模型:AdaBoost、XGboost、LightGBM和CatBoost 397
在GPU上訓(xùn)練增強模型 404
LightGBM 405
CatBoost 408
使用提前停止的算法 410
本章測試 411
本章小結(jié) 411
第16章 支持向量機(jī)(SVM)機(jī)器學(xué)習(xí)模型 413
SVM是如何工作的 414
使用SVM 416
本章測試 421
本章小結(jié) 421
第5部分 文本分析和報告
第17章 使用機(jī)器學(xué)習(xí)進(jìn)行聚類 423
使用k-means聚類 423
聚類指標(biāo) 424
優(yōu)化k-means中的K 425
檢查聚類 429
層次聚類 433
DBSCAN 436
其他無監(jiān)督方法 438
本章測試 439
本章小結(jié) 439
第18章 處理文本 441
文本預(yù)處理 441
基本的文本分析 453
無監(jiān)督學(xué)習(xí) 463
監(jiān)督學(xué)習(xí) 467
本章測試 474
本章小結(jié) 474
第6部分 總結(jié)
第19章 講述數(shù)據(jù)故事和自動報告及儀表板 477
用數(shù)據(jù)講故事 477
自動報告和儀表板 484
本章測試 491
本章小結(jié) 491
第20章 道德與隱私 492
機(jī)器學(xué)習(xí)算法的道德 492
偏見 492
數(shù)據(jù)隱私 495
將數(shù)據(jù)科學(xué)用于公共利益 501
其他道德考慮 502
本章測試 504
本章小結(jié) 504
第21章 數(shù)據(jù)科學(xué)的發(fā)展與未來 506
博客、newsletter、書籍和學(xué)術(shù)資源 506
在線學(xué)習(xí)平臺 510
云服務(wù) 511
其他值得關(guān)注的內(nèi)容 511
保持與時俱進(jìn)的策略 512
其他沒有在本書中涉及的內(nèi)容 512
數(shù)據(jù)科學(xué)的未來發(fā)展 514
本章小結(jié) 515