數(shù)據(jù)科學(xué)技術(shù)與應(yīng)用——基于Python實現(xiàn)(第2版)
定 價:39 元
- 作者:宋暉
- 出版時間:2021/7/1
- ISBN:9787121415159
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274;TP311.561
- 頁碼:196
- 紙張:
- 版次:01
- 開本:16開
本書內(nèi)容涵蓋數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)的基礎(chǔ)知識,圍繞數(shù)據(jù)科學(xué)的工作流程,詳細(xì)介紹了從數(shù)據(jù)中獲取知識的方法和技術(shù),包括數(shù)據(jù)采集、數(shù)據(jù)整理與探索、數(shù)據(jù)可視化和數(shù)據(jù)建模預(yù)測等。本書介紹了人工智能前沿領(lǐng)域中文本、圖像、語音、序列數(shù)據(jù)的主流分析處理方法,同時也闡述了基于大數(shù)據(jù)分布式計算框架處理海量數(shù)據(jù)的平臺和工具。全書設(shè)計收集了多個數(shù)據(jù)應(yīng)用案例,采用Python語言及相關(guān)科學(xué)計算工具包實現(xiàn)數(shù)據(jù)分析過程,幫助讀者通過實際案例培養(yǎng)數(shù)據(jù)思維,掌握數(shù)據(jù)分析的實踐技能,運(yùn)用統(tǒng)計學(xué)、人工智能等先進(jìn)技術(shù)解決實際問題。 本書通俗易懂、實例豐富、技術(shù)先進(jìn),配備豐富的教學(xué)資源,可作為各類高等院校數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)的入門教材,以及計算機(jī)基礎(chǔ)教學(xué)較高層次課程的教材,也可以作為數(shù)據(jù)科學(xué)實踐的技術(shù)參考書。
宋暉博士、教授,長期從事Web數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和智能信息處理方面的研究和教學(xué)工作,主持完成多項數(shù)據(jù)挖掘、智能分析和信息系統(tǒng)的研發(fā),在數(shù)據(jù)科學(xué)方向有深厚的理論基礎(chǔ)以及豐富的實踐經(jīng)驗。
目 錄
第1章 數(shù)據(jù)科學(xué)基礎(chǔ) (1)
1.1 數(shù)據(jù)科學(xué)概述 (1)
1.1.1 數(shù)據(jù)的力量 (1)
1.1.2 數(shù)據(jù)科學(xué)的知識結(jié)構(gòu) (2)
1.1.3 數(shù)據(jù)科學(xué)的工作流程 (4)
1.2 數(shù)據(jù)科學(xué)的關(guān)鍵技術(shù) (5)
1.2.1 數(shù)據(jù)采集 (5)
1.2.2 數(shù)據(jù)預(yù)處理 (7)
1.2.3 數(shù)據(jù)存儲與管理 (8)
1.2.4 數(shù)據(jù)分析 (9)
1.3 Python數(shù)據(jù)分析工具 (9)
1.3.1 科學(xué)計算集成環(huán)境 (9)
1.3.2 Python編譯環(huán)境 (10)
1.3.3 Jupyter Notebook (11)
1.4 Python語言基礎(chǔ) (12)
1.4.1 常用數(shù)據(jù)類型 (12)
1.4.2 流程控制 (14)
1.4.3 函數(shù)和方法庫 (16)
綜合練習(xí)題 (17)
第2章 多維數(shù)據(jù)結(jié)構(gòu)與運(yùn)算 (18)
2.1 多維數(shù)組對象 (18)
2.1.1 多維數(shù)組(張量) (18)
2.1.2 一維數(shù)組對象 (19)
2.1.3 二維數(shù)組對象 (21)
2.1.4 創(chuàng)建多維數(shù)組的常用函數(shù) (23)
2.2 多維數(shù)組運(yùn)算 (25)
2.2.1 基本算術(shù)運(yùn)算 (26)
2.2.2 函數(shù)和矩陣運(yùn)算 (27)
2.2.3 隨機(jī)數(shù)組生成函數(shù) (29)
2.3 案例:隨機(jī)游走軌跡模擬 (30)
綜合練習(xí)題 (33)
第3章 數(shù)據(jù)匯總與統(tǒng)計 (34)
3.1 統(tǒng)計的基本概念 (34)
3.1.1 統(tǒng)計的含義 (34)
3.1.2 常用統(tǒng)計量 (35)
3.2 pandas數(shù)據(jù)結(jié)構(gòu) (37)
3.2.1 Series對象 (37)
3.2.2 Series對象的數(shù)據(jù)訪問 (38)
3.2.3 DataFrame對象 (40)
3.2.4 DataFrame對象的數(shù)據(jù)訪問 (41)
3.3 數(shù)據(jù)文件的讀/寫 (45)
3.3.1 讀/寫CSV文件和TXT文件 (45)
3.3.2 讀取Excel文件 (48)
3.4 數(shù)據(jù)清洗 (49)
3.4.1 缺失數(shù)據(jù)處理 (49)
3.4.2 去除重復(fù)數(shù)據(jù) (52)
3.5 數(shù)據(jù)規(guī)整化 (52)
3.5.1 數(shù)據(jù)合并 (52)
3.5.2 數(shù)據(jù)排序 (55)
3.6 統(tǒng)計分析 (56)
3.6.1 通用函數(shù)與運(yùn)算 (57)
3.6.2 統(tǒng)計函數(shù) (57)
3.6.3 相關(guān)性分析 (60)
3.6.4 案例:問卷調(diào)查反饋表分析 (60)
綜合練習(xí)題 (63)
第4章 數(shù)據(jù)可視化 (64)
4.1 Python繪圖基礎(chǔ) (64)
4.1.1 認(rèn)識基本圖形 (64)
4.1.2 pandas快速繪圖 (64)
4.1.3 Matplotlib精細(xì)繪圖 (66)
4.2 可視化數(shù)據(jù)探索 (71)
4.2.1 繪制常用圖形 (71)
4.2.2 使用pyecharts繪制交互數(shù)據(jù)圖 (81)
綜合練習(xí)題 (85)
第5章 機(jī)器學(xué)習(xí)建模分析 (88)
5.1 機(jī)器學(xué)習(xí)概述 (88)
5.1.1 機(jī)器學(xué)習(xí)與人工智能 (88)
5.1.2 Python機(jī)器學(xué)習(xí)方法庫 (90)
5.2 回歸分析 (90)
5.2.1 回歸分析原理 (90)
5.2.2 回歸分析實現(xiàn) (91)
5.2.3 回歸分析性能評估 (94)
5.3 分類分析 (96)
5.3.1 分類學(xué)習(xí)原理 (96)
5.3.2 決策樹 (98)
5.3.3 支持向量機(jī) (102)
5.4 聚類分析 (106)
5.4.1 聚類任務(wù) (106)
5.4.2 K-means算法 (107)
5.4.3 聚類方法的性能評估 (110)
5.5 數(shù)據(jù)降維 (112)
5.5.1 降維分析方法 (112)
5.5.2 主成分分析 (113)
5.6 集成學(xué)習(xí) (115)
5.6.1 隨機(jī)森林算法的基本原理 (116)
5.6.2 梯度提升機(jī)算法的基本原理 (116)
5.6.3 集成學(xué)習(xí)建模分析 (117)
綜合練習(xí)題 (119)
第6章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)建模分析 (120)
6.1 神經(jīng)網(wǎng)絡(luò)概述 (120)
6.1.1 神經(jīng)元與感知器 (120)
6.1.2 神經(jīng)網(wǎng)絡(luò)模型 (121)
6.1.3 神經(jīng)網(wǎng)絡(luò)分類實現(xiàn) (122)
6.2 深度學(xué)習(xí) (125)
6.2.1 深度學(xué)習(xí)的基本原理 (125)
6.2.2 深度學(xué)習(xí)框架Keras (126)
6.2.3 深度學(xué)習(xí)建模分析實例 (128)
綜合練習(xí)題 (130)
第7章 文本數(shù)據(jù)處理 (131)
7.1 文本處理概述 (131)
7.1.1 文本處理的常見任務(wù) (131)
7.1.2 文本處理的基本步驟 (132)
7.2 中文文本處理 (134)
7.2.1 中文分詞 (134)
7.2.2 詞性標(biāo)注 (135)
7.2.3 特征提取 (136)
7.3 實例:垃圾郵件的識別 (140)
7.3.1 數(shù)據(jù)來源 (140)
7.3.2 基于詞袋模型識別垃圾郵件 (141)
7.3.3 基于詞向量模型識別垃圾郵件 (143)
綜合練習(xí)題 (146)
第8章 圖像數(shù)據(jù)處理 (147)
8.1 數(shù)字圖像概述 (147)
8.1.1 數(shù)字圖像 (147)
8.1.2 數(shù)字圖像類型 (147)
8.1.3 數(shù)字圖像處理 (148)
8.2 Python圖像處理 (149)
8.2.1 Python圖像處理庫 (149)
8.2.2 圖像的基本操作 (150)
8.3 案例:深度學(xué)習(xí)實現(xiàn)圖像分類 (152)
8.3.1 卷積神經(jīng)網(wǎng)絡(luò) (152)
8.3.2 基于Keras實現(xiàn)圖像分類 (153)
綜合練習(xí)題 (157)
第9章 時序數(shù)據(jù)與語音處理 (158)
9.1 時序數(shù)據(jù)概述 (158)
9.1.1 時序數(shù)據(jù)特性 (158)
9.1.2 時序數(shù)據(jù)特征的提取 (159)
9.2 時序數(shù)據(jù)分析方法 (161)
9.2.1 時序數(shù)據(jù)分析過程 (161)
9.2.2 溫度預(yù)測實例 (162)
9.3 語音識別技術(shù) (166)
9.3.1 語音識別技術(shù)簡介 (166)
9.3.2 語音識別中的時序數(shù)據(jù)處理 (167)
9.3.3 在線語音識別實例 (169)
綜合練習(xí)題 (171)
第10章 大數(shù)據(jù)技術(shù) (172)
10.1 大數(shù)據(jù)概述 (172)
10.1.1 大數(shù)據(jù)的特點(diǎn) (172)
10.1.2 大數(shù)據(jù)技術(shù) (174)
10.1.3 大數(shù)據(jù)基礎(chǔ)設(shè)施 (175)
10.2 分布式計算框架 (177)
10.2.1 Hadoop概述 (178)
10.2.2 MapReduce分布式計算 (180)
10.2.3 Spark分布式計算 (182)
10.2.4 Spark分布式計算 (183)
10.3 分布式建模分析工具 (185)
10.3.1 Hadoop Mahout (185)
10.3.2 Spark MLlib (186)
10.3.3 Spark MLlib建模分析 (187)
綜合練習(xí)題 (188)
參考資料 (189)