Python數(shù)據(jù)分析——從獲取到可視化
定 價(jià):59.8 元
- 作者:肖睿 馬經(jīng)權(quán) 周華樂(lè) 王海軍
- 出版時(shí)間:2022/1/1
- ISBN:9787115563651
- 出 版 社:人民郵電出版社
- 中圖法分類(lèi):TP311.56
- 頁(yè)碼:218
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,從浩瀚的網(wǎng)絡(luò)世界中獲取數(shù)據(jù)并加以處理,從中提取有用的信息越發(fā)重要,本書(shū)就帶領(lǐng)讀者學(xué)習(xí)如何獲取數(shù)據(jù)并以合適的方式呈現(xiàn)數(shù)據(jù)。全書(shū)分為4個(gè)部分。
第1部分,即第1~第5章,主要介紹數(shù)據(jù)的采集,從數(shù)據(jù)采集的意義和基本概念開(kāi)始,介紹依次介紹Python工具庫(kù)、Scrapy第三方框架、如何采集數(shù)據(jù),以及如何通過(guò)Selenium采集動(dòng)態(tài)頁(yè)面和手機(jī)APP數(shù)據(jù)采集;第2部分即第6章,主要介紹4種常用的數(shù)據(jù)分析方法;第3部分,即第7~第9章,主要通過(guò)3種可視化工具介紹數(shù)據(jù)可視化;第4部分即第10章,介紹一個(gè)完整的實(shí)戰(zhàn)訓(xùn)練項(xiàng)目,幫助讀者系統(tǒng)地梳理數(shù)據(jù)采集、分析、可視化的整體過(guò)程,鞏固理論知識(shí),增加實(shí)戰(zhàn)經(jīng)驗(yàn)。
本書(shū)的讀者應(yīng)具備使用Python語(yǔ)言編程地基本能力。本書(shū)可以作為各大院校人工智能、大數(shù)據(jù)相關(guān)專(zhuān)業(yè)地教材,也可以作為培訓(xùn)機(jī)構(gòu)地教材,并適合數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化相關(guān)從業(yè)者自學(xué)參考。
1.以操作實(shí)踐為學(xué)習(xí)的切入點(diǎn),而不是直接切入理論講解;
2.以任務(wù)為驅(qū)動(dòng),貫穿知識(shí)內(nèi)容;
3.充分考慮學(xué)習(xí)者的認(rèn)知曲線,由淺入深,邊講邊練邊切入理論知識(shí);
4.通過(guò)項(xiàng)目實(shí)訓(xùn)訓(xùn)練技能的綜合使用能力。
肖睿,課工場(chǎng)創(chuàng)始人,北京大學(xué)教育學(xué)博士,北京大學(xué)軟件學(xué)院特約講師,北京大學(xué)學(xué)習(xí)科學(xué)實(shí)驗(yàn)室特約顧問(wèn)。作為北大青鳥(niǎo) Aptech 的聯(lián)合創(chuàng)始人,歷任學(xué)術(shù)總監(jiān)、研究院院長(zhǎng)、公司副總裁等核心崗位,擁有20多年的IT職業(yè)教育產(chǎn)品管理和企業(yè)管理經(jīng)驗(yàn)。于2015年創(chuàng)辦課工場(chǎng),兼任總經(jīng)理,旨在為大學(xué)生提供更可靠的 IT 就業(yè)教育及服務(wù)。
第 1章 互聯(lián)網(wǎng)信息采集. 1
任務(wù)1.1 了解數(shù)據(jù)采集基礎(chǔ)知識(shí)2
1.1.1 數(shù)據(jù)采集的目的和分類(lèi) 2
1.1.2 數(shù)據(jù)采集需要注意的問(wèn)題 3
1.1.3 數(shù)據(jù)采集要點(diǎn)3
1.1.4 企業(yè)進(jìn)行數(shù)據(jù)采集的原因3
任務(wù)1.2 理解數(shù)據(jù)采集基本術(shù)語(yǔ)的概念 4
1.2.1 網(wǎng)絡(luò)爬取 4
1.2.2 HTTP的概念 4
1.2.3 HTTPS的概念 10
1.2.4 URL的概念 11
1.2.5 HTML的概念 12
1.2.6 JSON的概念 13
任務(wù)1.3 使用Python工具庫(kù)實(shí)現(xiàn)數(shù)據(jù)采集 14
1.3.1 urllib3 14
1.3.2 Requests 18
1.3.3 Python工具庫(kù)數(shù)據(jù)采集實(shí)訓(xùn) 21
本章小結(jié) 22
本章習(xí)題 22
第 2章 Scrapy采集框架 23
任務(wù)2.1 掌握Scrapy技術(shù)架構(gòu) 24
2.1.1 什么是Scrapy . 24
2.1.2 為什么選用Scrapy 24
2.1.3 Scrapy整體架構(gòu) 25
2.1.4 Scrapy的安裝方式 26
任務(wù)2.2 采集圖書(shū)明細(xì)數(shù)據(jù) 26
2.2.1 Scrapy常用命令 27
前言
Python 數(shù)據(jù)分析——從獲取到可視化
2
2.2.2 創(chuàng)建并啟動(dòng)爬蟲(chóng)項(xiàng)目. 27
2.2.3 實(shí)訓(xùn)案例:使用Scrapy實(shí)現(xiàn)圖書(shū)信息采集 31
任務(wù)2.3 使用Scrapy Shell解析博客網(wǎng)頁(yè) 36
2.3.1 使用Scrapy Shell 36
2.3.2 實(shí)訓(xùn)案例:解析某博客文章網(wǎng)頁(yè)的內(nèi)容 36
本章小結(jié) 38
本章習(xí)題 39
第3章 Scrapy采集框架進(jìn)階 41
任務(wù)3.1 采集前程無(wú)憂網(wǎng)站招聘職位信息 42
3.1.1 Scrapy中的Response對(duì)象 42
3.1.2 Scrapy中的Request對(duì)象 44
3.1.3 XPath選擇器 45
3.1.4 網(wǎng)頁(yè)翻頁(yè)爬取. 47
3.1.5 不同頁(yè)面數(shù)據(jù)采集 49
3.1.6 Item封裝數(shù)據(jù) 50
3.1.7 Request與Response之間傳遞參數(shù)的方法 51
3.1.8 Item Pipeline 53
3.1.9 實(shí)訓(xùn)案例:采集前程無(wú)憂網(wǎng)站招聘職位信息 55
任務(wù)3.2 采集中國(guó)人民大學(xué)出版社圖書(shū)列表 62
3.2.1 JSON結(jié)構(gòu) 62
3.2.2 實(shí)訓(xùn)案例:采集中國(guó)人民大學(xué)出版社圖書(shū)列表 63
本章小結(jié) 66
本章習(xí)題 66
第4章 使用“Selenium+Chrome Driver”采集動(dòng)態(tài)頁(yè)面. 69
任務(wù)4.1 使用“Selenium+ChromeDriver”采集我愛(ài)我家網(wǎng)房源信息. 70
4.1.1 動(dòng)態(tài)頁(yè)面工作流程以及常用動(dòng)態(tài)頁(yè)面采集方式 70
4.1.2 Selenium工具及其安裝 71
4.1.3 安裝ChromeDriver . 72
4.1.4 Selenium WebDriver概念及其工作流程 73
4.1.5 Selenium WebDriver常用操作 74
4.1.6 Selenium WebDriver常用定位元素的方法 74
4.1.7 Selenium WebDriver鼠標(biāo)事件 76
4.1.8 Chrome無(wú)界面模式 77
4.1.9 Selenium延時(shí)等待的方式 77
4.1.10 實(shí)訓(xùn)案例:采集我愛(ài)我家網(wǎng)“房山”的房源信息. 78
任務(wù)4.2 使用“Scrapy+Selenium+ChromeDriver”采集鏈家網(wǎng)房源信息 81
4.2.1 Scrapy框架與Selenium工具結(jié)合使用采集動(dòng)態(tài)頁(yè)面的過(guò)程. 82
4.2.2 實(shí)訓(xùn)案例:采集鏈家網(wǎng)房源信息 82
本章小結(jié) 87
本章習(xí)題 87
第5章 App數(shù)據(jù)采集. 89
任務(wù)5.1 用Scrapy框架采集檸檬兼職App首頁(yè)熱門(mén)推薦兼職信息 . 90
5.1.1 App數(shù)據(jù)爬取 . 90
5.1.2 用Charles工具監(jiān)聽(tīng)網(wǎng)絡(luò)請(qǐng)求. 92
5.1.3 用Charles工具監(jiān)聽(tīng)App 95
5.1.4 用Scrapy框架采集App數(shù)據(jù). 97
5.1.5 實(shí)訓(xùn)案例:采集檸檬兼職App首頁(yè)熱門(mén)推薦兼職信息 . 98
任務(wù)5.2 用Scrapy框架采集中華英才網(wǎng)App的企業(yè)庫(kù)信息. 100
5.2.1 HTTPS簡(jiǎn)介 101
5.2.2 用Charles工具監(jiān)聽(tīng)HTTPS網(wǎng)絡(luò)請(qǐng)求. 101
5.2.3 客戶端、Charles、服務(wù)器之間的HTTPS請(qǐng)求流程 104
5.2.4 用Scrapy框架爬取使用HTTPS通信協(xié)議的App數(shù)據(jù) 105
5.2.5 實(shí)訓(xùn)案例:采集中華英才網(wǎng)App的企業(yè)庫(kù)信息. 106
本章小結(jié) 108
本章習(xí)題 108
第6章 使用Python進(jìn)行數(shù)據(jù)分析 .109
任務(wù)6.1 了解數(shù)據(jù)分析的目的.110
6.1.1 數(shù)據(jù)分析概述110
6.1.2 數(shù)據(jù)分析的目的110
任務(wù)6.2 使用方差分析方法分析不同藥物對(duì)某病毒是否有影響 111
6.2.1 方差分析方法基本概念、術(shù)語(yǔ)、假定.111
6.2.2 單因素方差分析112
6.2.3 多因素方差分析115
任務(wù)6.3 使用回歸分析方法分析某病毒是否與溫度、濕度呈線性關(guān)系.117
6.3.1 回歸分析方法基本概念、作用 117
6.3.2 線性回歸分析118
6.3.3 邏輯回歸分析 120
任務(wù)6.4 使用判別分析方法預(yù)測(cè)某病毒在一定的溫度、濕度下是否可以存活 122
6.4.1 判別分析方法基本概念. 122
6.4.2 Fisher判別法 123
6.4.3 貝葉斯判別法. 124
任務(wù)6.5:使用聚類(lèi)分析方法分析某病毒與溫度、濕度的關(guān)系 . 125
6.5.1 聚類(lèi)分析方法基本概念. 125
6.5.2 k均值聚類(lèi)算法. 126
6.5.3 層次聚類(lèi)算法. 127
本章小結(jié) 129
本章習(xí)題 129
第7章 Matplotlib數(shù)據(jù)可視化131
任務(wù)7.1 使用Matplotlib繪制招聘職位數(shù)量關(guān)系的線圖與散點(diǎn)圖 132
7.1.1 進(jìn)行可視化的原因 132
7.1.2 Matplotlib的安裝方式 133
7.1.3 Matplotlib的核心原理 134
7.1.4 使用Matplotlib繪制招聘職位數(shù)量關(guān)系的線圖 . 135
7.1.5 使用Matplotlib繪制房?jī)r(jià)與房屋面積關(guān)系的散點(diǎn)圖 140
任務(wù)7.2 使用Matplotlib繪制不同季度不同產(chǎn)品銷(xiāo)售額關(guān)系的柱狀圖與餅狀圖. 144
7.2.1 使用Matplotlib繪制不同季度不同產(chǎn)品銷(xiāo)售額關(guān)系的柱狀圖 144
7.2.2 使用Matplotlib繪制不同季度單個(gè)產(chǎn)品銷(xiāo)售額關(guān)系的餅狀圖 149
本章小結(jié) 150
本章習(xí)題 150
第8章 PyEcharts數(shù)據(jù)可視化.151
任務(wù)8.1 使用PyEcharts繪制人數(shù)分布圖 152
8.1.1 PyEcharts可視化工具及其安裝方式 . 152
8.1.2 PyEcharts可視化工具常用基礎(chǔ)知識(shí) . 153
8.1.3 使用PyEcharts繪制某疾病確診人數(shù)分布柱狀圖 154
8.1.4 使用PyEcharts繪制某疾病確診人數(shù)比例餅狀圖 157
8.1.5 使用PyEcharts繪制某疾病確診人數(shù)所占比例關(guān)系柱狀圖和線圖. 159
8.1.6 使用PyEcharts繪制某疾病確診人數(shù)分布地圖 162
任務(wù)8.2 使用PyEcharts繪制需求關(guān)系圖 163
8.2.1 使用PyEcharts中的詞云表示招聘網(wǎng)站中招聘方對(duì)崗位需求的關(guān)注點(diǎn). 163
8.2.2 使用PyEcharts繪制對(duì)求職者不同能力需求程度的雷達(dá)圖. 167
本章小結(jié) 169
本章習(xí)題 169
第9章 Bokeh數(shù)據(jù)可視化.171
任務(wù)9.1 使用Bokeh可視化工具以折線圖的方式展示信息. 172
9.1.1 Bokeh可視化工具及其安裝方式. 172
9.1.2 使用Bokeh可視化工具繪圖的步驟 . 173
9.1.3 Bokeh可視化工具的常用基礎(chǔ)知識(shí) . 174
9.1.4 實(shí)訓(xùn)案例:繪制2013年~2020年全國(guó)司法案件數(shù)量變化折線圖 . 181
任務(wù)9.2 使用Bokeh可視化工具以分組柱狀圖的方式展示信息 184
9.2.1 Bokeh可視化工具數(shù)據(jù)交互的方式 . 184
9.2.2 Bokeh可視化工具中的基礎(chǔ)柱狀圖 . 187
9.2.3 實(shí)訓(xùn)案例:繪制2017年~2020年全國(guó)司法案件數(shù)量分布的柱狀圖 . 188
任務(wù)9.3 使用Bokeh可視化工具以餅狀圖的方式展示信息. 191
9.3.1 使用Bokeh可視化工具中面板及選項(xiàng)卡工具進(jìn)行數(shù)據(jù)交互的方法. 191
9.3.2 實(shí)訓(xùn)案例:繪制2019年及2020年全國(guó)各類(lèi)司法案件分布餅狀圖 . 192
本章小結(jié) 194
本章習(xí)題 195
第 10章 項(xiàng)目實(shí)戰(zhàn)——房多多網(wǎng)站數(shù)據(jù)獲取與可視化 197
任務(wù)10.1 采集房多多網(wǎng)站信息 198
任務(wù)10.2 通過(guò)數(shù)據(jù)分析方法分析網(wǎng)站源數(shù)據(jù) 209
10.2.1 通過(guò)方差分析方法分析朝向、區(qū)域是否對(duì)上海房?jī)r(jià)有顯著影響 . 209
10.2.2 通過(guò)回歸分析方法分析上海房?jī)r(jià)與房屋面積的關(guān)系. 210
任務(wù)10.3 使用Bokeh工具進(jìn)行網(wǎng)站源數(shù)據(jù)可視化 212
10.3.1 繪制2020年上海市二手房每日房源新增數(shù)量變的折線圖. 213
10.3.2 繪制2020年上海市房源發(fā)布數(shù)量大于100的地區(qū)分布柱狀圖. 216
10.3.3 使用Bokeh工具繪制2020年、2019年上海市各地區(qū)二手房房源發(fā)布
數(shù)據(jù)分布情況的餅狀圖 217