大數(shù)據(jù)應(yīng)用與實訓(xùn)教程(新編21世紀高等職業(yè)教育精品教材·電子與信息類)
定 價:35 元
叢書名:新編21世紀高等職業(yè)教育精品教材·電子與信息類
- 作者:于曉荷 辛向麗
- 出版時間:2023/7/1
- ISBN:9787300318875
- 出 版 社:中國人民大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:148
- 紙張:
- 版次:1
- 開本:16
本書基于具有實用性和普適性的案例來編寫,將數(shù)據(jù)的收集、獲取、預(yù)處理、分析與可視化貫穿其中。根據(jù)當(dāng)前高職高專教學(xué)實際需要,結(jié)合企業(yè)實際需求,采用“理實結(jié)合”的思路,以“案例導(dǎo)入”的形式詳細介紹了大數(shù)據(jù)實訓(xùn)項目。包括使用requests 庫獲取天氣信息,然后通過JupyterNotebook進行分析處理;使用Scrapy 框架分頁獲取詩詞網(wǎng)站的信息,使用jieba 庫對詩詞的內(nèi)容進行分詞,然后在JupyterNotebook 中對文本數(shù)據(jù)進行處理;在Pycharm 中編寫代碼獲取店面信息,然后在JupyterNotebook 中對信息進行數(shù)據(jù)聚合與分組;使用requests 庫獲取頁面的HTML 標簽,使用XPath 路徑表達式獲取解析之后的首頁面的數(shù)據(jù)信息,再使用循環(huán)語句獲取所有頁面的數(shù)據(jù)信息。
于曉荷,北京政法職業(yè)學(xué)院信息媒體學(xué)院教師,主要講授的課程有《Python大數(shù)據(jù)分析及應(yīng)用》《Python技術(shù)基礎(chǔ)》、《靜態(tài)網(wǎng)頁設(shè)計與制作》等。主編或參編的教材有《Dreamweaver網(wǎng)頁設(shè)計案例教程》《網(wǎng)頁設(shè)計與制作Dreamweaver CS3》《辦公自動化案例教程》《ASP.NET動態(tài)網(wǎng)頁設(shè)計案例教程C#版》和《 NUKE影視后期合成技能》。多次帶領(lǐng)學(xué)生參加技能大賽獲得佳績,本人獲評國賽優(yōu)秀指導(dǎo)教師稱號。
項目一 大數(shù)據(jù)分析開發(fā)環(huán)境的搭建
知識鏈接
一、數(shù)據(jù)分析的概念
二、數(shù)據(jù)分析的應(yīng)用
三、數(shù)據(jù)分析的流程
四、數(shù)據(jù)分析前的準備
項目實施
一、Python 的下載及安裝
二、Pycharm 的下載及安裝
三、Anaconda 的下載及安裝
四、Jupyter Notebook 的使用
項目拓展
一、插件的安裝
二、常用的插件
項目二 Beautiful Soup 庫和Matplotlib 庫的使用
知識鏈接
一、Requests 庫
二、Beautiful Soup 庫
三、Pandas 庫的concat() 函數(shù)
四、數(shù)據(jù)的聚合與分組運算
五、Matplotlib 庫
六、bar() 函數(shù)
七、plot() 函數(shù)
項目實施
一、新建項目
二、安裝Requests 庫
三、使用Requests 庫獲取頁面HTML 標簽
四、使用Beautiful Soup 庫對頁面進行解析
五、將獲取的信息保存為csv 格式文件
六、在Jupyter 中處理數(shù)據(jù)并進行可視化分析
項目拓展
一、find_all() 方法速查表(見表2 - 2)
二、find() 方法速查表(見表2 - 3)
三、select() 方法速查表(見表2 - 4)
四、其他方法
五、HTML 速查表(見表2 - 6)
項目三 Scrapy 框架與Matplotlib 庫中bar 函數(shù)的使用
知識鏈接
一、Scrapy 框架
二、jieba 庫
三、Matplotlib 庫中pyplot 模塊的bar 函數(shù)
項目實施
一、創(chuàng)建Scrapy 項目
二、創(chuàng)建爬蟲文件
三、參數(shù)配置
四、編寫爬蟲文件,獲取第1 頁的20 條詩詞信息
五、分頁信息的獲取
六、爬取信息的保存
七、在Jupyter 中處理文本并進行可視化分析
項目拓展
一、創(chuàng)建Scrapy 項目和爬蟲文件
二、配置settings.py 文件
三、編寫items.py 文件
四、編寫pipelines.py 文件
五、編寫爬蟲文件
項目四 Selenium 庫和Matplotlib 庫的使用
知識鏈接
一、Selenium 庫
二、Selenium 庫的常用操作
三、Pandas 庫的sort_values() 函數(shù)
四、Matplotlib 庫的pie() 函數(shù)
五、使用loc 和iloc 進行索引
項目實施
一、新建項目
二、安裝Selenium 庫
三、下載Chrome 瀏覽器和瀏覽器驅(qū)動
四、使用Selenium 庫獲取第1 頁的文本信息
五、獲取前3 個頁面的頁面文本信息
六、將獲取的信息保存為csv 格式文件
七、在Jupyter 中處理數(shù)據(jù)并進行可視化分析
項目五 XPath 和Matplotlib 庫中barh 函數(shù)的使用
知識鏈接
一、lxml 庫
二、XPath
三、Xpath 的路徑表達式
四、Matplotlib 庫的barh() 函數(shù)
項目實施
一、新建項目
二、安裝lxml 庫和requests 庫
三、使用requests 庫獲取第一頁的HTML 標簽信息
四、用etree 模塊的HTML() 方法對獲取的標簽進行解析
五、使用XPath 提取解析后的HTML 中的文本信息
六、獲取所有頁面的信息
七、將獲取的信息保存為csv 格式文件
八、在Jupyter 中處理數(shù)據(jù)并進行可視化分析
項目六 pyecharts 庫的使用
知識鏈接 1
一、pyecharts 概述
二、柱狀圖的繪制
三、折線圖的繪制
四、餅圖和環(huán)形圖的繪制
五、多圖疊加
項目實施
一、使用柱狀圖可視化“平均每股收益(元)”和“平均每股凈資產(chǎn)(元)
二、 使用柱狀圖與折線圖對“營業(yè)收入(元)”“營業(yè)成本(元)”
“ 營業(yè)利潤(元)”進行數(shù)據(jù)可視化分析
三、使用餅圖可視化2018 至2021 年的毛利率
項目拓展
一、其他類型圖表的繪制
二、組合圖的創(chuàng)建