大數據時代下,以信息技術為支撐的數據分析與研究方法正深刻地改變著傳統(tǒng)科學探索的工作方式,成為人類科技發(fā)展與知識獲取的一種新興模式。為了使堆積如山的數據能更好地被人們利用,需要對數據進行有意義的處理。大數據時代對人類的數據駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。因此,尋求有效的數據處理技術和方法已經成為現實的迫切需求。
本書的寫作目的是使讀者了解數據分析的基礎理論,掌握運用Python進行科學計算、數據處理、分析和可視化的方法,具備處理和解決大量數據問題的能力。全書共分為9章,如表01所示。
表01全書知識體系
知 識 體 系章節(jié)
基礎知識
第1章 數據分析簡介
第2章 數據分析的方法
第3章 NumPy和pandas基礎
數據分析技術
第4章 數據獲取與導入
第5章 數據預處理
第6章 數據探索
第7章 數據挖掘概述
數據可視化
第8章 基本統(tǒng)計圖形
第9章 文本、網絡和地理空間可視化
1. 基礎知識
第1章數據分析簡介,介紹數據、數據分析等基本概念以及數據分析的作用、步驟和常用工具等;第2章介紹數據分析方法;第3章是Python中常用的NumPy和pandas數據分析包。
2. 數據分析技術
第4~7章以Python為基礎介紹數據的主要分析技術。第4章主要介紹數據獲取、網絡爬蟲以及不同種類文件的導入、導出方式;第5章介紹數據預處理的主要步驟和相關方法,包括數據清洗、數據集成、數據規(guī)約和數據變換等;第6章闡述數據探索的主要方法,包括基本描述性統(tǒng)計、分組與聚合分析、參數估計、假設檢驗和相關性分析等;第7章介紹數據挖掘的概念、問題與任務,以及從基礎知識、代表性算法、評估分析等方面,重點介紹了數據挖掘常用的分析方法,包括分類分析、關聯(lián)分析和聚類分析。
3. 數據可視化
第8章介紹了基于Python的三種常用繪圖包,分別是Matplotlib、pandas和Seaborn,可繪制的圖形類型包括線圖、直方圖、條形圖、龍卷風圖、餅圖、散點圖、氣泡圖、箱線圖、雷達圖和數據分布圖等。第9章概要介紹了網絡圖、文本數據、地理數據等非數值型數據的可視化方法。
書中每章的最后都給出了配套的習題,便于教師教學和測試,學生鞏固知識點并啟發(fā)全面思考。
與現有以介紹Python編程語法、數據挖掘與機器學習理論的書籍不同,本書是數據分析類課程的入門教材,系統(tǒng)整理了數據分析的知識體系,以分析流程為主線闡述了數據分析的主要方法和基于Python的技術應用。從第2章開始,在闡述基礎知識的同時設計了大量例題,按照分析需求Python代碼展示例題解析運行結果的思路對知識點進行剖析。設計的例題有助于教師授課和學生自學理解。采用較受歡迎的編程語言Python作為分析工具,代碼簡潔、易讀性好,且易上手。全書提供習題、答案及源碼。建議至少進行32學時的授課和學習。
本書可作為普通高等院校數據分析處理相關課程的學生的教材使用,也可供剛剛步入數據分析領域的從業(yè)人員參考。
本書由潘曉、吳雷、王書海編著,第1~3章、第7~9章由潘曉編寫,第4~6由吳雷編寫,全書由潘曉負責統(tǒng)稿定稿。本書在撰寫過程中參考了如維基百科、知乎、CSDN等互聯(lián)網上優(yōu)秀的資料。此外,特別感謝實驗室的博士生和碩士生們進行的資料收集與整理,其中包括董慧、姜夢、鹿東娜和杜一凡,感謝石家莊鐵道大學信息管理與信息系統(tǒng)專業(yè)的2018級和2019級學生作為第一批讀者完成的勘誤工作。感謝河北省自然科學基金項目(F2021210005)、河北省重點研發(fā)項目(21340301D)、河北省省級科技計劃資助項目(21550803D)、河北省教育廳青年拔尖項目(BJ2021085)項目的支持。
感謝清華大學出版社在全書的校對和編輯出版過程中付出的巨大努力。由于作者水平有限,書中如有疏漏之處敬請讀者提出寶貴意見。
潘曉2022年12月