數(shù)據(jù)準(zhǔn)備:從獲取到整理(數(shù)據(jù)分析與應(yīng)用叢書)
定 價(jià):46 元
叢書名:數(shù)據(jù)分析與應(yīng)用叢書
- 作者:阮敬 任韜
- 出版時(shí)間:2022/7/1
- ISBN:9787300307985
- 出 版 社:中國人民大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:244
- 紙張:
- 版次:1
- 開本:16
數(shù)據(jù)的獲取方式、數(shù)據(jù)的形式及其結(jié)構(gòu)紛繁蕪雜,如何把數(shù)據(jù)整理成我們想要的樣子呢?本書通過真實(shí)案例構(gòu)建了數(shù)據(jù)準(zhǔn)備過程中的方法與技術(shù)體系,并通過Python 3編程實(shí)現(xiàn)從數(shù)據(jù)獲取到數(shù)據(jù)整理的全過程。
全書內(nèi)容包括數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)清洗、數(shù)據(jù)插補(bǔ)、數(shù)據(jù)配平、數(shù)據(jù)重構(gòu)、數(shù)據(jù)變換、數(shù)據(jù)縮放和數(shù)據(jù)歸約。為使讀者能夠快速掌握數(shù)據(jù)準(zhǔn)備的方法與技術(shù),本書的數(shù)據(jù)文件與程序代碼均可下載(見封底二維碼)。線上操作平臺(tái)地址為http://ykt.ai-learning.net。
本書既可作為高等院校的數(shù)據(jù)分析類課程教材,也可作為社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)分析的自學(xué)用書。從事數(shù)據(jù)分析與數(shù)據(jù)管理工作的相關(guān)人員,以及用Python解決實(shí)際數(shù)據(jù)分析問題的工程技術(shù)和管理人員亦可參考使用。
阮敬 博士、教授、博士生導(dǎo)師。首都經(jīng)濟(jì)貿(mào)易大學(xué)數(shù)據(jù)科學(xué)學(xué)院副院長。兼任第七屆全國統(tǒng)計(jì)教材編審委員會(huì)學(xué)術(shù)委員、數(shù)據(jù)科學(xué)與大數(shù)據(jù)應(yīng)用組副組長,中國現(xiàn)場(chǎng)統(tǒng)計(jì)研究會(huì)副秘書長、經(jīng)濟(jì)與金融統(tǒng)計(jì)分會(huì)副理事長,中國統(tǒng)計(jì)教育學(xué)會(huì)副秘書長、高等教育分會(huì)秘書長,全國工業(yè)統(tǒng)計(jì)學(xué)教學(xué)研究會(huì)常務(wù)理事,中國青年統(tǒng)計(jì)學(xué)家協(xié)會(huì)創(chuàng)會(huì)秘書長,北京大數(shù)據(jù)協(xié)會(huì)副會(huì)長、秘書長,《統(tǒng)計(jì)學(xué)報(bào)》《統(tǒng)計(jì)與精算》編委等。研究領(lǐng)域?yàn)榻?jīng)濟(jì)統(tǒng)計(jì)、大數(shù)據(jù)分析。在國內(nèi)外發(fā)表論文70余篇,出版專著、譯著、教材16部。主持國家級(jí)和省部級(jí)科研項(xiàng)目及企事業(yè)單位橫向課題50余項(xiàng)。榮獲全國統(tǒng)計(jì)科學(xué)研究?jī)?yōu)秀成果獎(jiǎng)、全國應(yīng)用統(tǒng)計(jì)專業(yè)學(xué)位研究生優(yōu)秀教育教學(xué)成果獎(jiǎng)、北京市哲學(xué)社會(huì)科學(xué)優(yōu)秀成果獎(jiǎng)、北京市優(yōu)秀調(diào)查研究成果獎(jiǎng)等10余項(xiàng)省部級(jí)及以上科研和教學(xué)獎(jiǎng)勵(lì)。
任韜 博士、教授、博士生導(dǎo)師。首都經(jīng)濟(jì)貿(mào)易大學(xué)商務(wù)學(xué)院院長。兼任北京大數(shù)據(jù)協(xié)會(huì)副會(huì)長,中國商業(yè)統(tǒng)計(jì)學(xué)會(huì)常務(wù)理事、市場(chǎng)調(diào)查與教學(xué)研究分會(huì)副會(huì)長兼秘書長、數(shù)據(jù)科學(xué)與商業(yè)智能分會(huì)副會(huì)長,中國國民經(jīng)濟(jì)核算研究會(huì)常務(wù)理事等。主要研究方向?yàn)榇髷?shù)據(jù)分析,經(jīng)濟(jì)統(tǒng)計(jì)學(xué)。主持多項(xiàng)國家社會(huì)科學(xué)基金項(xiàng)目、教育部人文社會(huì)科學(xué)基金項(xiàng)目。在國內(nèi)外發(fā)表學(xué)術(shù)論文20余篇,出版學(xué)術(shù)專著及教材7部。
第1 章 數(shù)據(jù)來源
1.1 調(diào)查和觀察數(shù)據(jù)
1.1.1 調(diào)查數(shù)據(jù)
1.1.2 觀察數(shù)據(jù)
1.2 數(shù)據(jù)庫數(shù)據(jù)
1.2.1 關(guān)系型數(shù)據(jù)庫
1.2.2 非關(guān)系型數(shù)據(jù)庫
1.3 爬蟲數(shù)據(jù)
1.4 日志數(shù)據(jù)
第 2 章 數(shù)據(jù)類型
2.1 結(jié)構(gòu)化數(shù)據(jù)
2.1.1 基本數(shù)據(jù)類型
2.1.2 二維表結(jié)構(gòu)數(shù)據(jù)
2.2 集合數(shù)據(jù)類型
2.2.1 列表
2.2.2 元組
2.2.3 字典
2.2.4 集合
2.2.5 推導(dǎo)式
2.3 其他常見的結(jié)構(gòu)化數(shù)據(jù)
2.3.1 數(shù)組
2.3.2 矩陣
2.3.3 數(shù)列
2.3.4 數(shù)據(jù)幀
2.3.5 日期時(shí)間型數(shù)據(jù)
2.4 非結(jié)構(gòu)化數(shù)據(jù)
2.4.1 網(wǎng)頁與 JSON 數(shù)據(jù)
2.4.2 圖像數(shù)據(jù)
2.4.3 音頻數(shù)據(jù)
2.4.4 視頻數(shù)據(jù)
第 3 章 數(shù)據(jù)編碼
3.1 數(shù)據(jù)編碼的基本要求和原則
3.2 數(shù)據(jù)編碼的結(jié)構(gòu)類型
3.2.1 分類編碼
3.2.2 順序編碼
3.2.3 分段編碼
3.2.4 值標(biāo)簽編碼
3.2.5 Dummy/虛擬變量編碼
3.2.6 尺度編碼
第 4 章 數(shù)據(jù)清洗
4.1 異常值清洗
4.1.1 異常值識(shí)別
4.1.2 異常值處理
4.2 重復(fù)數(shù)據(jù)清洗
4.2.1 重復(fù)數(shù)據(jù)檢測(cè)
4.2.2 重復(fù)數(shù)據(jù)刪除
4.3 低頻類別清洗
4.3.1 觀察低頻識(shí)別
4.3.2 低頻類別處理
4.4 數(shù)據(jù)糾錯(cuò)
4.4.1 邏輯糾錯(cuò)
4.4.2 格式糾錯(cuò)
4.5 數(shù)據(jù)糾偏
4.5.1 數(shù)據(jù)偏度識(shí)別和測(cè)量
4.5.2 數(shù)據(jù)偏度的糾正
第5 章 數(shù)據(jù)插補(bǔ)
5.1 缺失值產(chǎn)生原因及其表現(xiàn)
5.1.1 缺失值的含義
5.1.2 缺失值的類型
5.1.3 缺失值產(chǎn)生的原因
5.1.4 缺失值的影響
5.1.5 缺失值的表現(xiàn)形式
5.2 缺失值插補(bǔ)
5.2.1 簡(jiǎn)單統(tǒng)計(jì)量插補(bǔ)
5.2.2 聚類插補(bǔ)
5.2.3 模型插補(bǔ)
5.3 MVP
5.3.1 MVP 分析思路
5.3.2 MVP 提取方法
第 6 章 數(shù)據(jù)配平
6.1 不平衡數(shù)據(jù)
6.1.1 不平衡數(shù)據(jù)的含義
6.1.2 不平衡數(shù)據(jù)的影響
6.2 數(shù)據(jù)配平方法
6.2.1 欠采樣
6.2.2 過采樣
6.2.3 混合采樣
6.3 數(shù)據(jù)配平的影響
6.3.1 數(shù)據(jù)配平的效果
6.3.2 模型預(yù)測(cè)結(jié)果的偏離及其校正方法
6.3.3 欠采樣對(duì)預(yù)測(cè)穩(wěn)定性的影響
第 7 章 數(shù)據(jù)重構(gòu)
7.1 數(shù)據(jù)組合
7.1.1 序列組合
7.1.2 水平組合
7.1.3 垂直組合
7.1.4 深度組合
7.1.5 列組合
7.1.6 行組合
7.2 軸向連接
7.2.1 左右拼接
7.2.2 數(shù)據(jù)追加
7.3 數(shù)據(jù)融合
7.3.1 鍵融合
7.3.2 索引融合
7.3.3 插補(bǔ)融合
7.4 數(shù)據(jù)重塑
7.4.1 Panel
7.4.2 層次化索引
7.4.3 stack與unstack
7.5 數(shù)據(jù)分拆
7.5.1 水平分拆
7.5.2 垂直分拆
7.5.3 深度分拆
7.5.4 邏輯分拆
7.5.5 隨機(jī)采樣與數(shù)據(jù)分割
7.6 數(shù)據(jù)聚合
第 8 章 數(shù)據(jù)變換
8.1 數(shù)據(jù)變換的含義和作用
8.2 連續(xù)數(shù)據(jù)函數(shù)變換
8.2.1 對(duì)數(shù)變換
8.2.2 平方根變換
8.2.3 平方變換
8.2.4 倒數(shù)變換
8.2.5 冪變換與 BOX-COX 變換 176
8.3 連續(xù)數(shù)據(jù)離散化
8.3.1 客觀法
8.3.2 主觀法
8.4 數(shù)據(jù)次序化
8.4.1 升降次序
8.4.2 位置與秩
8.4.3 秩的計(jì)算方法
8.4.4 秩的缺失值處理
8.4.5 DataFrame 中的秩
8.5 多分類數(shù)據(jù)啞變量化
8.5.1 啞變量的概念與特征
8.5.2 啞變量與 one-hot 碼
8.5.3 多分類數(shù)據(jù)轉(zhuǎn)換為啞變量 196
8.5.4 多分類數(shù)據(jù)轉(zhuǎn)換為 one-hot 碼
8.6 定性數(shù)據(jù)數(shù)量化
8.6.1 順序數(shù)據(jù)轉(zhuǎn)化為得分
8.6.2 構(gòu)造定性數(shù)據(jù)的平滑值
第 9 章 數(shù)據(jù)縮放
9.1 數(shù)據(jù)縮放的概念
9.2 數(shù)據(jù)縮放方法
9.2.1 中心化
9.2.2 標(biāo)準(zhǔn)化
9.2.3 Min-Max 縮放
9.2.4 Max-ABS 縮放
9.2.5 Robust 縮放
第 10 章 數(shù)據(jù)歸約
10.1 數(shù)據(jù)歸約的概念
10.2 變量選擇方法
10.2.1 使用統(tǒng)計(jì)量
10.2.2 決策樹模型
10.2.3 Lasso 算法
10.3 樣本歸約
參考文獻(xiàn)