統(tǒng)計(jì)分析:從小數(shù)據(jù)到大數(shù)據(jù)
定 價(jià):79 元
叢書(shū)名:CDA數(shù)據(jù)分析師系列叢書(shū)
- 作者:丁亞軍
- 出版時(shí)間:2020/1/1
- ISBN:9787121377532
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):C819
- 頁(yè)碼:252
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
面對(duì)小數(shù)據(jù)和大數(shù)據(jù),數(shù)據(jù)分析師應(yīng)該如何收集數(shù)據(jù)信息?傳統(tǒng)的業(yè)務(wù)框架如何與統(tǒng)計(jì)學(xué)相關(guān)聯(lián)?測(cè)量學(xué)扮演著什么角色?建模過(guò)程有哪些預(yù)分析技術(shù)和修正技術(shù)?建模工作完成后,如何解析?如何歸因?如何預(yù)測(cè)?等等,這些數(shù)據(jù)分析能力構(gòu)成了本書(shū)的分析框架。本書(shū)分為8章,小數(shù)據(jù)與大數(shù)據(jù)分析模式的動(dòng)態(tài)切換貫穿全書(shū),展示了數(shù)據(jù)分析案例的模塊化分析思路。第1~3章為數(shù)據(jù)預(yù)分析部分,強(qiáng)調(diào)業(yè)務(wù)問(wèn)題與統(tǒng)計(jì)問(wèn)題的銜接;第4~6章為統(tǒng)計(jì)建模階段,其中附有對(duì)行業(yè)案例和業(yè)務(wù)敏感度的訓(xùn)練、對(duì)統(tǒng)計(jì)和業(yè)務(wù)整合的審美建議,進(jìn)而構(gòu)造出一套具有靈活調(diào)校的數(shù)據(jù)分析模式。第7~8章解決的問(wèn)題是,如何將晦澀難懂的統(tǒng)計(jì)解釋轉(zhuǎn)換成業(yè)務(wù)解釋。由衷地希望本書(shū)能夠成為數(shù)據(jù)運(yùn)營(yíng)人員與初中級(jí)數(shù)據(jù)分析師分析數(shù)據(jù)的行動(dòng)指南。
丁亞軍自由職業(yè)者,兼CDA數(shù)據(jù)科學(xué)研究院研究員、電子工業(yè)出版社大數(shù)據(jù)專(zhuān)家委員會(huì)成員、學(xué)習(xí)路徑圖國(guó)際技術(shù)中心顧問(wèn)、經(jīng)管之家培訓(xùn)中心講師。研究方向:統(tǒng)計(jì)軟件與數(shù)據(jù)分析、市場(chǎng)調(diào)查研究、電商CRM數(shù)據(jù)挖掘、銀行申請(qǐng)與行為評(píng)分卡。
目錄
第1 部分 數(shù)據(jù)分析準(zhǔn)備
第1 章 從業(yè)務(wù)到統(tǒng)計(jì)
1.1 業(yè)務(wù)需求從哪來(lái) / 002
1.1.1 學(xué)習(xí)業(yè)務(wù)的最快途徑:閱讀運(yùn)營(yíng)報(bào)告 / 002
1.1.2 當(dāng)務(wù)之急:研究痛點(diǎn) / 004
1.1.3 數(shù)據(jù)分析之錨:未來(lái)戰(zhàn)略方向 / 005
1.1.4 對(duì)數(shù)據(jù)分析“小白”的有益建議 / 005
1.2 從小數(shù)據(jù)到大數(shù)據(jù):數(shù)據(jù)體量與信息分布 / 008
1.2.1 實(shí)驗(yàn)室:理論驗(yàn)證 / 009
1.2.2 問(wèn)卷:理論驗(yàn)證+ 探索 / 011
1.2.3 數(shù)據(jù)庫(kù):業(yè)務(wù)驗(yàn)證+ 探索 / 012
1.2.4 數(shù)據(jù)信息與統(tǒng)計(jì)模型 / 013
1.2.5 算法應(yīng)用:是否跨界 / 015
1.2.6 算法特征:角色 / 016
1.3 數(shù)據(jù)分析流程的啟示 / 019
1.3.1 假設(shè):驗(yàn)證與歸因 / 021
1.3.2 小概率:黑天鵝的不確定 / 025
1.3.3 抽樣技術(shù):經(jīng)濟(jì)是根本 / 026
1.3.4 選擇模型:方法論 / 028
1.3.5 顯著性判斷:可證偽 / 029
第2 章 變量角色與描述
2.1 如何描述變量 / 032
2.1.1 分類(lèi)變量與連續(xù)變量的分界線(xiàn) / 032
2.1.2 分類(lèi)變量及可視化 / 033
2.1.3 連續(xù)變量及可視化 / 037
2.2 因變量的測(cè)量 / 040
2.2.1 測(cè)量級(jí)別問(wèn)題 / 040
2.2.2 是否存在測(cè)量誤差 / 045
2.2.3 誰(shuí)會(huì)成為“主角” / 047
2.2.4 y 的量化場(chǎng)景 / 050
2.3 自變量的選擇 / 053
2.3.1 驗(yàn)證性:x 的選擇 / 054
2.3.2 探索性:x 的選擇 / 054
第3 章 數(shù)據(jù)預(yù)分析
3.1 填補(bǔ)缺失 / 056
3.1.1 描述缺失數(shù)據(jù):行、列、單元格 / 056
3.1.2 缺失類(lèi)型:隨機(jī)性 / 060
3.1.3 小數(shù)據(jù)填補(bǔ)方案:精確性探討 / 061
3.1.4 大數(shù)據(jù)填補(bǔ)方案:速度問(wèn)題探討 / 068
3.2 處理異常值 / 069
3.2.1 單變量與雙變量異常 / 069
3.2.2 無(wú)監(jiān)督異常:聚類(lèi)分析 / 070
3.2.3 監(jiān)督異常:回歸殘差分析 / 073
3.2.4 小數(shù)據(jù)與大數(shù)據(jù)如何看待異常值 / 076
3.3 消除共線(xiàn)性 / 080
3.3.1 共線(xiàn)性及其危害 / 081
3.3.2 小數(shù)據(jù)的方案:嶺回歸 / 082
3.3.3 大數(shù)據(jù)方案:項(xiàng)目合并與逐步回歸 / 084
3.4 內(nèi)生性問(wèn)題 / 088
3.4.1 內(nèi)生性及其危害 / 088
3.4.2 問(wèn)題核心:特征選擇 / 089
3.4.3 三駕馬車(chē)之一:數(shù)據(jù)庫(kù)的應(yīng)對(duì)策略 / 094
3.5 變量變換技術(shù) / 102
3.5.1 正態(tài)分布變換:對(duì)數(shù)變換 / 102
3.5.2 從0 到1:老板最喜歡的符號(hào)% / 104
3.5.3 強(qiáng)異常值:秩的應(yīng)用 / 105
3.5.4 量綱:標(biāo)準(zhǔn)化變換 / 106
3.6 編碼技術(shù) / 107
3.6.1 為什么需要分箱化 / 107
3.6.2 分箱技術(shù)要義:數(shù)據(jù)拐點(diǎn) / 111
3.7 避免過(guò)擬合 / 113
3.7.1 導(dǎo)致過(guò)擬合:行列問(wèn)題 / 113
3.7.2 小數(shù)據(jù)為什么不談過(guò)擬合 / 114
3.7.3 避免過(guò)擬合:方法學(xué) / 115
第2部分 構(gòu)建模型與修正技術(shù)
第4 章 線(xiàn)性回歸與統(tǒng)計(jì)家族
4.1 差異性問(wèn)題:方差分析 / 121
4.1.1 差異的來(lái)源:主效應(yīng) / 121
4.1.2 差異的來(lái)源:交互效應(yīng) / 128
4.1.3 交互性解釋?zhuān)航换バ?yīng)圖制作 / 129
4.2 結(jié)構(gòu)性問(wèn)題:回歸分析 / 131
4.2.1 回歸分析流程 / 131
4.2.2 相關(guān)的風(fēng)向標(biāo)作用:文氏圖 / 135
4.2.3 偏相關(guān)的歸因:中介和調(diào)節(jié) / 137
4.2.4 回歸系數(shù)解釋?zhuān)浩貧w圖 / 142
4.2.5 如何相信R2 / 149
4.2.6 以殘差看假設(shè) / 152
4.2.7 殘差信息的有和無(wú) / 158
4.2.8 小數(shù)據(jù)需求歸納:重結(jié)構(gòu)輕預(yù)測(cè) / 158
4.3 算法進(jìn)化REG:小數(shù)據(jù)專(zhuān)家的努力 / 159
4.3.1 算法1.0:精確度+ 結(jié)構(gòu) / 160
4.3.2 算法2.0:精確度+ 結(jié)構(gòu)與預(yù)測(cè) / 163
4.3.3 算法3.0:速度+ 預(yù)測(cè) / 164
4.3.4 算法4.0:加速度 / 167
第5 章 Logistic 回歸與統(tǒng)計(jì)家族
5.1 預(yù)測(cè)性問(wèn)題:Logistic 回歸 / 168
5.1.1 卡方的風(fēng)向標(biāo)作用 / 169
5.1.2 不一樣的R2:預(yù)測(cè)分類(lèi)表 / 170
5.1.3 回歸系數(shù)解釋?zhuān)簅r 值與rr 值 / 171
5.1.4 修正技術(shù):是x 而不是y / 174
5.1.5 大數(shù)據(jù)需求歸納:輕結(jié)構(gòu)重預(yù)測(cè) / 177
5.2 算法進(jìn)化Logistic:大數(shù)據(jù)與智能 / 178
5.2.1 算法1.0:穩(wěn)定性+ 結(jié)構(gòu) / 178
5.2.2 算法2.0:穩(wěn)定性+ 結(jié)構(gòu)與預(yù)測(cè) / 179
5.2.3 算法3.0:速度+ 預(yù)測(cè) / 179
5.2.4 算法4.0:加速度 / 179
5.3 算法3.0 的榜樣:神經(jīng)網(wǎng)絡(luò) / 180
5.3.1 神經(jīng)網(wǎng)絡(luò)算法 / 180
5.3.2 DM 算法預(yù)分析 / 183
5.3.3 基于神經(jīng)網(wǎng)絡(luò)的常規(guī)應(yīng)用 / 185
第6 章 降維技術(shù)
6.1 主成分回歸與壓縮技術(shù) / 192
6.1.1 四駕馬車(chē):實(shí)驗(yàn)室、問(wèn)卷、數(shù)據(jù)庫(kù)、云 / 192
6.1.2 主成分算法:降維 / 192
6.1.3 主成分與因子:誰(shuí)應(yīng)該有名字? / 194
6.1.4 主成分回歸:“回歸+ 回歸”模式 / 196
6.2 對(duì)應(yīng)分析:一個(gè)市場(chǎng)調(diào)查案例 / 197
6.2.1 案例背景介紹 / 197
6.2.2 模型預(yù)分析 / 199
6.2.3 構(gòu)建模型:“廣義”雙標(biāo)圖 / 203
6.2.4 結(jié)論及營(yíng)銷(xiāo) / 214
第3部分 模型應(yīng)用與評(píng)估
第7 章 回歸類(lèi)模型應(yīng)用
7.1 結(jié)構(gòu)性問(wèn)題:偏回歸系數(shù) / 216
7.1.1 單結(jié)構(gòu):偏的意義 / 216
7.1.2 整體結(jié)構(gòu):條件規(guī)則 / 217
7.2 預(yù)測(cè)性問(wèn)題:估計(jì)值 / 217
7.2.1 老樣本預(yù)測(cè):內(nèi)衍與市場(chǎng)細(xì)分 / 218
7.2.2 新樣本預(yù)測(cè):外推與潛在行為 / 219
7.3 模型優(yōu)劣與模型評(píng)價(jià) / 219
7.3.1 R2 變形記 / 219
7.3.2 圖示R2:R2 圖與ROC 曲線(xiàn) / 221
7.4 模型優(yōu)劣與業(yè)務(wù)評(píng)價(jià) / 221
7.4.1 小數(shù)據(jù)的標(biāo)準(zhǔn):R2 / 221
7.4.2 大數(shù)據(jù)的標(biāo)準(zhǔn):老板 / 222
第8 章 數(shù)據(jù)分析報(bào)告
8.1 可視化圖形制作 / 223
8.1.1 條形圖與折線(xiàn)圖 / 223
8.1.2 頻數(shù)與分布 / 223
8.1.3 多變箱體圖 / 224
8.1.4 散點(diǎn)圖與氣泡圖 / 225
8.2 圖形制作與格式 / 227
8.2.1 圖形制作:繪圖、顏色 / 227
8.2.2 圖形模板制作與調(diào)用 / 229
8.3 表格制作與格式 / 230
8.3.1 表格制作:制表、格式 / 230
8.3.2 表格模板制作與調(diào)用 / 232
8.3.3 OMS 控制面板 / 234
附錄A 數(shù)據(jù)集__