當下,由于強大的數(shù)據(jù)挖掘軟件平臺很容易獲得,草率地使用數(shù)據(jù)挖掘方法和技術將導致挖掘的結果混淆難解。這種失誤往往源自盲目使用“黑盒子”方法進行數(shù)據(jù)挖掘,而最好的避免途徑就是使用“自盒子”方法,理解隱藏在軟件背后的算法和統(tǒng)計模型結構。
本書分為7章,第l章是對降維方法的介紹,這是數(shù)據(jù)挖掘技術的一個先決條件;第2章至第6章為經(jīng)典的數(shù)據(jù)挖掘算法和技術,包括一元回歸模型、多元回歸模型、邏輯回歸模型、貝葉斯網(wǎng)絡分析以及遺傳算法,通過實際案例引導讀者由已預處理的數(shù)據(jù)使用不同的挖掘技術從而得出所需結論;第7章為基于數(shù)據(jù)挖掘過程模型上的多個案例研究,通過多個領域的案例來闡述算法和技術是如何被運用的。
本書可作為數(shù)據(jù)挖掘課程教學用書,適用于高年級本科生和研究生的教學,也可供科研人員參考使用。
第1章 降維方法
1.1 數(shù)據(jù)挖掘中降低維度的必要性
1.2 主成分分析法
1.2.1 主成分分析應用于房屋數(shù)據(jù)集
1.2.2 應提取多少個主成分
1.3 因子分析法
1.3.1 因子分析法在成年人數(shù)據(jù)集中的應用
1.3.2 因子旋轉
1.4 用戶自定義合成
總結
參考文獻
練習題
第2章 回歸模型
2.1 簡單線性回歸實例
2.2 最小二乘法估計
第1章 降維方法
1.1 數(shù)據(jù)挖掘中降低維度的必要性
1.2 主成分分析法
1.2.1 主成分分析應用于房屋數(shù)據(jù)集
1.2.2 應提取多少個主成分
1.3 因子分析法
1.3.1 因子分析法在成年人數(shù)據(jù)集中的應用
1.3.2 因子旋轉
1.4 用戶自定義合成
總結
參考文獻
練習題
第2章 回歸模型
2.1 簡單線性回歸實例
2.2 最小二乘法估計
2.3 決定系數(shù)
2.4 估計值的標準誤差
2.5 相關系數(shù)
2.6 方差分析表
2.7 異常點、高杠桿點和強影響觀測值
2.8 回歸模型
2.9 回歸推斷
2.9.1 x和y之間線性關系的t檢驗
2.9.2 回歸直線斜率的置信區(qū)間
2.9.3 給定x條件下,Y均值的置信區(qū)間
2.9.4 給定x條件下,Y隨機選擇值的預測區(qū)間
2.10 回歸假設檢驗
2.11 實例:棒球數(shù)據(jù)集
2.12 實例:加利福尼亞州數(shù)據(jù)集
2.13 線性變換實現(xiàn)
總結
參考文獻
練習題
第3章 多元回歸和建模
3.1 多元回歸實例
3.2 多元回歸模型
3.3 多元回歸推斷
3.4 含有分類預測變量的回歸
3.4.1 調整R2:對包含無用預測變量的懲罰模式
3.4.2 序貫的誤差平方和
3.5 多重共線性
3.6 變量選擇方法
3.6.1 偏F檢驗
3.6.2 向前選擇程序
3.6.3 向后排除程序
3.6.4 逐步選擇程序
3.6.5 最優(yōu)子集程序
3.6.6 所有可能的子集選擇程序
3.7變量選擇方法的應用
3.7.1 向前選擇程序應用于谷物數(shù)據(jù)集
3.7.2 向后排除程序應用于谷物數(shù)據(jù)集
3.7.3 逐步選擇程序應用于谷物數(shù)據(jù)集
3.7.4 最優(yōu)子集程序應用于谷物數(shù)據(jù)集
……
第4章 邏輯回歸
第5章 樸素貝葉斯估計和貝葉斯網(wǎng)絡
第6章 遺傳算法
第7章 案便研究:直郵營銷的回應建模問題
總結
參考文獻