SAS編程與數(shù)據(jù)挖掘商業(yè)案例
定 價:42 元
叢書名:信息科學(xué)與技術(shù)叢書
- 作者:姚志勇 著
- 出版時間:2010/5/1
- ISBN:9787111305354
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:F712.3
- 頁碼:345
- 紙張:膠版紙
- 版次:1
- 開本:大16開
《SAS編程與數(shù)據(jù)挖掘商業(yè)案例》是作者多年來在企業(yè)實(shí)踐工作中的經(jīng)驗(yàn)總結(jié),詳細(xì)講解了使用SAS進(jìn)行商業(yè)數(shù)據(jù)挖掘的方法。其中包含了目前公開出版的諸多SAS教材沒有的大量實(shí)戰(zhàn)內(nèi)容。《SAS編程與數(shù)據(jù)挖掘商業(yè)案例》內(nèi)容全面、新穎獨(dú)創(chuàng)、綜合性強(qiáng),適合企業(yè)人員使用,也可作為數(shù)學(xué)、統(tǒng)計(jì)學(xué)、金融、電子商務(wù)、醫(yī)藥等專業(yè)的本科生、碩士生學(xué)習(xí)SAS編程和數(shù)據(jù)挖掘的參考資料。
從PDV角度詳盡剖析Base SAS常用語句代碼及應(yīng)用,數(shù)據(jù)挖掘理論和商業(yè)應(yīng)用緊密結(jié)合,原創(chuàng)相互貝葉斯文本分類和EM迭代算法代碼,三個典型的數(shù)據(jù)挖掘商業(yè)案例分析。 《SAS編程與數(shù)據(jù)挖掘商業(yè)案例》是作者多年來在企業(yè)實(shí)踐工作中的經(jīng)驗(yàn)總結(jié),詳細(xì)講解了使用SAS進(jìn)行商業(yè)數(shù)據(jù)挖掘的方法,其中包含了目前公開出版的諸多SAS教材沒有的大量實(shí)戰(zhàn)內(nèi)容! 禨AS編程與數(shù)據(jù)挖掘商業(yè)案例》內(nèi)容全面、新穎獨(dú)創(chuàng)、綜合性強(qiáng),適合企業(yè)人員使用,也可作為數(shù)學(xué)、統(tǒng)計(jì)學(xué)、金融、電子商務(wù)、醫(yī)藥等專業(yè)的本科生、碩士生學(xué)習(xí)SAS編程和數(shù)據(jù)挖掘的參考資料。
當(dāng)前國內(nèi)的諸多數(shù)據(jù)挖掘書籍幾乎都是基于理論說明,很少深入介紹數(shù)據(jù)挖掘?qū)嵺`,涉及SAS開發(fā)的更是少見。因此,從商業(yè)應(yīng)用出發(fā),基于實(shí)踐而不是基于理論的數(shù)據(jù)挖掘書籍呼之欲出。本書作者從商業(yè)需求出發(fā),以商業(yè)人士的眼光來看待企業(yè)數(shù)據(jù)挖掘,并給出大量的商業(yè)實(shí)踐案例。把主流的數(shù)據(jù)挖掘技術(shù)用真實(shí)案例來實(shí)現(xiàn)是本書出版的初衷,同時為了滿足初學(xué)者需求,作者也給出了數(shù)據(jù)挖掘必備的基礎(chǔ)編程知識模塊。
全書共分兩部分。第一部分是SAS編程:第1章和第2章主要介紹SAS系統(tǒng)和編程基礎(chǔ),同時介紹SAS數(shù)據(jù)處理最核心的內(nèi)容——數(shù)據(jù)指針和PDV流程。該核心內(nèi)容貫穿第一部分,是已出版的其他SAS圖書沒有的。
第3~9章主要介紹SAS的數(shù)據(jù)處理技術(shù),也是第一部分的主要內(nèi)容,包括數(shù)據(jù)集處理、變量處理和觀測處理等多種數(shù)據(jù)處理技術(shù),同時也介紹了循環(huán)控制等稍難的內(nèi)容,重要的是給出了諸多實(shí)際案例及商業(yè)應(yīng)用。盡管第3~9章從表面上看和諸多已經(jīng)出版的SAS圖書沒有什么大的不同,但是這些章節(jié)最大的亮點(diǎn)是作者對每一個示例和案例從數(shù)據(jù)指針和PDV流程的角度給予了最詳細(xì)的程序解讀,讓讀者真正讀懂程序,而不是停留在程序的表面。
第10章是第一部分r的難點(diǎn)。作者還是站在商業(yè)實(shí)踐的角度逐一介紹宏最常用的部分,同時也給出了非常詳細(xì)的程序解讀。
第11章介紹SOL過程。有關(guān)內(nèi)容在國內(nèi)同類書中都出現(xiàn)過,但是作者獨(dú)辟蹊徑,融合了項(xiàng)目實(shí)踐中諸多真正有用的語句,同時也給出了諸多開發(fā)建議和應(yīng)注意的問題。
第12章介紹數(shù)據(jù)處理實(shí)踐。該章共包括四個方面的內(nèi)容,幾乎都是目前國內(nèi)沒有出現(xiàn)過的,如HASH對象及商業(yè)應(yīng)用、正則表達(dá)式等。隨機(jī)抽樣也是數(shù)據(jù)處理經(jīng)常面臨的問題,這里作者開發(fā)了在SAS系統(tǒng)中如何處理分層不等比例抽樣的代碼,這也是目前國內(nèi)其他SAS圖書沒有介紹過的。
第二部分是數(shù)據(jù)挖掘商業(yè)案例:
第13章主要介紹數(shù)據(jù)挖掘概念和流程。數(shù)據(jù)挖掘流程尤其是商業(yè)流程是本章的重點(diǎn)。該流程告訴讀者一個真正的商業(yè)數(shù)據(jù)挖掘流程在商業(yè)環(huán)境中是如何實(shí)施的。
第14章重點(diǎn)介紹響應(yīng)模型。響應(yīng)模型是商業(yè)實(shí)踐中最常用的預(yù)測模型,基于第13章的流程規(guī)范給出了一個具體的商業(yè)案例研究。
第15章是客戶行為分析。該章有目前全球最流行的行為分析,包括“行為年齡”和“行為性別”(注意完全不同于具有自然屬性特征的“真實(shí)年齡”和“真實(shí)性別”),作者運(yùn)用NaiveBayesian技術(shù)開發(fā)出一整套模型,并對該模型擁有完全自主知識產(chǎn)權(quán)。
第16章介紹文本挖掘。該章首先介紹了文本挖掘的流程,然后開發(fā)出基于NaiveBayesian文本分類算法和EM迭代思想的大型代碼,并成功應(yīng)用于商業(yè)實(shí)踐。
出版說明
前言
第1章 SAS系統(tǒng)簡介
1.1 系統(tǒng)簡介
1.1.1 SAS系統(tǒng)與商務(wù)智能系統(tǒng)
1.1.2 SAS系統(tǒng)與其他數(shù)據(jù)庫的數(shù)據(jù)交換
1.1.3 SAS語言與SAS系統(tǒng)
1.1.4 SAS9瀏覽窗口簡介
1.2 一個簡單的編程實(shí)例
1.2.1 編寫一個SAS程序
1.2.2 提交一個SAS程序
1.2.3 保存和打開一個SAS程序
1.3 DATA步的數(shù)據(jù)指針和PDV流程
1.3.1 數(shù)據(jù)指針和PDV流程
1.3.2 DATA步執(zhí)行次數(shù)
第2章 SAS編程基礎(chǔ)
2.1 SAS邏輯庫
2.1.1 創(chuàng)建SAS邏輯庫
2.1.2 刪除SAS邏輯庫
2.1.3 永久邏輯庫和臨時邏輯庫
2.2 SAS數(shù)據(jù)集
2.2.1 SAS數(shù)據(jù)集命名規(guī)則
2.2.2 永久SAS數(shù)據(jù)集和臨時SAS數(shù)據(jù)集
2.2.3 SAS數(shù)據(jù)集結(jié)構(gòu)
2.2.4 SAS數(shù)據(jù)集形式
2.3 SAS索引
2.3.1 創(chuàng)建索引
2.3.2 刪除索引
2.4 SAS目錄
2.5 數(shù)據(jù)字典
2.6 SAS變量
2.6.1 變量屬性
2.6.2 變量列表
2.6.3 自動變量
第3章 數(shù)據(jù)獲取與數(shù)據(jù)集操作
3.1 數(shù)據(jù)獲取
3.1.1 LIBNAME方式
3.1.2 PASSTHROUGH方式
3.1.3 IMPORT方式
3.1.4 INPUT方式
3.2 SET語句
3.2.1 語法說明
3.2.2 實(shí)例詳解
3.2.3 商業(yè)實(shí)踐
3.3 BY語句
3.3.1 語法說明
3.3.2 實(shí)例詳解
3.4 MERGE語句
3.4.1 語法說明
3.4.2 實(shí)例詳解
3.5 UPDATE語句
3.5.1 語法說明
3.5.2 實(shí)例詳解
3.6 MODIFY語句
3.6.1 語法說明
3.6.2 實(shí)例詳解
3.6.3 商業(yè)實(shí)踐
3.7 PUT語句
3.7.1 語法說明
3.7.2 實(shí)例詳解
3.7.3 商業(yè)實(shí)踐
3.8 FILE語句
3.8.1 語法說明
3.8.2 實(shí)例詳解
3.8.3 商業(yè)實(shí)踐
3.9 1INFLE語句
3.9.1 語法說明
3.9.2 實(shí)例詳解
3.9.3 商業(yè)實(shí)踐
第4章 SAS變量操作
4.1 賦值語句和累加語句
4.1.1 賦值語句
4.1.2 累加語句
4.2 KEEP語句和DROP語句
4.2.1 KEEP語句
4.2.2 DROP語句
4.3 IRETAIN語句
4.3.1 語法說明
4.3.2 實(shí)例詳解
4.3.3 商業(yè)實(shí)踐
4.4 ARRAY語句
4.4.1 語法說明
4.4.2 實(shí)例詳解
4.4.3 商業(yè)實(shí)踐
4.5 其他語句
4.5.1 RENAME語句
4.5.2 LENGTH語句
4.5.3 LABEI。語句
第5章 SAS觀測值操作
5.1 OUTPUT語句
5.1.1 語法說明
5.1.2 實(shí)例詳解
5.2 子集IF語句
5.2.1 語法說明
5.2.2 實(shí)例詳解
5.2.3 子集IF與OUTPUT語句比較
5.3 WHERE語句
5.3.1 語法說明
5.3.2 實(shí)例詳解
5.3.3 子集IF與WIIERE語句比較
5.4 REPLACE語句和REMOVE語句
5.4.1 REPLACE語句
5.4.2 REMOVE語句
5.4.3 REPLACE、REM0vE與OUTPUT應(yīng)用
5.5 DELETE語句與STOP語句
5.5.1 DELETE語句
5.5.2 STOP語句
第6章 SAS數(shù)據(jù)集管理
6.1 APPEND過程
6.1.1 語法說明
6.1.2 實(shí)例詳解
6.2 SORT過程
6.2.1 語法說明
6.2.2 實(shí)例詳解
6.2.3 商業(yè)實(shí)踐
6.3 TRANSPOSE過程
6.3.1 語法說明
6.3.2 實(shí)例詳解
6.4 CONTENTS過程
6.4.1 語法說明
6.4.2 實(shí)例詳解
6.5 DATASETS過程
6.5.1 語法說明
6.5.2 實(shí)例詳解
第7章 DAIA步循環(huán)與控制
7.1 IF.THEN/ELSE語句與SELECT語句
7.1.1 lF.THEN/ELSE語句
7.1.2 SELECT語句
7.2 DO語句
7.2.1 D0組語句
7.2.2 D0循環(huán)語句
7.2.3 DOWHILE語句
7.2.4 DOUNTIL語句
7.2.5 DOOVER語句
7.2.6 商業(yè)實(shí)踐
7.3 各種控制語句
7.3.1 GOT0語句
7.3.2 CONTINUE語句與LEAVE語句
7.3.3 RETIJRN語句
第8章 常用全程語句
8.1 COMMENT語句
8.2 X語句
8.3 FILENAME語句
8.4 %INCLUDE語句
8.5 TITLE語句
8.6 FOOTNOTE語句
第9章 輸出控制
9.1 LOG窗口輸出控制
9.2 OUTPUT窗口輸出控制
9.3 常用ODS輸出控制
9.3.1 ODSLISTING
9.3.2 ODSRESUTS
9.3.3 ODSTRACE
9.3.4 ODS0UTPUT
9.3.5 ODSHTML
9.3.6 ODSCSVALL
9.3.7 ODSSELECT
9.3.8 ODSEXCLUDE
第10章 SAS宏變量
10.1 宏運(yùn)行的內(nèi)在機(jī)制
10.2 宏變量
10.2.1 定義宏變量
10.2.2 顯示宏變量
10.2.3 引用宏變量
10.3 宏程序
10.3.1 定義宏
10.3.2 調(diào)用宏
10.3.3 宏內(nèi)宏
10.3.4 宏存儲
10.4 宏參數(shù)
10.4.1 創(chuàng)建參數(shù)
10.4.2 參數(shù)賦值
10.5 宏函數(shù)
10.5.1 通配函數(shù)
10.5.2 計(jì)算函數(shù)
10.5.3 字符函數(shù)
10.5.4 引用函數(shù)
10.6 宏語句
10.6.1 %IF.%TIIEN/%ELSE語句
10.6.2 %DO組語句
10.6.3 %DO循環(huán)語句
10.6.4 %DO%WHILE循環(huán)語句
10.6.5 %D0%UNTIL循環(huán)語句
10.7 宏應(yīng)用
10.7.1 創(chuàng)建宏變量的八種方法
10.7.2 宏程序一般應(yīng)用
10.7.3 宏程序高級應(yīng)用
第11章 SQL過程
11.1 單表操作
11.2 多表操作
11.2.1 多表關(guān)聯(lián)
11.2.2 子查詢
11.2.3 合并查詢
11.2.4 MERGE與SQL比較
11.3 創(chuàng)建、更新與刪除表操作
11.3.1 創(chuàng)建表
11.3.2 行操作
11.3.3 列操作
11.3.4.刪除表
11.4 使用SQL注意的幾個問題
第12章 數(shù)據(jù)處理實(shí)踐
12.1 隨機(jī)抽樣
12.1.1 簡單無重復(fù)隨機(jī)抽樣
12.1.2 分層等比例隨機(jī)抽樣
12.1.3 分層不等比例隨機(jī)抽樣
12.1.4 隨機(jī)抽樣MACRO
12.2 HASH對象
12.2.1 HASH對象的引例
12.2.2 HASH對象的語法
12.2.3 HITER對象的引例
12.2.4 HITER對象的語法
12.2.5 商業(yè)實(shí)踐
12.3 FORMAT綜述
12.3.1 PROC步創(chuàng)建
12.3.2 DATA步創(chuàng)建
12.3.3 永久存儲及調(diào)用
12.4 正則表達(dá)式
12.4.1 語法說明
12.4.2 常用函數(shù)
12.4.3 實(shí)例詳解
12.5 宏在SAS與Excel轉(zhuǎn)換中的應(yīng)用
12.5.1 SAS數(shù)據(jù)集轉(zhuǎn)換成Excel
12.5.2 Excel轉(zhuǎn)換成SAS數(shù)據(jù)集
第13章 數(shù)據(jù)挖掘概念、任務(wù)和流程
13.1 數(shù)據(jù)挖掘概念
13.2 數(shù)據(jù)挖掘任務(wù)
13.3 數(shù)據(jù)挖掘流程
13.3.1 定義商業(yè)目標(biāo)
13.3.2 編制需求文檔
13.3.3 選擇數(shù)據(jù)源
13.3.4 建模流程圖
13.4 LOGISTIC建模及結(jié)果詳解
13.4.1 數(shù)學(xué)模型
13.4.2 參數(shù)估計(jì)
13.4.3 模型評價指標(biāo)
13.4.4 回歸系數(shù)
13.4.5 變量篩選方法
13.4.6 應(yīng)用舉例及輸出結(jié)果詳解
13.4.7 多值LOGISTIC模型
第14章 響應(yīng)模型:定位新客戶
14.1 前期準(zhǔn)備
14.1.1 商業(yè)需求
14.1.2 定義目標(biāo)
14.1.3 選擇變量
14.2 數(shù)據(jù)獲取與數(shù)據(jù)處理
14.2.1 創(chuàng)建建模數(shù)據(jù)集
14.2.2 變量首次篩選
14.2.3 數(shù)據(jù)探索
14.2.4 數(shù)據(jù)清洗
14.2.5 變量二次篩選
14.2.6 變量三次篩選
14.2.7 字符變量壓縮
14.3 模型開發(fā)
14.3.1 全模型法選擇所有候選模型
14.3.2 逐步回歸法篩選候選模型
14.3.3 創(chuàng)建兩個重要數(shù)據(jù)集
14.3.4 創(chuàng)建LIFT圖
14.3.5 創(chuàng)建評分卡文件
14.4 模型驗(yàn)證
14.4.1 評分卡文件導(dǎo)入
14.4.2 LIFT圖比較
14.4.3 模型確認(rèn)
14.5 模型實(shí)施與監(jiān)控
14.5.1 模型實(shí)施
14.5.2 模型監(jiān)控
14.6 小結(jié)
第15章 行為建模:客戶行為屬性分析
15.1 前期準(zhǔn)備
15.1.1 商業(yè)需求
15.1.2 定義目標(biāo)
15.1.3 選擇建模方法
15.2 數(shù)據(jù)獲取與處理
15.3 模型開發(fā)
15.4 模型驗(yàn)證
15.5 模型打分
15.6 模型預(yù)測
15.7 模型實(shí)施
15.8 小結(jié)
第16章 文本挖掘:Web文本分析
16.1 文本挖掘概念與流程
16.1.1 文本挖掘概念
16.1.2 文本挖掘流程
16.2 商業(yè)案例
16.2.1 商業(yè)需求
16.2.2 建?蚣茉O(shè)計(jì)
16.2.3 結(jié)合樸素貝葉斯文本分類的EM迭代
16.2.4 數(shù)據(jù)獲取與數(shù)據(jù)預(yù)處理
……
參考文獻(xiàn)
6.流失
在商業(yè)領(lǐng)域,流失意味著利潤的減少甚至賬戶關(guān)閉,主要發(fā)生在電信行業(yè)和銀行業(yè)。由于競爭對手的存在,流失會經(jīng)常發(fā)生。如果能夠通過建立一個比較健壯的流失模型,能夠?qū)δ切┛赡茉谖磥淼膸讉月內(nèi)流失的客戶做出準(zhǔn)確的預(yù)測,則從營銷角度就可以提前做好一些準(zhǔn)備,如通過一些營銷手段來挽留這些客戶。從技術(shù)上,流失模型本質(zhì)上和風(fēng)險(xiǎn)模型是一樣的,只是目標(biāo)定義可能會有所不同。一種常見的流失定義是:在過去的6個月內(nèi)賬戶余額皇現(xiàn)減少趨勢,并在第6個月余額低于公司規(guī)定的閾值或比例。
注意:響應(yīng)模型是基于時間點(diǎn)的模型,而風(fēng)險(xiǎn)模型和流失模型是基于時間段的模型。
7.提升銷售和交叉銷售
提升銷售是指預(yù)測客戶購買更多同樣產(chǎn)品的可能性。交叉銷售是指預(yù)測客戶購買公司不同產(chǎn)品的可能性。提升銷售和交叉銷售對于縱向挖掘一個客戶的潛在利潤是非常重要的。從技術(shù)上來說,關(guān)聯(lián)規(guī)則也許能夠幫助公司發(fā)現(xiàn)客戶的特征,著名的“啤酒和尿布”就是多數(shù)數(shù)據(jù)挖掘圖書“言必稱希臘”的經(jīng)典案例,但是在作者看來,“啤酒和尿布”如同“尼斯湖怪獸”一樣并非值得絕對信賴。在提升和交叉銷售領(lǐng)域,更多的關(guān)注應(yīng)該是客戶消費(fèi)對象本身的關(guān)聯(lián)性以及客戶的消費(fèi)心理,這是更偏向于定性分析的技術(shù),而不是定量分析的方法。
事實(shí)上,以上列舉的商業(yè)需求只是千千萬萬個商業(yè)需求中的部分代表,讀者能夠從中得到這樣的啟發(fā):所有的數(shù)據(jù)挖掘技術(shù)都是商業(yè)目標(biāo)的一個實(shí)現(xiàn),或簡單,或復(fù)雜。而商業(yè)應(yīng)用的最高原則就是“效率、效果”。
13.3.2.編制需求文檔
在明確了商業(yè)目標(biāo)之后,接下來就需要分析師編制需求文檔。需求文檔是商業(yè)目標(biāo)的細(xì)化。完整的需求文檔應(yīng)包括以下幾個部分:
項(xiàng)目計(jì)劃文檔(PPT)。
方法論設(shè)計(jì)文檔(Word)。
變量需求文檔(Excel)。
這三個項(xiàng)目涵蓋了商業(yè)客戶需求、團(tuán)隊(duì)頭腦風(fēng)暴成果、項(xiàng)目數(shù)據(jù)收集指標(biāo)三個重要內(nèi)容。
1.項(xiàng)目計(jì)劃文檔
項(xiàng)目計(jì)劃文檔是指實(shí)現(xiàn)客戶需求而制定的需求框架、計(jì)劃內(nèi)容、路線圖和資源。由于該部分內(nèi)容主要呈現(xiàn)給商業(yè)客戶,因此一般以PPT形式,幻燈片盡量控制在10張以下。