在大數(shù)據(jù)時(shí)代背景下,統(tǒng)計(jì)學(xué)作為數(shù)據(jù)分析領(lǐng)域的基礎(chǔ),被應(yīng)用于各行各業(yè),其方法發(fā)揮著
重要作用。為了更廣泛地普及統(tǒng)計(jì)學(xué)知識(shí),培養(yǎng)更多的統(tǒng)計(jì)學(xué)人才,《商務(wù)統(tǒng)計(jì)學(xué)基礎(chǔ):從不確定性到人工智能》應(yīng)運(yùn)而生。
作為入門(mén)級(jí)圖書(shū),《商務(wù)統(tǒng)計(jì)學(xué)基礎(chǔ):從不確定性到人工智能》內(nèi)容安排如下。第 1 章從不確定性出發(fā),講述統(tǒng)計(jì)學(xué)和不確定性的關(guān)
系,以及統(tǒng)計(jì)學(xué)中用于描述不確定性的各種概率模型。第 2 章是參數(shù)估計(jì),系統(tǒng)講述統(tǒng)計(jì)學(xué)中矩
估計(jì)和極大似然估計(jì)兩種常用的參數(shù)估計(jì)方法,并基于兩種方法介紹各種常見(jiàn)概率分布中參數(shù)的
點(diǎn)估計(jì)和區(qū)間估計(jì)。第 3 章是假設(shè)檢驗(yàn),首先從不確定性的角度探討實(shí)際中的各種決策問(wèn)題,幫
助讀者理解假設(shè)檢驗(yàn)的思想和應(yīng)用場(chǎng)景,然后系統(tǒng)介紹假設(shè)檢驗(yàn)的方法論及各種常見(jiàn)推廣。第 4
章是回歸分析,首先介紹回歸分析的思想和廣泛的應(yīng)用場(chǎng)景,然后系統(tǒng)地介紹各類(lèi)常用模型,從
線性回歸到廣義線性回歸,最終落腳到兩種機(jī)器學(xué)習(xí)算法(決策樹(shù)、神經(jīng)網(wǎng)絡(luò))。
《商務(wù)統(tǒng)計(jì)學(xué)基礎(chǔ):從不確定性到人工智能》特別強(qiáng)調(diào)實(shí)際應(yīng)用,因此各個(gè)章節(jié)都輔以大量的實(shí)際案例,在介紹統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)的同
時(shí)培養(yǎng)讀者使用統(tǒng)計(jì)學(xué)方法解決實(shí)際問(wèn)題的能力。
理發(fā)的時(shí)候,Tony 老師總是希望跟我聊天,我想這也許是他們工作 KPI(Key Performance Indicator,關(guān)鍵績(jī)效指標(biāo))的一部分。但是,作為一個(gè)教書(shū)匠,我每天的正常工作狀態(tài)就是:開(kāi)會(huì)、上課;開(kāi)會(huì)、上課;開(kāi)會(huì)、上課。等到下班后,實(shí)在是不想再多說(shuō)一句話。這位 Tony 老師卻揪著我不依不饒,總是希望撬開(kāi)我的嘴跟我說(shuō)點(diǎn)啥。哥,您是做啥的?額,我是教書(shū)的。您教啥?額,我教統(tǒng)計(jì)學(xué)。聽(tīng)到統(tǒng)計(jì)學(xué)三個(gè)字,Tony 老師的眼睛一下子亮了起來(lái),說(shuō):那您一定特別會(huì)統(tǒng)計(jì)!額……然后現(xiàn)場(chǎng)就有點(diǎn)尷尬了。我知道他說(shuō)的統(tǒng)計(jì)是啥,就是一堆表格唄。但是,這是我熱愛(ài)的統(tǒng)計(jì)學(xué)嗎?顯然不是呀!如果統(tǒng)計(jì)學(xué)就是數(shù)數(shù),那哪里需要一個(gè)學(xué)科去支持?但很遺憾的是,這就是社會(huì)大眾對(duì)統(tǒng)計(jì)學(xué)的一個(gè)極大的誤解,而這個(gè)誤解可能也影響了統(tǒng)計(jì)學(xué)的普及和發(fā)展。我們有責(zé)任去糾正它,給更廣泛的大眾普及統(tǒng)計(jì)學(xué)知識(shí),為國(guó)家為社會(huì)培養(yǎng)更多的統(tǒng)計(jì)學(xué)人才,用我們的努力去促進(jìn)統(tǒng)計(jì)學(xué)在產(chǎn)業(yè)中的應(yīng)用。而要實(shí)現(xiàn)這個(gè)雄心壯志,就需要一本面向非統(tǒng)計(jì)學(xué)專(zhuān)業(yè)讀者的入門(mén)級(jí)書(shū)籍,而這也是我多年的夙愿,終于在北京大學(xué)出版社魏雪萍老師的督促下,還有菲菲老師和多位助教同學(xué)的支持下,完成本書(shū)并呈現(xiàn)給大家。
首先需要強(qiáng)調(diào)一點(diǎn),作為一個(gè)有將近二十年教齡的教書(shū)匠,隨著歲數(shù)的增加,似乎勇氣和信心是單調(diào)下降的。教書(shū)時(shí)間越長(zhǎng),就越告訴自己:我教的東西是沒(méi)有辦法保證絕對(duì)正確的。原因很簡(jiǎn)單,任何一個(gè)理論的正確性,都會(huì)隨著人們認(rèn)知的增加,不停地被挑戰(zhàn)。例如,在遙遠(yuǎn)的古代,如果人們提出一個(gè)理論說(shuō)大地是平的,那么這個(gè)理論應(yīng)該是正確的,因?yàn)樵摾碚摳藗兎浅S邢薜奈锢砘顒?dòng)范圍所產(chǎn)生的認(rèn)知是一致的。但是,后來(lái)人們進(jìn)入了大航海時(shí)代,再后來(lái)又進(jìn)入了太空時(shí)代,我們發(fā)現(xiàn)以前關(guān)于大地是平的理論無(wú)法解釋我們感知到的這個(gè)世界,因?yàn)槲覀兊幕顒?dòng)空間變大了太多,所以我們目前的理論說(shuō)大地其實(shí)是一個(gè)球形。直到今天,該理論是正確的,因?yàn)樵摾碚撆c人們當(dāng)前的物理活動(dòng)范圍所產(chǎn)生的認(rèn)知是一致的。但是,隨著科學(xué)技術(shù)的進(jìn)步,會(huì)不會(huì)有一天未來(lái)的人們進(jìn)入了某種高維空間,回過(guò)頭來(lái)看地球的時(shí)候,是另外一個(gè)景象?鋪墊了這么多,我其實(shí)是想誠(chéng)實(shí)地告訴大家:接下來(lái)本書(shū)所呈現(xiàn)的各種理論和觀點(diǎn),我都沒(méi)有能力保證它的絕對(duì)正確性。我能保證的是:第一,這是我多年深入而誠(chéng)實(shí)的思考;第二,我忠實(shí)地想和你分享匯報(bào),也請(qǐng)你審慎思考,批判性接受,真誠(chéng)地希望你能夠多多提出批評(píng)意見(jiàn),雖然我并不一定會(huì)被說(shuō)服,但是我一定會(huì)認(rèn)真聆聽(tīng)。
在給大家打了上面這個(gè)關(guān)于理論沒(méi)有絕對(duì)正確性的預(yù)防針后,我想分享下我對(duì)統(tǒng)計(jì)學(xué)理解的第一個(gè)執(zhí)念,這個(gè)執(zhí)念是統(tǒng)計(jì)學(xué)到底是研究什么的。我希望給統(tǒng)計(jì)學(xué)的核心研究?jī)?nèi)容一個(gè)最簡(jiǎn)單、直白、高度凝練的定義,將來(lái)再碰到 Tony 老師的時(shí)候,我能用一句話糾正他關(guān)于統(tǒng)計(jì)學(xué)的錯(cuò)誤認(rèn)識(shí)。那么,在我的執(zhí)念中,統(tǒng)計(jì)學(xué)到底是研究什么的?答:不確定性。在我看來(lái),統(tǒng)計(jì)學(xué)就是一個(gè)關(guān)于不確定性的學(xué)問(wèn),只有這個(gè)特點(diǎn),能夠?qū)⒔y(tǒng)計(jì)學(xué)準(zhǔn)確且唯一地與其他學(xué)科嚴(yán)格區(qū)分開(kāi),并彰顯它的獨(dú)特之處。很多學(xué)者可能認(rèn)為統(tǒng)計(jì)學(xué)是一個(gè)關(guān)于數(shù)據(jù)的學(xué)科。這顯然是一個(gè)有道理的觀點(diǎn),但是我并不太認(rèn)同。因?yàn),關(guān)于數(shù)據(jù)的學(xué)科似乎不僅僅包括統(tǒng)計(jì)學(xué),在我看來(lái),計(jì)算機(jī)、數(shù)學(xué)、運(yùn)籌優(yōu)化等領(lǐng)域也都是同數(shù)據(jù)高度相關(guān)的學(xué)科。如果標(biāo)準(zhǔn)稍微寬松一點(diǎn),其實(shí)所有的自然學(xué)科和社會(huì)學(xué)科都跟數(shù)據(jù)相關(guān)。畢竟,這是一個(gè)大數(shù)據(jù)時(shí)代了!所以,說(shuō)統(tǒng)計(jì)學(xué)是一個(gè)關(guān)于數(shù)據(jù)的學(xué)科,這個(gè)說(shuō)法有道理,但是并不準(zhǔn)確,因?yàn)樗荒軠?zhǔn)確地表達(dá)出統(tǒng)計(jì)學(xué)區(qū)別于其他學(xué)科的最獨(dú)特之處。在我看來(lái),統(tǒng)計(jì)學(xué)是所有學(xué)科中唯一的以不確定性為最核心研究目標(biāo)的學(xué)科。為此,統(tǒng)計(jì)學(xué)的學(xué)習(xí)一定是從概率論開(kāi)始,因?yàn)楦怕收撌悄壳皯?yīng)用最廣泛的關(guān)于不確定性測(cè)量的數(shù)學(xué)工具。所以,本書(shū)就是從這樣一個(gè)執(zhí)念開(kāi)始的,那就是統(tǒng)計(jì)學(xué)不研究統(tǒng)計(jì),統(tǒng)計(jì)學(xué)研究不確定性。
既然統(tǒng)計(jì)學(xué)研究不確定性,那么我們學(xué)習(xí)統(tǒng)計(jì)學(xué)的精彩旅程,就應(yīng)該從不確定性開(kāi)始。為此,本書(shū)的開(kāi)篇不是講任何數(shù)學(xué)模型,而是希望幫助大家了悟一個(gè)基本事實(shí),那就是:大千世界,小到個(gè)人,中到企業(yè)機(jī)構(gòu),大到國(guó)家、全世界,不確定性無(wú)處不在,而且非常重要,影響巨大。因此,非常有必要通過(guò)建制一個(gè)完備的學(xué)科,全面系統(tǒng)地研究不確定性,而這個(gè)學(xué)科就是統(tǒng)計(jì)學(xué)。為此,你需要了解不同的數(shù)據(jù)類(lèi)型,以及適用于不同數(shù)據(jù)類(lèi)型的概率模型。為了能夠用不同的概率模型去表達(dá)人們所看到的不確定性數(shù)據(jù),需要學(xué)習(xí)以極大似然估計(jì)和矩估計(jì)為核心的參數(shù)估計(jì)方法,并在這個(gè)基礎(chǔ)上學(xué)習(xí)以置信區(qū)間和假設(shè)檢驗(yàn)為核心的統(tǒng)計(jì)學(xué)推斷方法,并因此獲得對(duì)不確定性問(wèn)題做出科學(xué)決策的能力。為了進(jìn)一步理解不確定性的構(gòu)成,我們需要學(xué)習(xí)回歸分析,不僅僅是從技術(shù)層面,還要從思想層面去學(xué)習(xí)。什么是回歸分析?回歸分析是統(tǒng)計(jì)學(xué)中最核心的工具之一,它能幫助我們從不確定性現(xiàn)象中洞察確定性的規(guī)律。能幫助我們理解一個(gè)看似完全不確定性的現(xiàn)象,其中可能有一部分是具有確定性規(guī)律的,因此是可以被把握利用的。
通過(guò)對(duì)不確定性的利用,回歸分析能幫助我們?yōu)樾刨J業(yè)務(wù)提供風(fēng)控模型,為在線營(yíng)銷(xiāo)提供精準(zhǔn)廣告和推薦算法,為量化投資提供自動(dòng)化資產(chǎn)優(yōu)化建議,以及其他各種非常精彩且重要的實(shí)際應(yīng)用。那么,從純技術(shù)的角度看,什么是回歸分析?答:任何研究一個(gè)因變量Y 和解釋性變量X 之間相關(guān)關(guān)系的模型都是回歸分析。為此,人們需要根據(jù)Y 和X 的特點(diǎn),對(duì)它們之間可能存在的相關(guān)關(guān)系,做出必要的數(shù)學(xué)假設(shè)。這樣的假設(shè)可能是相對(duì)簡(jiǎn)單的,這就產(chǎn)生了線性回歸模型和廣義線性回歸模型。當(dāng)然,也可以是非線性的,這就產(chǎn)生了各種機(jī)器學(xué)習(xí)算法(如決策樹(shù)、神經(jīng)網(wǎng)絡(luò))。其中尤其值得注意的是,多層神經(jīng)網(wǎng)絡(luò)模型構(gòu)成了深度學(xué)習(xí)算法的模型基礎(chǔ),它在非結(jié)構(gòu)化數(shù)據(jù)(如圖像、自然語(yǔ)言)的分析中獲得了巨大的成功,支撐了大量的人工智能應(yīng)用。
由此可見(jiàn),本書(shū)的定位是非常獨(dú)特的統(tǒng)計(jì)學(xué)入門(mén)書(shū)籍。第一,它面向的人群廣泛,主要服務(wù)于非統(tǒng)計(jì)學(xué)的讀者,但是對(duì)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的同學(xué)來(lái)說(shuō),本書(shū)也應(yīng)該是一個(gè)不錯(cuò)的參考書(shū);第二,它充滿雄心壯志,從不確定性出發(fā),歷經(jīng)經(jīng)典統(tǒng)計(jì)學(xué)的內(nèi)容(如參數(shù)估計(jì)、假設(shè)檢驗(yàn)、回歸分析),并最終抵達(dá)機(jī)器學(xué)習(xí)和人工智能的彼岸,希望為讀者未來(lái)的進(jìn)一步學(xué)習(xí),提供一個(gè)好的起點(diǎn);第三,它非常強(qiáng)調(diào)實(shí)際應(yīng)用,全書(shū)從頭到尾列舉了大量的實(shí)際案例。希望本書(shū)能一邊傳授統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí),還能一邊幫助讀者了悟這些知識(shí)的實(shí)際用處。畢竟,編寫(xiě)本書(shū)的目的不僅僅是普及統(tǒng)計(jì)學(xué)知識(shí)和培養(yǎng)統(tǒng)計(jì)學(xué)人才,還包括推動(dòng)統(tǒng)計(jì)學(xué)在產(chǎn)業(yè)中的應(yīng)用,因此案例非常重要。
最后,感謝北京大學(xué)出版社的魏雪萍老師,沒(méi)有他的督促,本書(shū)難以完成。感謝北京大學(xué)出版社的劉云老師,感謝她為本書(shū)提供的各種建議。感謝菲菲老師,能夠被我拉上賊船,成為我最依賴的合作伙伴,一起完成這個(gè)辛苦的工作。感謝兩位特別給力的助教,他們分別是來(lái)自中國(guó)人民大學(xué)的袁雪瓊同學(xué)和來(lái)自北京交通大學(xué)的劉炯暉同學(xué)。兩位同學(xué)為本書(shū)的形成付出了非常辛苦的工作,也受了不少委屈,謝謝你們!此外,還要感謝購(gòu)買(mǎi)本書(shū)的讀者,感謝你對(duì)統(tǒng)計(jì)學(xué)的好奇心。通過(guò)對(duì)本書(shū)的學(xué)習(xí),希望你能掌握一套獨(dú)特的方法論,能夠?qū)Σ淮_定性有更好的理解甚至把握,并因此為社會(huì)做出杰出的貢獻(xiàn)。
王漢生
王漢生 王菲菲
----------------------------
王漢生,北京大學(xué)光華管理學(xué)院商務(wù)統(tǒng)計(jì)與經(jīng)濟(jì)計(jì)量系,教授,博導(dǎo),系主任。1998年北京大學(xué)數(shù)學(xué)學(xué)院概率統(tǒng)計(jì)系本科畢業(yè),2001年美國(guó)威斯康星大學(xué)麥迪遜分校統(tǒng)計(jì)系博士畢業(yè)。2003年加入光華至今。國(guó)家杰出青年基金獲得者,全國(guó)工業(yè)統(tǒng)計(jì)學(xué)教學(xué)研究會(huì)青年統(tǒng)計(jì)學(xué)家協(xié)會(huì)創(chuàng)始會(huì)長(zhǎng),美國(guó)統(tǒng)計(jì)學(xué)會(huì)(ASA)Fellow,國(guó)際統(tǒng)計(jì)協(xié)會(huì)(ISI)Elected Member,英國(guó)皇家統(tǒng)計(jì)協(xié)會(huì)(RSS)、美國(guó)數(shù)理統(tǒng)計(jì)協(xié)會(huì)(IMS)、泛華國(guó)際統(tǒng)計(jì)協(xié)會(huì)(ICSA)的當(dāng)選會(huì)員。著有《數(shù)據(jù)思維》《數(shù)據(jù)資產(chǎn)論》(中國(guó)人民大學(xué)出版社出版)。
王菲菲,中國(guó)人民大學(xué)副教授,主要研究方向及代表性成果:感興趣的研究方向包括文本挖掘、大規(guī)模數(shù)據(jù)分析等,曾在《中國(guó)科學(xué)(數(shù)學(xué))》等國(guó)內(nèi)外高水平期刊發(fā)表20余篇文章。
第1章 不確定性的描述
1.1 從不確定性出發(fā) / 002
1.2? 連續(xù)型數(shù)據(jù) / 012
1.3 正態(tài)概率密度 / 023
1.4? t- 分布 / 037
1.5 指數(shù)分布 / 048
1.6? 0-1 分布 / 059
1.7 泊松分布 / 069
第2章 參數(shù)估計(jì)
2.1 矩估計(jì) / 081
2.2 極大似然估計(jì) / 090
2.3 正態(tài)分布均值的區(qū)間估計(jì) / 101
2.4 正態(tài)分布方差的區(qū)間估計(jì) / 113
2.5 其他分布參數(shù)的區(qū)間估計(jì) / 125 ??
指數(shù)分布 / 125 ??
0-1 分布 / 129 ??
泊松分布 / 131 ??
一般分布的均值 / 133 ??
案例演示 / 134 ??
兩樣本問(wèn)題 / 135
2.6 樣本量計(jì)算 / 138 ??
指數(shù)分布 / 145 ??
泊松分布 / 147 ??
0-1 分布 / 149 ??
一般分布 / 151
第3章假設(shè)檢驗(yàn)
3.1 不確定性與決策 / 155
3.2 兩種不同類(lèi)型的錯(cuò)誤 / 167
3.3 為什么推翻原假設(shè) / 180
3.4 關(guān)于均值的假設(shè)檢驗(yàn)問(wèn)題 / 188
3.5 假設(shè)檢驗(yàn)的各種推廣 / 200 ??
雙樣本檢驗(yàn) / 200 ??
方差檢驗(yàn) / 204 ??
雙單邊檢驗(yàn) / 209
3.6 假設(shè)檢驗(yàn)中的 p 值 / 213
3.7 假設(shè)檢驗(yàn)中的樣本量計(jì)算 / 222 ??
單邊假設(shè)檢驗(yàn) / 223 ??
雙邊假設(shè)檢驗(yàn) / 226 ??
雙單邊假設(shè)檢驗(yàn) / 230
第4章回歸分析
4.1 回歸分析是什么 / 237
4.2 數(shù)據(jù)類(lèi)型與回歸模型 / 248 ??
第一式:線性回歸 / 248 ??
第二式:0-1 回歸 / 252 ??
第三式:定序回歸 / 254 ??
第四式:計(jì)數(shù)回歸 / 258 ??
第五式:生存回歸 / 260
4.3 線性回歸模型 / 266 ??
案例介紹 / 266 ??
描述分析 / 268 ??
理論模型 / 272 ??
關(guān)于殘差的討論 / 274 ??
參數(shù)估計(jì) / 275 ??
假設(shè)檢驗(yàn) / 279
4.4 時(shí)間序列模型 / 283
4.5 0-1 回歸模型 / 297 ??
案例介紹 / 297 ??
描述分析 / 299 ??
模型描述 / 302 ??
參數(shù)估計(jì)與統(tǒng)計(jì)推斷 / 306
4.6 決策樹(shù)模型 / 311
4.7 神經(jīng)網(wǎng)絡(luò)模型 / 322