這是一本將數(shù)據(jù)科學(xué)三要素商業(yè)理解、量化模型、數(shù)據(jù)技術(shù)全面打通的實戰(zhàn)性著作,是來自騰訊、滴滴、快手等一線互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和算法工程師的經(jīng)驗總結(jié),得到了SQLFlow創(chuàng)始人以及騰訊、網(wǎng)易、快手、貝殼找房、谷歌等企業(yè)的專家一致好評和推薦。
全書三個部分,內(nèi)容相對獨立,既能幫助初學(xué)者建立知識體系,又能幫助從業(yè)者解決商業(yè)中的實際問題,還能幫助有經(jīng)驗的專家快速掌握數(shù)據(jù)科學(xué)的技術(shù)和發(fā)展動向。內(nèi)容圍繞非實驗環(huán)境下的觀測數(shù)據(jù)的分析、實驗的設(shè)計和分析、自助式數(shù)據(jù)科學(xué)平臺3大主題展開,涉及統(tǒng)計學(xué)、經(jīng)濟(jì)學(xué)、機(jī)器學(xué)習(xí)、實驗科學(xué)等多個領(lǐng)域,包含大量常用的數(shù)據(jù)科學(xué)方法、簡潔的代碼實現(xiàn)和經(jīng)典的實戰(zhàn)案例。
部分(第 1~6 章) 觀測數(shù)據(jù)的分析技術(shù)
講解了非實驗環(huán)境下不同觀測數(shù)據(jù)分析場景所對應(yīng)的分析框架、原理及實際操作,包括消費者選擇偏好分析、消費者在時間維度上的行為分析、基于機(jī)器學(xué)習(xí)的用戶生命周期價值預(yù)測、基于可解釋模型技術(shù)的商業(yè)場景挖掘、基于矩陣分解技術(shù)的用戶行為規(guī)律發(fā)現(xiàn)與挖掘,以及在不能進(jìn)行實驗分析時如何更科學(xué)地進(jìn)行全量評估等內(nèi)容。
第二部分(第7~9章)實驗設(shè)計和分析技術(shù)
從 A/B 實驗的基本原理出發(fā),深入淺出地介紹了各種商業(yè)場景下進(jìn)行實驗設(shè)計需要參考的原則和運用的方法,尤其是在有樣本量約束條件下提升實驗效能的方法及商業(yè)場景限制導(dǎo)致的非傳統(tǒng)實驗設(shè)計。
第三部分(第10~12章) 自助式數(shù)據(jù)科學(xué)平臺SQLFlow
針對性的講解了開源的工程化的自助式數(shù)據(jù)科學(xué)平臺SQLFlow,并通過系統(tǒng)配置、黑盒模型的解讀器應(yīng)用、聚類分析場景等案例幫助讀者快速了解這一面向未來的數(shù)據(jù)科學(xué)技術(shù)。
(1)豪華作者陣容:作者全部是自騰訊、滴滴、快手等一線互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和算法工程師,經(jīng)驗極為豐富。
(2)三維度深融合:將數(shù)據(jù)科學(xué)的3個維度商業(yè)理解、量化模型、數(shù)據(jù)技術(shù)全面打通,涵蓋數(shù)據(jù)科學(xué)的應(yīng)用場景、理論支撐和技術(shù)底座。
(3)應(yīng)用場景面廣:本書所有數(shù)據(jù)科學(xué)應(yīng)用場景均來自商業(yè)環(huán)境,強(qiáng)調(diào)實用、可操作性強(qiáng)。
(4)方法論與案例:圍繞3大主題給出了大量方法論和實踐,方法論與案例的背景、代碼、解讀等模塊深度融合。
為什么要寫這本書
2011年,《哈佛商業(yè)評論》將數(shù)據(jù)科學(xué)稱作21世紀(jì)吸引人的行業(yè),隨后,數(shù)據(jù)科學(xué)這個概念開始從互聯(lián)網(wǎng)漫延到各行各業(yè)。但是人們對這個概念的內(nèi)涵和外延并無統(tǒng)一的認(rèn)知,同時,數(shù)據(jù)科學(xué)也不像軟件工程、市場營銷等方向有較為明確的教育體系作為支撐,開設(shè)數(shù)據(jù)科學(xué)學(xué)科和課程的學(xué)校都是2011年之后才開始探索的,并且大多沒有一個適用于工業(yè)應(yīng)用的課程體系。從業(yè)人員普遍反映需要一個系統(tǒng)的框架來搭建自己的技術(shù)棧和知識體系,從而提升專業(yè)化的能力。因此,市場上迫切需要一本覆蓋面廣、應(yīng)用性強(qiáng)、深入淺出的數(shù)據(jù)科學(xué)手冊。
本書的作者是國內(nèi)數(shù)據(jù)科學(xué)一線的從業(yè)者,創(chuàng)作目的主要有以下三個。
1)提供一個以商業(yè)場景為導(dǎo)向的實用量化方法論。數(shù)據(jù)科學(xué)是為商業(yè)服務(wù)的,重要的能力是收斂開放的商業(yè)問題,并有針對性地選擇適當(dāng)?shù)牧炕蚣苓M(jìn)行后驗數(shù)據(jù)分析。這是一個相輔相成的過程,收斂的過程既依賴對業(yè)務(wù)的深刻理解,又需要充分理解各種分析框架的假設(shè)和抽象原理。
2)提供一個入門的臺階,供讀者按圖索驥、深入研究。數(shù)據(jù)科學(xué)領(lǐng)域知識面廣,又有一定的深度,需要長期的學(xué)習(xí)和經(jīng)驗的積累。一本書很難涵蓋數(shù)據(jù)科學(xué)的所有知識點,但是本書可以點明關(guān)鍵節(jié)點,起到引導(dǎo)作用,幫助讀者進(jìn)行后續(xù)的進(jìn)階學(xué)習(xí)。
3)展示數(shù)據(jù)科學(xué)所需的專業(yè)能力和門檻,為讀者在求職過程中找準(zhǔn)定位、為人事部門進(jìn)行職能設(shè)計提供范例,F(xiàn)在數(shù)據(jù)科學(xué)領(lǐng)域的就業(yè)和招聘十分熱門,但是能說清數(shù)據(jù)科學(xué)專家到底需要什么樣的技能、需要達(dá)到什么樣的程度,以及這個行業(yè)有什么典型成功案例的人卻非常少。
讀者對象
本書適合以下讀者:
初入職場的數(shù)據(jù)分析師,用于升級個人專業(yè)分析技能;
從業(yè)多年的數(shù)據(jù)科學(xué)管理者,用于梳理、整合知識體系,提升團(tuán)隊能力;
數(shù)據(jù)科學(xué)、商業(yè)分析等專業(yè)的師生,用于延展閱讀;
數(shù)據(jù)科學(xué)行業(yè)的人力專家和獵頭,用于標(biāo)定潛在候選人能力。
本書特色
相比于市面上其他數(shù)據(jù)科學(xué)相關(guān)圖書,本書有以下特色。
1)將技術(shù)與商業(yè)場景緊密結(jié)合,強(qiáng)調(diào)開放性商業(yè)問題在量化分析上的收斂。市場上不乏純技術(shù)類的數(shù)據(jù)科學(xué)圖書和各種機(jī)器學(xué)習(xí)建模、統(tǒng)計計算的圖書,但是這些書都跳過了對開放式商業(yè)問題的思考,直接針對已經(jīng)非常明確的建模本身進(jìn)行介紹。本書則將重心放在案例分析的全流程上,既講解量化模型的理論,又解釋商業(yè)到數(shù)理模型的映射過程,還強(qiáng)調(diào)了對模型結(jié)果的解讀和應(yīng)用,實用性非常強(qiáng)。
2)這是國內(nèi)本系統(tǒng)介紹統(tǒng)計實驗在多種復(fù)雜商業(yè)場景下具體應(yīng)用的書。統(tǒng)計實驗相關(guān)的圖書通常分為三類:類側(cè)重理論研究,對于已經(jīng)工作的讀者來說實踐意義不大,且學(xué)習(xí)難度高;第二類是將生物醫(yī)學(xué)領(lǐng)域的理論和案例相結(jié)合,這類書的應(yīng)用場景和背景與互聯(lián)網(wǎng)行業(yè)相差較大,不容易做到舉一反三;第三類是少部分互聯(lián)網(wǎng)領(lǐng)域統(tǒng)計實驗的書,這類書多是外文,知識較新,閱讀門檻較高,通常針對互聯(lián)網(wǎng)廣告和搜索領(lǐng)域,在不理解理論背景的情況下也難以遷移到其他場景。
3)本書應(yīng)用場景覆蓋面廣,強(qiáng)調(diào)實用,可操作性強(qiáng),將方法論與配套案例的背景、代碼、解讀等模塊結(jié)合在一起,讓讀者學(xué)習(xí)后即可運用在實踐中。
如何閱讀本書
這是一本將數(shù)據(jù)科學(xué)三要素商業(yè)理解、量化模型、數(shù)據(jù)技術(shù)全面打通的實戰(zhàn)性著作,是來自騰訊、滴滴、快手等一線互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和算法工程師的經(jīng)驗總結(jié),得到了SQLFlow創(chuàng)始人以及騰訊、網(wǎng)易、快手、貝殼找房、谷歌等企業(yè)的專家一致好評和推薦。
全書三個部分,內(nèi)容相對獨立,既能幫助初學(xué)者建立知識體系,又能幫助從業(yè)者解決商業(yè)中的實際問題,還能幫助有經(jīng)驗的專家快速掌握數(shù)據(jù)科學(xué)的技術(shù)和發(fā)展動向。內(nèi)容圍繞非實驗環(huán)境下的觀測數(shù)據(jù)的分析、實驗的設(shè)計和分析、自助式數(shù)據(jù)科學(xué)平臺3大主題展開,涉及統(tǒng)計學(xué)、經(jīng)濟(jì)學(xué)、機(jī)器學(xué)習(xí)、實驗科學(xué)等多個領(lǐng)域,包含大量常用的數(shù)據(jù)科學(xué)方法、簡潔的代碼實現(xiàn)和經(jīng)典的實戰(zhàn)案例。
部分(第1~6章)觀測數(shù)據(jù)的分析技術(shù)
講解了非實驗環(huán)境下不同觀測數(shù)據(jù)分析場景所對應(yīng)的分析框架、原理及實際操作,包括消費者選擇偏好分析、消費者在時間維度上的行為分析、基于機(jī)器學(xué)習(xí)的用戶生命周期價值預(yù)測、基于可解釋模型技術(shù)的商業(yè)場景挖掘、基于矩陣分解技術(shù)的用戶行為規(guī)律發(fā)現(xiàn)與挖掘,以及在不能進(jìn)行實驗分析時如何更科學(xué)地進(jìn)行全量評估等內(nèi)容。
第二部分(第7~9章)實驗設(shè)計和分析技術(shù)
從A/B實驗的基本原理出發(fā),深入淺出地介紹了各種商業(yè)場景下進(jìn)行實驗設(shè)計需要參考的原則和運用的方法,尤其是在有樣本量約束條件下提升實驗效能的方法及商業(yè)場景限制導(dǎo)致的非傳統(tǒng)實驗設(shè)計。
第三部分(第10~12章) 自助式數(shù)據(jù)科學(xué)平臺SQLFlow
針對性地講解了開源的工程化的自助式數(shù)據(jù)科學(xué)平臺SQLFlow,并通過系統(tǒng)配置、黑盒模型的解讀器應(yīng)用、聚類分析場景等案例幫助讀者快速了解這一面向未來的數(shù)據(jù)科學(xué)技術(shù)。
勘誤和支持
除封面署名外,參與本書編寫工作的還有:周銀河、丁芬、蘇濤、王禹、吳君涵、楊驍捷、劉沖、王玉璽、劉未名、楊凱迪、李依諾、陳祥、朱文靜。由于作者的水平有限,編寫時間倉促,書中難免會出現(xiàn)一些錯誤或者不準(zhǔn)確的地方,懇請讀者批評指正。為此,我們特意創(chuàng)建了一個GitHub倉庫(https://github.com/xieliaing/Data_Science_Industrial_Practice)。讀者可以將發(fā)現(xiàn)的代碼Bug、文字問題以及疑惑,在Issue中提出,我們會將修改后的內(nèi)容及解答通過Pull Request合并進(jìn)主干。書中的全部源文件除可以從華章網(wǎng)站下載外,還可以從這個GitHub倉庫下載,期待能夠得到你們的真摯反饋。
致謝
首先要感謝C. F. Jeff Wu、Williaw S. Cleveland、LinkedIn的DJ Patil及Facebook的Jeff Hammerbacher等先驅(qū),他們成功地開創(chuàng)了數(shù)據(jù)科學(xué)這一個行業(yè),影響和激勵了無數(shù)人投身其中。
感謝快手科技副總裁、數(shù)據(jù)分析部負(fù)責(zé)人宋世君把數(shù)據(jù)科學(xué)的理念引入國內(nèi),實現(xiàn)了從0到1的跨越。感謝我原來統(tǒng)計科學(xué)團(tuán)隊的同事們,他們是國內(nèi)數(shù)據(jù)科學(xué)的開拓者,通過實踐讓數(shù)據(jù)科學(xué)的理念在國內(nèi)萌芽發(fā)展、完善進(jìn)步并得到認(rèn)可。
感謝發(fā)起并維護(hù)SQLFlow開源社區(qū)的王益博士、劉勇峰老師及其開發(fā)團(tuán)隊。
感謝機(jī)械工業(yè)出版社華章公司的楊福川老師和韓蕊老師,在這一年多的時間里始終支持我們寫作,保障了本書順利完成。
謹(jǐn)以此書獻(xiàn)給我親愛的家人以及眾多熱愛并投身數(shù)據(jù)科學(xué)的朋友們!
謝梁
2021年2月8日
謝梁 經(jīng)濟(jì)學(xué)博士,騰訊QQ瀏覽器副總經(jīng)理、QQ瀏覽器數(shù)據(jù)負(fù)責(zé)人。CCF數(shù)據(jù)科學(xué)專委會創(chuàng)始委員,入選財經(jīng)數(shù)據(jù)科學(xué)50人,清華大學(xué)商學(xué)院及香港大學(xué)商學(xué)院商業(yè)分析碩士項目指導(dǎo)嘉賓。曾任滴滴杰出數(shù)據(jù)科學(xué)家、美國微軟云存儲核心工程部首席數(shù)據(jù)科學(xué)家。
繆瑩瑩 浙江大學(xué)碩士,曾任滴滴首席數(shù)據(jù)科學(xué)家,CCF數(shù)據(jù)科學(xué)專委會委員。擁有十余項國家發(fā)明專利及國際發(fā)明專利,具有豐富的數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)挖掘建模、實驗科學(xué)與戰(zhàn)略分析的經(jīng)驗。帶領(lǐng)團(tuán)隊用數(shù)據(jù)的方式驅(qū)動從0到1的初創(chuàng)形態(tài)的業(yè)務(wù)和成熟形態(tài)業(yè)務(wù)的增長,善于發(fā)現(xiàn)業(yè)務(wù)機(jī)會和風(fēng)險,給業(yè)務(wù)帶來巨大價值。
高梓堯 快手?jǐn)?shù)據(jù)分析總監(jiān),長期在美國硅谷和中國多家互聯(lián)網(wǎng)科技公司從事用戶分析、實驗設(shè)計等相關(guān)工作。曾帶領(lǐng)滴滴數(shù)據(jù)科學(xué)團(tuán)隊與螞蟻金服聯(lián)合開源共建一站式機(jī)器學(xué)習(xí)工具SQLFlow。擁有多項國家發(fā)明專利。清華大學(xué)商學(xué)院及哥倫比亞大學(xué)商學(xué)院商業(yè)分析碩士項目指導(dǎo)嘉賓、泛華統(tǒng)計協(xié)會演講嘉賓。
王子玲 上海交通大學(xué)計算數(shù)學(xué)碩士,曾任滴滴高級數(shù)據(jù)科學(xué)家、高級模型專家、高級風(fēng)控專家。先后任職于日企MTI、人人網(wǎng)、滴滴出行、愛奇藝等知名互聯(lián)網(wǎng)企業(yè),在網(wǎng)約車出行、互聯(lián)網(wǎng)金融、在線音樂、短視頻、網(wǎng)游等領(lǐng)域積累了豐富的大數(shù)據(jù)分析、策略、挖掘、建模、研究、應(yīng)用經(jīng)驗。負(fù)責(zé)過兩段公司級重點項目從0到1增長的整體數(shù)據(jù)驅(qū)動體系設(shè)計及落地。申請平臺智能定價及優(yōu)化算法系統(tǒng)等十余項國家發(fā)明專利及國際發(fā)明專利。
周銀河 現(xiàn)任騰訊數(shù)據(jù)科學(xué)家,曾任滴滴數(shù)據(jù)科學(xué)家,清華大學(xué)商學(xué)院及哥倫比亞大學(xué)商學(xué)院商業(yè)分析碩士項目指導(dǎo)嘉賓。擁有豐富的數(shù)據(jù)分析、統(tǒng)計建模及實驗設(shè)計經(jīng)驗。
丁芬 曾任滴滴數(shù)據(jù)科學(xué)家,曾就職于美團(tuán)、滴滴等國內(nèi)知名互聯(lián)網(wǎng)公司,工作經(jīng)歷涉及市場咨詢、信貸風(fēng)控、網(wǎng)約車交易及信息流等領(lǐng)域。
蘇濤 物理學(xué)博士,美國生物物理學(xué)會會員。曾任中國科學(xué)院研究助理,研究量子計算和主動流體。后任喬治華盛頓大學(xué)計算物理研究員,從事細(xì)胞模擬、生物領(lǐng)域機(jī)器學(xué)習(xí)、高性能計算等方向的研究。2017年進(jìn)入互聯(lián)網(wǎng)行業(yè),先后在Elex 和滴滴進(jìn)行數(shù)學(xué)模型、算法和數(shù)據(jù)科學(xué)方向的研究,熟悉復(fù)雜網(wǎng)絡(luò)、流形幾何嵌入、時頻分析以及相關(guān)的機(jī)器學(xué)習(xí)和優(yōu)化方法。
王禹 曾任滴滴高級數(shù)據(jù)分析師,主要負(fù)責(zé)滴滴分單引擎和調(diào)度引擎的實驗設(shè)計、評估、數(shù)據(jù)分析以及成交率等核心指標(biāo)的預(yù)測、異常診斷歸因等工作,F(xiàn)任某短視頻科技企業(yè)算法工程師,主要負(fù)責(zé)LBS定位、POI挖掘等相關(guān)場景的策略算法開發(fā)。
吳君涵 曾任滴滴資深數(shù)據(jù)分析師,擅長用戶增長分析和體驗量化建模。具有豐富的大數(shù)據(jù)挖掘建模、產(chǎn)出數(shù)據(jù)驅(qū)動洞察并通過洞察影響決策的實戰(zhàn)經(jīng)驗。
楊驍捷 曾任滴滴高級數(shù)據(jù)分析師,擅長雙邊平臺的供需匹配效率分析,在出行、電商等不同業(yè)務(wù)場景中靈活運用因果推斷,評估業(yè)務(wù)收益,F(xiàn)任快手資深數(shù)據(jù)分析師。
劉沖 曾任滴滴高級數(shù)據(jù)分析師,主要負(fù)責(zé)流量運營的實驗設(shè)計、評估、數(shù)據(jù)分析以及優(yōu)化司機(jī)行為和提高司機(jī)收入等相關(guān)分析,現(xiàn)任快手?jǐn)?shù)據(jù)分析師。
王玉璽 中國人民大學(xué)商學(xué)院博士,美國密歇根大學(xué)訪問學(xué)者,曾任滴滴數(shù)據(jù)科學(xué)部研究員,主要研究方向為定價策略優(yōu)化、消費者行為分析等。參與多項國家自然科學(xué)基金及社會科學(xué)基金研究項目,在Expert System、Information Systems Research、《管理評論》等期刊發(fā)表多篇論文。
劉未名 曾任滴滴數(shù)據(jù)科學(xué)家,擁有金融、互聯(lián)網(wǎng)等領(lǐng)域的數(shù)據(jù)分析經(jīng)驗,擅長利用實驗、量化模型解決業(yè)務(wù)問題,多次參與公司級重點項目的數(shù)據(jù)分析,幫助公司搭建數(shù)據(jù)驅(qū)動工業(yè)化體系,擁有國內(nèi)、國際多項發(fā)明專利。
楊凱迪 現(xiàn)任快手?jǐn)?shù)據(jù)分析部數(shù)據(jù)科學(xué)家。長期就職于國內(nèi)頭部互聯(lián)網(wǎng)企業(yè),對于出行定價補(bǔ)貼以及短視頻行業(yè)用戶畫像挖掘、策略分析等有豐富經(jīng)驗。工作期間累計發(fā)表三篇國家發(fā)明專利論文。
李依諾 騰訊數(shù)據(jù)科學(xué)家,本碩先后畢業(yè)于美國印第安納大學(xué)數(shù)學(xué)專業(yè)和美國喬治華盛頓大學(xué)生物統(tǒng)計學(xué)專業(yè)。在在線視頻、網(wǎng)約車、網(wǎng)絡(luò)游戲領(lǐng)域積累了豐富的數(shù)據(jù)科學(xué)實戰(zhàn)經(jīng)驗,從0 到1 參與過騰訊、滴滴的實驗工業(yè)化進(jìn)程。
陳祥 資深算法工程師,碩士畢業(yè)于愛丁堡大學(xué)計算機(jī)科學(xué)專業(yè)。先后從事異常檢測、強(qiáng)化學(xué)習(xí)、自然語言處理、領(lǐng)域知識圖譜建設(shè)及應(yīng)用等相關(guān)工作。曾就職于愛奇藝、滴滴。SQLFlow 貢獻(xiàn)者之一,F(xiàn)從事用戶畫像、廣告系統(tǒng)和推薦相關(guān)工作。
朱文靜 曾任滴滴高級數(shù)據(jù)分析師,主要從事基于業(yè)務(wù)數(shù)據(jù)進(jìn)行的分析、建模、挖掘等工作。SQLFlow項目重要成員之一,SQLFlow開源社區(qū)貢獻(xiàn)者,參與貢獻(xiàn)了多個SQLFlow模型,其中包括可解釋黑盒模型、深度學(xué)習(xí)聚類模型、時間序列模型等。
第1章:如何分析用戶的選擇 1
1.1選擇行為的經(jīng)濟(jì)學(xué)理論 1
1.1.1 選擇無處不在 1
1.1.2 選擇行為的經(jīng)濟(jì)學(xué)理論 2
1.2 用戶選擇行為計量分析框架:DCM 4
1.2.1 從經(jīng)濟(jì)模型到計量模型 4
1.2.2 常用的DCM模型及應(yīng)用場景 8
1.3 DCM模型的Python實踐 11
1.3.1?軟件包?&?數(shù)據(jù)格式 11
1.3.2 使用Logistics Regression分析自駕選擇問題 15
1.3.3 使用 Multinomial Logit Model 分析完整交通方式選擇問題 21
1.3.4 使用 Nested Logit Model 分析完整交通方式選擇問題 25
1.4 本章小節(jié) 27
第二章:隨時間可變的行為分析 27
2.1 從如何給二手車定價案例說起 27
2.1.1 二手車定價背景 27
2.1.2 為什么不選擇一般回歸模型? 28
2.1.3 為什么選擇生存分析? 29
2.2 生存分析的理論框架 29
2.2.2 生存函數(shù)及風(fēng)險函數(shù)刻畫 34
2.2.3 生存函數(shù)回歸及生存概率的預(yù)測 36
2.3 生存分析在二手車定價案例中的應(yīng)用實踐 38
2.3.1 軟件包&數(shù)據(jù)格式&數(shù)據(jù)入讀 40
2.3.2 生存分析基礎(chǔ)操作:二手車銷售生存曲線繪制及差異對比 42
第三章 洞察消費者長期價值:基于神經(jīng)網(wǎng)絡(luò)的LTV建模 44
3.1 LTV的概念和商業(yè)應(yīng)用 44
3.1.1 LTV用戶終生(長期)價值 45
3.1.2 用戶生命周期和用戶終生價值 45
3.1.3 LTV的特點 46
3.1.4 LTV分析能幫助我們回答的問題 46
3.1.5 LTV的計算方法 47
3.2 神經(jīng)網(wǎng)絡(luò)的基本原理 49
3.2.1 神經(jīng)網(wǎng)絡(luò)的歷史 49
3.2.2 本章所涉及的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 50
3.3 基于Keras的LTV模型實踐 56
3.3.1 Keras介紹 56
3.3.2 數(shù)據(jù)的加載和預(yù)處理 56
3.3.3 輸入數(shù)據(jù)的準(zhǔn)備 59
3.3.4 模型搭建和訓(xùn)練 65
3.3.5 模型分析 68
3.4 本章總結(jié) 68
第4章 使用體系化分析方法進(jìn)行場景挖掘 69
4.1. 選擇經(jīng)驗化分析還是體系化分析 69
4.1.1經(jīng)驗化分析的局限性 69
4.1.2體系化方法的手段和優(yōu)勢 70
4.2. 體系化分析常用工具 71
4.2.1黑盒模型與白盒模型 71
4.2.2可解釋模型決策樹 71
4.2.3全局代理模型 76
4.2.4場景挖掘模型分析方法框架 77
4.3. 場景挖掘分析實踐 78
4.3.1數(shù)據(jù)背景及數(shù)據(jù)處理 78
4.3.2經(jīng)驗化分析 80
4.3.3場景挖掘模型的Python實現(xiàn)與模型解讀 80
4.4. 本章小結(jié) 86
第5章 行為規(guī)律的發(fā)現(xiàn)與挖掘 86
概述 86
5.1對包含有順序關(guān)系數(shù)據(jù)的規(guī)律分析 87
5.1.1有序數(shù)據(jù)及SVD方法概述 87
5.1.2SVD原理及推導(dǎo) 88
5.1.3SVD聚類建模Python實戰(zhàn) 93
5.2對無序稀疏數(shù)據(jù)的規(guī)律分析 98
5.2.1稀疏數(shù)據(jù)及NMF方法概述 98
5.2.2NMF原理及推導(dǎo) 99
5.2.3NMF聚類建模Python實戰(zhàn) 100
第6章 對觀測到的事件進(jìn)行因果推斷 104
6.1 使用全量評估分析已發(fā)生的事件 104
6.1.1 為什么要進(jìn)行全量評估 104
6.1.2 全量評估應(yīng)用 105
6.2 全量評估主要方法 105
6.2.1 回歸分析 105
6.2.2 DID方法 114
6.2.3 合成控制 116
6.2.4 Causal Impact 119
6.3 全量評估方法的應(yīng)用 123
6.3.1 關(guān)于物流單量的全量評估應(yīng)用(回歸模型) 123
6.3.2 恐怖主義對經(jīng)濟(jì)影響評估(DID) 128
6.3.3 恐怖主義對經(jīng)濟(jì)影響評估(合成控制) 130
6.3.4 天氣情況的評估(Causal Impact) 133
6.4 本章小結(jié) 147
第7章 如何比較兩個策略的效果 147
7.1如何才能正確推斷因果關(guān)系? 147
7.1.1 什么是相關(guān)性謬誤 147
7.1.2 潛在結(jié)果和因果效果 148
7.2運用A/B實驗進(jìn)行兩策略比較 149
7.2.1 什么是A/B實驗 149
7.2.2 為什么應(yīng)用A/B實驗 150
7.2.3 A/B實驗的基本原理 150
7.3 A/B實驗應(yīng)用步驟(實驗方法具體實施步驟) 151
7.3.1 明確實驗要素 151
7.3.2 實驗設(shè)計 153
7.3.3實驗過程監(jiān)控 155
7.4 A/B實驗案例介紹 156
7.4.1 實驗場景介紹 156
7.4.3實驗效果評估 158
7.5 本章小結(jié) 159
第8章 如何提高實驗效能 160
8.1 控制實驗指標(biāo)方差的必要性和手段 160
8.2 用隨機(jī)區(qū)組設(shè)計控制實驗指標(biāo)方差 161
8.2.1 利用隨機(jī)區(qū)組實驗實驗設(shè)計降低方差 161
8.2.2 隨機(jī)區(qū)組實驗的特征選擇 162
8.3 隨機(jī)區(qū)組實驗應(yīng)用步驟 163
8.3.1 明確實驗?zāi)繕?biāo)及背景: 163
8.3.2 實驗設(shè)計: 163
8.3.3 實驗過程監(jiān)控: 163
8.3.4 實驗評估中用到的方差分析的基本原理: 163
8.4 隨機(jī)區(qū)組實驗案例介紹 168
8.4.1 背景介紹: 168
8.4.2 基本設(shè)計: 169
8.4.3 隨機(jī)區(qū)組實驗相關(guān)的設(shè)計: 169
8.4.4 效果評估 170
8.5 隨機(jī)區(qū)組實驗常見問題 172
8.5.1 方差分析的使用前提是什么 172
8.5.2 隨機(jī)區(qū)組的個數(shù)是越多越好嗎? 172
8.5.3 隨機(jī)區(qū)組實驗的回歸方程的$R^2$是越高越好嗎,是否證明策略有效果? 173
8.6 本章小節(jié) 173
第9章 特殊場景下的實驗設(shè)計和分析方法 173
9.1 分流的實驗對象間有干擾怎么辦 174
9.2 如果實驗不能簡單分流怎么辦(Switchback實驗設(shè)計和評估方法) 181
9.3 如果實驗不能簡單分流且時間效率要求高怎么辦?(交叉實驗設(shè)計) 186
9.4 如果不能分流的實驗且策略不能輪轉(zhuǎn)怎么辦? 199
9.5 本章總結(jié) 205
10.1 SQLFlow簡介 206
10.1.1 什么是SQLFlow 206
10.1.2 SQLFlow的定位和目標(biāo) 207
10.1.3 SQLFlow工作原理 209
10.2 SQLFLow 運行環(huán)境的設(shè)置 210
SQLFlow in Docker 210
環(huán)境配置 215
交互 224
Jupyter Notebook 225
REPL 225
10.3 將分析模型固化到 SQLFlow 中的流程 226
10.4 總結(jié) 232
11.1.1 模型可解釋的重要性和必要性 233
模型解釋的重要性 233
模型解釋的必要性 233
11.1.2 常見的可解釋性模型 234
(1)線性回歸 235
(2)邏輯回歸 238
(3) 決策樹 242
(4)KNN 243
(5)樸素貝葉斯分類器 245
(6)模型比較 246
11.2 黑盒模型的解釋性 247
11.2.1 如何對黑盒模型進(jìn)行解釋 247
11.2.2 代理模型 248
11.2.3 Shapley 250
11.2.4 基于SQLFLow的黑盒模型解釋的案例 251
11.3 本章小結(jié) 255
第12章 基于LSTM-autoencoder的無監(jiān)督聚類模型 255
12.1 聚類的廣泛應(yīng)用 256
12.1.1 什么是聚類或模式識別 256
12.2 聚類模型的應(yīng)用案例 257
12.2.1 k-means clustering -- 司機(jī)服務(wù)站點選址規(guī)劃 257
12.2.2 Hierarchical Clustering -- 超市采購商分組 260
12.3 SQLFlow中基于深度學(xué)習(xí)的聚類模型 265
12.3.1 基于深度學(xué)習(xí)的聚類模型原理 265
12.3.2 Case study - 如何使用SQLFlow對城市道路交通狀況進(jìn)行分層 272
12.4 本章小結(jié) 275