如果我們有數(shù)據(jù),那就看數(shù)據(jù)。
如果我們只有觀點(diǎn),那就按我的觀點(diǎn)來(lái)。
——Jim Barksdale,網(wǎng)景前首席執(zhí)行官
本書(shū)旨在分享多年來(lái)Ron在亞馬遜和微軟、Diane在谷歌以及Ya在微軟和領(lǐng)英大規(guī)模運(yùn)行線上對(duì)照實(shí)驗(yàn)積累的實(shí)踐經(jīng)驗(yàn)。雖然我們不是代表谷歌、領(lǐng)英或微軟官方,而是以個(gè)人身份寫(xiě)作此書(shū),但書(shū)中凝聚了我們工作多年積累的關(guān)鍵經(jīng)驗(yàn)教訓(xùn)和遇到的常見(jiàn)陷阱,并提供了軟件平臺(tái)的搭建以及公司文化的培養(yǎng)方面的指導(dǎo):如何利用線上對(duì)照實(shí)驗(yàn)建立數(shù)據(jù)驅(qū)動(dòng)文化而不是依賴HiPPO(Highest Paid Person’s Opinion,最高薪者的意見(jiàn))(R. Kohavi, HiPPO FAQ 2019)。我們相信書(shū)中的很多經(jīng)驗(yàn)適用于各種線上環(huán)境,不論是大大小小的公司,還是具體到公司內(nèi)部的團(tuán)隊(duì)或組織。書(shū)中強(qiáng)調(diào)了評(píng)估實(shí)驗(yàn)結(jié)果可信賴度的必要性。我們相信特威曼定律蘊(yùn)含的懷疑論:任何看起來(lái)有趣或與眾不同的數(shù)字通常都是錯(cuò)的。我們鼓勵(lì)讀者對(duì)實(shí)驗(yàn)結(jié)果,尤其是有突破性的正面結(jié)果做二次檢查,以及做驗(yàn)證性測(cè)試。獲得數(shù)據(jù)很簡(jiǎn)單,但獲得你能信任的數(shù)據(jù)很難!
本書(shū)第一部分適合所有讀者,由四章組成。第1章概述運(yùn)行線上對(duì)照實(shí)驗(yàn)的好處,并介紹實(shí)驗(yàn)相關(guān)術(shù)語(yǔ)。第2章用一個(gè)例子剖析運(yùn)行實(shí)驗(yàn)的全過(guò)程。第3章描述常見(jiàn)的陷阱以及如何建立實(shí)驗(yàn)的可信賴度。第4章概述如何搭建實(shí)驗(yàn)平臺(tái)并規(guī)模化線上實(shí)驗(yàn)。
第二部分到第五部分針對(duì)一些特定的讀者群體,當(dāng)然也歡迎其他讀者按需閱讀。第二部分的五章內(nèi)容介紹實(shí)驗(yàn)的基礎(chǔ)原理,比如機(jī)構(gòu)指標(biāo)。我們推薦所有人閱讀這一部分,尤其是領(lǐng)導(dǎo)者和高管。第三部分的兩章內(nèi)容介紹線上對(duì)照實(shí)驗(yàn)的補(bǔ)充技法,可以幫助管理層、數(shù)據(jù)科學(xué)家、工程師、分析師、產(chǎn)品經(jīng)理等進(jìn)行資源和時(shí)間的投資。第四部分專注于實(shí)驗(yàn)平臺(tái)的搭建,面向工程師群體。最后,第五部分深入討論進(jìn)階的實(shí)驗(yàn)分析專題,面向數(shù)據(jù)科學(xué)家。
本書(shū)的配套網(wǎng)站為https://experimentguide.com,它囊括了更多的材料和勘誤,并提供了開(kāi)放性討論的空間。本書(shū)作者的所有收益將捐獻(xiàn)給慈善機(jī)構(gòu)。
作者簡(jiǎn)介:
羅恩·科哈維(Ron Kohavi)是愛(ài)彼迎的副總裁和技術(shù)院士,曾任微軟的技術(shù)研究員和公司副總裁。在加入微軟之前,他是亞馬遜的數(shù)據(jù)挖掘和個(gè)性化推薦總監(jiān)。他擁有斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位,論文被引用超過(guò)40 000次,其中有3篇位列計(jì)算機(jī)科學(xué)領(lǐng)域引用最多的1 000篇論文榜。
黛安·唐(Diane Tang)是谷歌院士,大規(guī)模數(shù)據(jù)分析和基礎(chǔ)設(shè)施、線上對(duì)照實(shí)驗(yàn)及廣告系統(tǒng)方面的專家。她擁有哈佛大學(xué)的文學(xué)學(xué)士學(xué)位和斯坦福大學(xué)的碩士及博士學(xué)位,在移動(dòng)網(wǎng)絡(luò)、信息可視化、實(shí)驗(yàn)方法、數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)據(jù)挖掘和大數(shù)據(jù)方面擁有專利和出版物。
許亞(Ya Xu)是領(lǐng)英數(shù)據(jù)科學(xué)與實(shí)驗(yàn)平臺(tái)負(fù)責(zé)人,曾撰寫(xiě)了多篇關(guān)于實(shí)驗(yàn)的論文,并經(jīng)常在頂級(jí)會(huì)議和大學(xué)演講。她曾在微軟工作,擁有斯坦福大學(xué)的統(tǒng)計(jì)學(xué)博士學(xué)位。
譯者簡(jiǎn)介:
韓瑋:愛(ài)彼迎數(shù)據(jù)科學(xué)資深專家,專注于搜索算法和實(shí)驗(yàn)領(lǐng)域,之前在沃爾瑪實(shí)驗(yàn)室負(fù)責(zé)相關(guān)工作。她于賓夕法尼亞大學(xué)獲得應(yīng)用數(shù)學(xué)博士學(xué)位和統(tǒng)計(jì)學(xué)碩士學(xué)位,本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)數(shù)學(xué)系。
胡鵑娟:現(xiàn)任愛(ài)彼迎數(shù)據(jù)科學(xué)家,擁有四年的A/B 實(shí)驗(yàn)分析經(jīng)驗(yàn)。此前在領(lǐng)英任資深數(shù)據(jù)科學(xué)家。于加州大學(xué)戴維斯分校獲得統(tǒng)計(jì)學(xué)碩士學(xué)位、香港中文大學(xué)獲得金融碩士學(xué)位,本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)00 班統(tǒng)計(jì)專業(yè)。
段瑋韜:領(lǐng)英資深應(yīng)用研究專家,現(xiàn)負(fù)責(zé)領(lǐng)英實(shí)驗(yàn)科學(xué)團(tuán)隊(duì)。他與許亞一起在實(shí)驗(yàn)領(lǐng)域緊密合作長(zhǎng)達(dá)5 年之久,書(shū)中的很多材料和結(jié)論都提煉自他和許亞的工作經(jīng)驗(yàn)。
胡澤浩:優(yōu)步數(shù)據(jù)科學(xué)經(jīng)理,優(yōu)步人工智能和增長(zhǎng)平臺(tái)兩個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)的負(fù)責(zé)人,擁有五年用數(shù)據(jù)及實(shí)驗(yàn)驅(qū)動(dòng)產(chǎn)品開(kāi)發(fā)的經(jīng)驗(yàn)。于賓夕法尼亞大學(xué)獲得經(jīng)濟(jì)學(xué)博士學(xué)位,本科畢業(yè)于香港大學(xué)經(jīng)濟(jì)系。
廖一正:愛(ài)彼迎資深數(shù)據(jù)科學(xué)家,負(fù)責(zé)愛(ài)彼迎中國(guó)區(qū)搜索引擎算法開(kāi)發(fā),領(lǐng)導(dǎo)著實(shí)驗(yàn)分析委員會(huì)。于斯坦福大學(xué)獲得土木與環(huán)境工程博士學(xué)位,研究領(lǐng)域?yàn)閼?yīng)用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)。
王璐:雪花(Snowflake)計(jì)算數(shù)據(jù)科學(xué)家,擁有將近七年的實(shí)驗(yàn)設(shè)計(jì)與分析、統(tǒng)計(jì)建模以及產(chǎn)品分析經(jīng)驗(yàn)。曾任愛(ài)彼迎數(shù)據(jù)科學(xué)家以及吉利德科學(xué)生物統(tǒng)計(jì)師。于加州大學(xué)洛杉磯分校獲得生物統(tǒng)計(jì)博士學(xué)位,本科畢業(yè)于浙江大學(xué)生物信息系。
趙振宇:騰訊數(shù)據(jù)科學(xué)總監(jiān)。此前先后在雅虎和優(yōu)步負(fù)責(zé)實(shí)驗(yàn)系統(tǒng)、因果推斷、機(jī)器學(xué)習(xí)應(yīng)用研究和平臺(tái)建設(shè),以及開(kāi)源項(xiàng)目研發(fā)工作。于美國(guó)西北大學(xué)獲得統(tǒng)計(jì)學(xué)博士學(xué)位,本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)。
鐘婧:蘋(píng)果公司Siri 部門(mén)資深數(shù)據(jù)科學(xué)家,此前先后在微軟必應(yīng)部門(mén)及臉書(shū)公司從事機(jī)器學(xué)習(xí)建模和A/B 實(shí)驗(yàn)、用戶和產(chǎn)品數(shù)據(jù)分析、產(chǎn)品戰(zhàn)略分析等方向的研究工作。于密歇根大學(xué)獲得博士學(xué)位,本科畢業(yè)于清華大學(xué)電子工程系。
本書(shū)贊譽(yù)
譯者序
前言——如何閱讀本書(shū)
致謝
第一部分 線上對(duì)照實(shí)驗(yàn)概覽
第1章 概述和寫(xiě)作動(dòng)機(jī)003
1.1 線上對(duì)照實(shí)驗(yàn)的術(shù)語(yǔ)005
1.2 為什么進(jìn)行實(shí)驗(yàn)?相關(guān)性、因果關(guān)系和可信賴度008
1.3 有效運(yùn)行對(duì)照實(shí)驗(yàn)的必要元素010
1.4 宗旨011
1.5 隨時(shí)間推移的改進(jìn)013
1.6 有趣的線上對(duì)照實(shí)驗(yàn)實(shí)例015
1.7 戰(zhàn)略、戰(zhàn)術(shù)及它們和實(shí)驗(yàn)的關(guān)系020
1.8 補(bǔ)充閱讀 023
第2章 運(yùn)行和分析實(shí)驗(yàn)——一個(gè)全程剖析的案例025
2.1 設(shè)立實(shí)驗(yàn)025
2.2 假設(shè)檢驗(yàn):確立統(tǒng)計(jì)顯著性028
2.3 設(shè)計(jì)實(shí)驗(yàn)030
2.4 運(yùn)行實(shí)驗(yàn)并獲得數(shù)據(jù)032
2.5 分析結(jié)果033
2.6 從結(jié)果到?jīng)Q策034
第3章 特威曼定律與實(shí)驗(yàn)的可信賴度037
3.1 曲解統(tǒng)計(jì)結(jié)果038
3.2 置信區(qū)間041
3.3 對(duì)內(nèi)部有效性的威脅041
3.4 對(duì)外部有效性的威脅046
3.5 細(xì)分群的差異049
3.6 辛普森悖論 052
3.7 鼓勵(lì)健康的懷疑態(tài)度054
第4章 實(shí)驗(yàn)平臺(tái)和文化055
4.1 實(shí)驗(yàn)成熟度模型055
4.2 基礎(chǔ)設(shè)施和工具062
第二部分 基礎(chǔ)原理
第5章 速度很重要:一個(gè)全程案例剖析075
5.1 關(guān)鍵假設(shè):局部線性近似077
5.2 如何測(cè)量網(wǎng)站的性能078
5.3 減速實(shí)驗(yàn)的設(shè)計(jì)080
5.4 對(duì)不同頁(yè)面元素的影響是不同的081
5.5 極端結(jié)果083
第6章 機(jī)構(gòu)指標(biāo)085
6.1 指標(biāo)的分類(lèi)086
6.2 指標(biāo)的制定:原則和技術(shù)089
6.3 指標(biāo)的評(píng)估091
6.4 指標(biāo)的演變092
6.5 更多的資源093
6.6 補(bǔ)充材料:護(hù)欄指標(biāo)093
6.7 補(bǔ)充材料:可操縱性095
第7章 實(shí)驗(yàn)指標(biāo)和綜合評(píng)估標(biāo)準(zhǔn)097
7.1 從業(yè)務(wù)指標(biāo)到適用于實(shí)驗(yàn)的指標(biāo)098
7.2 將關(guān)鍵指標(biāo)組合成一個(gè)OEC099
7.3 案例:亞馬遜電子郵件的OEC101
7.4 案例:必應(yīng)搜索引擎的OEC103
7.5 Goodhart法則、Campbell法則以及Lucas批判104
第8章 機(jī)構(gòu)的經(jīng)驗(yàn)傳承與統(tǒng)合分析107
8.1 什么是機(jī)構(gòu)的經(jīng)驗(yàn)傳承107
8.2 為什么機(jī)構(gòu)的經(jīng)驗(yàn)傳承有用108
第9章 對(duì)照實(shí)驗(yàn)中的倫理111
9.1 背景111
9.2 數(shù)據(jù)收集116
9.3 文化與流程117
9.4 補(bǔ)充材料:用戶標(biāo)識(shí)符117
第三部分 補(bǔ)充及替代技法
第10章 補(bǔ)充技法121
10.1 補(bǔ)充技法的空間121
10.2 基于日志的分析122
10.3 人工評(píng)估124
10.4 用戶體驗(yàn)調(diào)研125
10.5 焦點(diǎn)小組125
10.6 問(wèn)卷調(diào)查126
10.7 外部數(shù)據(jù)127
10.8 總結(jié)129
第11章 觀察性因果研究131
11.1 對(duì)照實(shí)驗(yàn)不可行的情況131
11.2 觀察性因果研究的設(shè)計(jì)133
11.3 陷阱138
11.4 補(bǔ)充材料:被駁斥的觀察性因果研究141
第四部分 實(shí)驗(yàn)平臺(tái)搭建
第12章 客戶端實(shí)驗(yàn)145
12.1 服務(wù)器端和客戶端的差異145
12.2 對(duì)實(shí)驗(yàn)的潛在影響148
12.3 結(jié)論152
第13章 工具化日志記錄153
13.1 客戶端與服務(wù)器端的工具化日志記錄153
13.2 處理多源的日志155
13.3 工具化日志記錄的文化156
第14章 選擇隨機(jī)化單元157
14.1 隨機(jī)化單元和分析單元159
14.2 用戶級(jí)別的隨機(jī)化160
第15章 實(shí)驗(yàn)放量:權(quán)衡速度、質(zhì)量與風(fēng)險(xiǎn)163
15.1 什么是放量163
15.2 SQR放量框架164
15.3 四個(gè)放量階段165
15.4 最終放量之后168
第16章 規(guī);瘜(shí)驗(yàn)分析169
16.1 數(shù)據(jù)處理169
16.2 數(shù)據(jù)計(jì)算170
16.3 結(jié)果匯總和可視化172
第五部分 實(shí)驗(yàn)分析
第17章 線上對(duì)照實(shí)驗(yàn)中的統(tǒng)計(jì)學(xué)知識(shí)177
17.1 雙樣本t檢驗(yàn)177
17.2 p值和置信區(qū)間178
17.3 正態(tài)性假設(shè)179
17.4 第一/二型錯(cuò)誤和統(tǒng)計(jì)功效181
17.5 偏差183
17.6 多重檢驗(yàn)183
17.7 費(fèi)舍爾統(tǒng)合分析184
第18章 方差估計(jì)和提高靈敏度:陷阱及解決方法185
18.1 常見(jiàn)陷阱186
18.2 提高靈敏度189
18.3 其他統(tǒng)計(jì)量的方差190
第19章 A/A測(cè)試193
19.1 為什么運(yùn)行A/A測(cè)試193
19.2 如何運(yùn)行A/A測(cè)試198
19.3 A/A測(cè)試失敗時(shí)199
第20章 以觸發(fā)來(lái)提高實(shí)驗(yàn)靈敏度201
20.1 觸發(fā)示例201
20.2 數(shù)值示例204
20.3 最佳的和保守的觸發(fā)205
20.4 總體實(shí)驗(yàn)效應(yīng)206
20.5 可信賴的觸發(fā)207
20.6 常見(jiàn)的陷阱207
20.7 開(kāi)放性問(wèn)題209
第21章 樣本比率不匹配與其他可信度相關(guān)的護(hù)欄指標(biāo)211
21.1 樣本比率不匹配212
21.2 調(diào)試SRM214
第22章 實(shí)驗(yàn)變體之間的泄露和干擾219
22.1 示例220