本書介紹了人們關(guān)于因果分析和因果推斷認知的歷史脈絡(luò)與現(xiàn)代發(fā)展。主要內(nèi)容分為4章,第1章介紹了因果概念的歷史發(fā)展,重點闡述中國古代賢達對于這一問題的精辟理解,以及古希臘科學家對于因果關(guān)系認知所做的基礎(chǔ)性貢獻。文藝復興以后,諸多科學家在這個問題上的逐步深入研究,給予了因果關(guān)系以現(xiàn)代科學的描述方式。第2章介紹當前因果分析與推斷的一些理論和方法,主要介紹了2011年圖靈獎得主朱迪亞·珀爾有關(guān)求解因果關(guān)系的理論框架和計算方法,這些方法已經(jīng)成為當前因果科學的主流模型之一。第3章專門討論了因果分析的一些重要而有趣的問題,包括如何識別抽煙對于肺癌的影響,以及其中延續(xù)幾十年的爭論,介紹了在具體問題中如何確定實際原因,這些實際原因經(jīng)常具有獨特性而被“一般的”因果分析方法所忽略,但在醫(yī)療、司法和決策中至關(guān)重要。最后在第4章,介紹了當前機器學習和人工智能的一個新發(fā)展趨勢,就是如何將因果分析與機器學習進行“嫁接”,從而產(chǎn)生性能更加優(yōu)越、更加近似于人類思維的人工智能。
本書是一本普及性讀物,適合本科生及研究生,也適合從事數(shù)據(jù)科學和人工智能工作的專業(yè)人員閱讀,同時對于希望了解因果科學的愛好者也是一本很好的入門書籍。
前言
人類對于因果和因果關(guān)系的探索與追求,自人類文明起源開始,一直延綿至今。從上古時代人們對于動物活動規(guī)律的認知,到現(xiàn)代人們對于各種現(xiàn)象之間本質(zhì)聯(lián)系的挖掘,因果關(guān)系貫穿了其中的每一個環(huán)節(jié)。當前,幾乎所有學科的研究內(nèi)容都離不開對因果關(guān)系的分析,因果關(guān)系成為當代科學的基石之一。
但令人深思的是,這樣一個重要的基礎(chǔ)概念,長時間以來卻一直處于朦朧和神秘的狀態(tài)。幾千年來,人們一直通過經(jīng)驗和直覺來理解因果關(guān)系,從而形成了所謂的常識因果知識,直到20世紀初葉,仍然能夠看到有關(guān)因果關(guān)系的一些模糊的,甚至是相互矛盾的敘述。概念的含糊性和歧義性,并不影響人們在各種場合毫無顧忌地談?wù)撘蚬P(guān)系,但同時也難免會讓人們陷于各種各樣的爭論。這種現(xiàn)象在現(xiàn)代科學中即使不是絕無僅有的,也是極為個別的。
這種混亂的場面,到了100多年前才開始得到扭轉(zhuǎn),在耶日·內(nèi)曼和羅納德·費希爾等人的共同推動下,對于因果關(guān)系的理解開始走向了科學的道路,因果關(guān)系這個充滿謎團的神奇之物變得逐漸清晰起來。用數(shù)學和統(tǒng)計學的語言描述因果和因果關(guān)系,終于使人們可以在一個共同認可的基礎(chǔ)上討論因果關(guān)系。正如馬克思所說:“一種科學只有在成功地運用數(shù)學時,才算達到了真正完善的地步!睂τ谝蚬P(guān)系的科學表述使因果關(guān)系從一個“自然之物”一躍成為“科學之物”,并且在眾多學科領(lǐng)域的研究中獲得巨大成功,特別是醫(yī)學、經(jīng)濟學、心理學、生態(tài)學、管理學等這些不便做隨機對照試驗的學科。到目前為止,已經(jīng)在絕大多數(shù)學科中發(fā)現(xiàn)了因果關(guān)系的成功應(yīng)用,并且借助計算機科學和人工智能的推動,因果關(guān)系正在煥發(fā)新的青春和力量。盡管還有一些質(zhì)疑的聲音,但是總的趨勢已經(jīng)向著光明的未來前進。
這本《因果漫步》將帶我們開啟這段因果認知啟蒙和發(fā)展的漫步之旅,去感知人們對于因果關(guān)系的理解在歷史長河中如何一步步地發(fā)生變化,以及因果關(guān)系是如何成為一個科學的研究對象的。在這個過程中,許多科學家做出了重要貢獻,使得因果關(guān)系從一個有些玄奧的哲學概念變?yōu)榭梢苑治、計算、評價和比對的學術(shù)概念,同時借助各種精巧的算法,還使得我們可以在復雜的環(huán)境變量中知道應(yīng)該做什么和怎樣去做,并由此得到關(guān)于因果關(guān)系的具體結(jié)論?偠灾茖W使得人們在關(guān)于因果關(guān)系的認知和應(yīng)用上產(chǎn)生了巨大的飛躍。
有兩個貫穿全書的重要概念:因果效應(yīng)和因果關(guān)系。因果效應(yīng)指的是原因變量對于結(jié)果變量的影響程度,而因果關(guān)系指的是這個程度超越了設(shè)定的閾值,具有了顯著性。兩個概念之間相互聯(lián)系而又有所區(qū)別。因果效應(yīng)是客觀存在的,具有數(shù)量上的刻畫,而因果關(guān)系則是根據(jù)問題的需要和對問題的理解而主觀設(shè)定的。因果效應(yīng)使得因果關(guān)系具備了量化性質(zhì),而可量化的因果關(guān)系是現(xiàn)代因果關(guān)系研究的重要標志。當前普遍用概率統(tǒng)計的語言來描述因果效應(yīng),因為一個原因有時導致結(jié)果出現(xiàn),有時可能不導致,即因果的發(fā)生是一個概率現(xiàn)象。常識因果論一般認為“有因必有果”,即原因必然導致結(jié)果,但是現(xiàn)實世界是復雜的,在人們可以觀察的世界中,因果并不是必然發(fā)生的,而是“固然”發(fā)生的(金岳霖語),因此概率化的因果關(guān)系描述更加符合客觀實際,也比常識因果更為科學。只有使用了科學的觀察手段和描述方法,因果理論才能真正成為人們認知世界的工具,進而成為不同學科增添新方法的源頭和做出新發(fā)現(xiàn)的利器。
現(xiàn)實世界是復雜的,需要面對的因果分析問題通常是一個龐大的系統(tǒng),從中既簡明又準確地給出有關(guān)因果關(guān)系的結(jié)論是一個十分有意義卻困難的任務(wù)。例如一場山火,導致其發(fā)生的原因有很多,其中主要有兩個:一個是火種的存在,一個是氧氣的存在。但是氧氣這個原因顯然不是因果分析所要針對的目標,更需要針對的是那些不常發(fā)生的事情,也就是火種。毫無疑問,因果分析應(yīng)該符合人們潛在的期望,但是這種期望經(jīng)常處于一種朦朧和不清晰的狀態(tài),有時候人們希望因果分析告訴人們自己都說不清楚的結(jié)果,這就導致了因果分析天生就具有某種非計算性質(zhì)和不確定性。全面的不分巨細的因果分析似乎并不是人們所追求的,試想一下,導致一場山火的原因多如牛毛,例如溫度、水汽、植被分布、風向、風力等,如果機器真的開列了1000條理由(這是經(jīng)常有的),這可不是什么好事,實際上只要知道一條,即火種的來源。那么我們追求的目標究竟是什么,如何向計算機描述我們的期冀(這經(jīng)常因為目標的不同而不同),成為因果分析中一個極其特別的問題,這也使得因果分析始終無法脫去哲學的外衣而成為一個純粹的學術(shù)問題。
2021年的諾貝爾經(jīng)濟學獎與2022年的諾貝爾物理學獎都與因果關(guān)系有關(guān),2021年的經(jīng)濟學獎授予三位在美國工作的經(jīng)濟學家,分別是加州大學伯克利分校的大衛(wèi)·卡德、麻省理工學院的喬舒亞·安格里斯特,以及斯坦福大學的吉多·因本斯,在頒獎詞中,對卡德教授的表彰是“對勞動經(jīng)濟學的經(jīng)驗性貢獻”,而對安格里斯特教授和因本斯教授的表彰則是“對因果關(guān)系分析的方法學貢獻”?ǖ陆淌谡菓(yīng)用了因果分析方法解決了勞動經(jīng)濟學的諸多問題,這是因果分析在經(jīng)濟學中成功應(yīng)用的卓越案例。2022年諾貝爾物理學獎授予法國科學家阿蘭·阿斯佩、美國科學家約翰·克勞澤和奧地利科學家安東·塞林格,以表彰他們“用糾纏光子進行的實驗,證偽了貝爾不等式,并開創(chuàng)了量子信息科學”的貢獻。他們用實驗說明,在量子世界里,“決定論”并不成立,因此以“決定論”為基礎(chǔ)的因果論也不成立,但是這并不意味著在宏觀世界范圍里的因果論的終結(jié),因為微觀世界和宏觀世界之間橫亙著一道墻,在墻的兩邊有著完全不同的風景。盡管從理論上講,可以通過描述每一個量子的行為來描述宏觀物體的行為,但是實際上,這既不可能也無必要。人類幾百年來建立的描述宏觀世界的原理依然有效并且簡明,因果關(guān)系依然是描述這個日常世界的基本法則。當然,從量子世界到宏觀世界,隨機論如何過渡到因果論,即因果涌現(xiàn)的問題,是當前人們關(guān)心的一個熱點問題。
本書總共分為4章,第1章講述了人類對于因果關(guān)系認知的發(fā)展歷史脈絡(luò),特別是中國的古代先賢們對于因果關(guān)系的樸素理解和精辟表述,比如戰(zhàn)國時期的哲學家墨子提出的“二故說”,描述了原因的充分性和必要性,早于亞里士多德的“四因說”。蘇格蘭哲學家休謨于18世紀提出類似的對于因果關(guān)系的表述,已經(jīng)相差2000多年了。文藝復興以后,諸多科學家在這個問題上的研究逐步深入,從古代的直覺主義過渡到現(xiàn)代的科學認知。人類天生就具備因果抽象能力,但是要將因果形成一門科學卻并不容易,其中一些過程耐人尋味。第2章主要介紹了當代因果關(guān)系的基本理論和分析方法,這些介紹主要基于2011年圖靈獎得主朱迪亞·珀爾提出的關(guān)于因果分析的框架,同時也介紹了其他的一些理論與流派。珀爾所開創(chuàng)的因果分析框架具有算法性特點,適合在計算機上予以實現(xiàn),當然,與其他理論相比也各有優(yōu)缺點,需要取長補短,綜合應(yīng)用。第3章介紹了因果論中一些頗為有趣的專題,通過吸煙是否導致肺癌的爭論案例,討論了在復雜背景下如何通過有效地處理各種因素而找出真正起關(guān)鍵作用的原因。介紹了處理因果關(guān)系的幾種觀點以及統(tǒng)計因果分析的三大方法,即斷點回歸、雙重差分和傾向得分匹配。討論了如何根據(jù)問題性質(zhì)去確定和獲取所需要的實際原因,這些實際原因經(jīng)常因具有獨特性而被“一般的”因果分析方法所忽略,但在醫(yī)療、司法和決策中至關(guān)重要。第3章還介紹了在不完美實驗中如何正確評估因果關(guān)系,這在觀察和實驗研究中是經(jīng)常遇到的。第4章專門討論了因果分析與機器學習的關(guān)系,這在人工智能中是一個躲避不開且亟須解決的關(guān)鍵問題,通過將因果分析引入機器學習,可以創(chuàng)造出更加“聰明”的智能體,并使其行為更加類似人類智能。因果分析與機器學習的“聯(lián)姻”,正在催生新一代的智能技術(shù),并引發(fā)第二次因果革命。
寫一本具有普及性質(zhì)的“漫步型”書籍,對于我們來講是一種全新的經(jīng)歷,其中有許多挫折和起伏,對于因果關(guān)系的學術(shù)理解并不足以勝任這樣的一本書的編寫,熟悉內(nèi)容是一回事,能夠給讀者通俗地講出來并講好是另一回事。我們盡力處理好科學性與通俗性的平衡,但難免存在不當或遺漏之處,懇請讀者批評指正。
十分感謝北京大學李曉明教授在本書寫作過程中自始至終給予的鼓勵和支持,感謝北京大學耿直教授、浙江大學吳飛教授、廣東工業(yè)大學蔡瑞初教授對本書提出的許多有益建議,使我們進一步明確了這本書的基調(diào)和內(nèi)容。感謝梁知音老師細心地為本書創(chuàng)作了插圖,使得這本書增色不少。正是在他們的支持下,本書才得以出版,希望讀者能夠通過閱讀本書受益,增強對于因果關(guān)系研究的興趣。
作者
2023年3月
李廉,合肥工業(yè)大學教授。曾擔任教育部高等學校大學計算機課程教學指導委員會主任,中國計算機學會理論計算機科學專業(yè)委員會主任。主要從事理論計算機科學、大數(shù)據(jù)應(yīng)用、人工智能等領(lǐng)域的研究。先后承擔或參與國家自然科學基金重大研究計劃重點項目,國家科技攻關(guān)計劃項目等。獲安徽省教學成果一等獎兩項,國家教學成果二等獎一項,2020年獲中國計算機學會杰出教育獎。
第1章如何認識世界
1.1因果概念的產(chǎn)生及意義
1.1.1因果關(guān)系與認知
1.1.2常識因果與科學因果
1.1.3因果關(guān)系的分析與推斷
1.1.4因果關(guān)系的黃金法則
1.2從邏輯到因果
1.2.1因果的邏輯基礎(chǔ)
1.2.2亞里士多德的“四因說”
1.3中國古代的因果觀念
1.3.1墨學的因果必然
1.3.2道學的因果分層
1.3.3佛學的因果緣起
1.4對于因果科學的追求
1.4.1因果關(guān)系的重生
1.4.2因果關(guān)系數(shù)學模型的引入
1.4.3因果關(guān)系的現(xiàn)代詮釋
1.4.4珀爾的因果分析框架
1.5本章結(jié)束語
第2章因果關(guān)系——決策與反思
2.1什么是混雜
2.2如何表示因果關(guān)系
2.2.1因果結(jié)構(gòu)圖
2.2.2因果結(jié)構(gòu)圖中的關(guān)系傳遞
2.2.3因果關(guān)系量化
2.2.4因果關(guān)系與概率
2.2.5因果結(jié)構(gòu)圖與貝葉斯網(wǎng)絡(luò)
2.3如何從觀察數(shù)據(jù)中識別因果結(jié)構(gòu)
2.3.1為什么可以識別因果結(jié)構(gòu)
2.3.2識別因果結(jié)構(gòu)的基本假設(shè)
2.3.3識別因果結(jié)構(gòu)的方法:以IC算法為例
2.3.4識別因果結(jié)構(gòu)的方法:評分優(yōu)化
2.3.5統(tǒng)計時間與物理時間
2.4如何估計因果效應(yīng)
2.4.1什么是干預(yù)
2.4.2如何在因果結(jié)構(gòu)圖中表示干預(yù)
2.4.3為什么可以利用觀察數(shù)據(jù)估計干預(yù)的效果
2.4.4觀察數(shù)據(jù)校正與隨機對照試驗
2.4.5校正變量的篩選——后門準則
2.4.6結(jié)構(gòu)方程與因果效應(yīng)
2.4.7線性系統(tǒng)中的因果效應(yīng)估計
2.4.8工具變量與工具變量悖論
2.5如何實現(xiàn)個體反思
2.5.1什么是反事實
2.5.2反事實與干預(yù)的關(guān)系
2.5.3反事實與最鄰近世界
2.5.4反事實推斷的基本過程
2.5.5反事實推斷與校正公式
2.5.6線性系統(tǒng)中的反事實
2.5.7直接原因和間接原因
2.6因果分析的待解問題
2.6.1亞群反轉(zhuǎn)
2.6.2抽樣偏差與變量選擇
2.6.3假設(shè)檢驗
2.6.4因果區(qū)域
2.7本章結(jié)束語
第3章現(xiàn)實世界與實際原因
3.1究竟哪個是原因
3.1.1從吸煙致癌談起
3.1.2因果解釋
3.1.3特異因果和一般因果
3.1.4必要原因與充分原因
3.2因果關(guān)系效應(yīng)估計
3.2.1諾貝爾獎的故事——因果關(guān)系可識別性
3.2.2斷點回歸
3.2.3雙重差分
3.2.4傾向得分匹配
3.3不完美實驗中的因果估計
3.3.1不完美實驗問題
3.3.2不完美實驗因果圖
3.3.3意向性因果分析
3.3.4不完美實驗的邊界估計
3.4關(guān)于實際原因的困惑
3.4.1什么是實際原因
3.4.2如何確定實際原因
3.4.3因果搶占
3.4.4過度確定
3.5本章結(jié)束語
第4章機器學習與因果分析
4.1機器學習的神話
4.1.1什么是機器學習
4.1.2機器學習的起源和歷史
4.1.3機器學習的趨勢和未來
4.2大數(shù)據(jù)時代的信任危機
4.2.1到底需要多大量的數(shù)據(jù)呢
4.2.2為什么數(shù)據(jù)質(zhì)量很重要
4.2.3統(tǒng)計數(shù)據(jù)也會說謊嗎
4.2.4機器學習模型穩(wěn)健嗎
4.2.5結(jié)果可解釋嗎
4.3從因果關(guān)系中尋求突破
4.3.1因果機器學習
4.3.2因果發(fā)現(xiàn)
4.3.3因果模型對機器學習的意義
4.4下一代人工智能
4.4.1因果建模的層次
4.4.2因果之梯——構(gòu)筑穩(wěn)固的基石
4.5本章結(jié)束語
參考文獻