關(guān)于我們
書(shū)單推薦
新書(shū)推薦
|
強(qiáng)化學(xué)習(xí)(第2版) 《強(qiáng)化學(xué)習(xí)(第2版)》作為強(qiáng)化學(xué)習(xí)思想的深度解剖之作,被業(yè)內(nèi)公認(rèn)為是一本強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的經(jīng)典著作。它從強(qiáng)化學(xué)習(xí)的基本思想出發(fā),深入淺出又嚴(yán)謹(jǐn)細(xì)致地介紹了馬爾可夫決策過(guò)程、蒙特卡洛方法、時(shí)序差分方法、同軌離軌策略等強(qiáng)化學(xué)習(xí)的基本概念和方法,并以大量的實(shí)例幫助讀者理解強(qiáng)化學(xué)習(xí)的問(wèn)題建模過(guò)程以及核心的算法細(xì)節(jié)。 《強(qiáng)化學(xué)習(xí)(第2版)》適合所有對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀、收藏。 《強(qiáng)化學(xué)習(xí)(第2版)》被業(yè)界公認(rèn)為任何對(duì)人工智能領(lǐng)域感興趣的人員的必讀書(shū)。 《強(qiáng)化學(xué)習(xí)(第2版)》是被稱(chēng)為強(qiáng)化學(xué)習(xí)教父的Richard Sutton在強(qiáng)化學(xué)習(xí)領(lǐng)域的開(kāi)創(chuàng)性、奠基性著作。自1998年第1版出版以來(lái),一直是強(qiáng)化學(xué)習(xí)領(lǐng)域的經(jīng)典導(dǎo)論性教材,培育了好幾代強(qiáng)化學(xué)習(xí)領(lǐng)域的研究人員。 在第2版中,隨著強(qiáng)化學(xué)習(xí)近來(lái)的蓬勃發(fā)展,作者補(bǔ)充了很多新的內(nèi)容:人工神經(jīng)網(wǎng)絡(luò)、蒙特卡洛樹(shù)搜索、平均收益*化……涵蓋了當(dāng)今*關(guān)鍵的核心算法和理論。不僅如此,作者還以真實(shí)世界的應(yīng)用為例闡述了這些內(nèi)容。 本書(shū)第1版出版的20年以來(lái),在機(jī)器學(xué)習(xí)(包括強(qiáng)化學(xué)習(xí)) 前沿技術(shù)發(fā)展的推動(dòng)下,人工智能取得了重大進(jìn)展。這些進(jìn)展不僅歸功于這些年迅猛發(fā)展起來(lái)的計(jì)算機(jī)強(qiáng)大的計(jì)算能力,也受益于許多理論和算法上的創(chuàng)新。面對(duì)這些進(jìn)展,我們?cè)缬袑?duì)1998年第1版書(shū)進(jìn)行更新再版的打算,但直到2012年才開(kāi)始真正著手編纂。第2版的目標(biāo)與第1版一致:為強(qiáng)化學(xué)習(xí)的核心概念與算法提供清晰簡(jiǎn)明的解釋?zhuān)怨┧邢嚓P(guān)學(xué)科的讀者學(xué)習(xí)。這一版仍然是一本概要介紹性的讀物,仍然關(guān)注最核心的在線(xiàn)學(xué)習(xí)算法,同時(shí)增加了一些近年來(lái)日趨重要的話(huà)題,并拓展了部分內(nèi)容,給出了更新的理解。強(qiáng)化學(xué)習(xí)領(lǐng)域可以延伸出很多不同的方向,但我們并不想包羅萬(wàn)象,在此為可能出現(xiàn)的些許遺漏表示歉意。
第2版記號(hào)變化 和第1版一樣,我們沒(méi)有以最嚴(yán)謹(jǐn)?shù)男问交姆绞絹?lái)定義強(qiáng)化學(xué)習(xí),也沒(méi)有采用特別抽象的術(shù)語(yǔ)表達(dá),但是為了大家能更深入地理解,有些話(huà)題仍然需要用數(shù)學(xué)來(lái)解釋。無(wú)數(shù)學(xué)需求的讀者可以選擇跳過(guò)灰色框中的數(shù)學(xué)原理部分。在教學(xué)過(guò)程中,我們發(fā)現(xiàn)一些新的記號(hào)可以消除一些共同的疑惑點(diǎn),因此本書(shū)的部分記號(hào)和上一版相比略有差異。首先我們對(duì)隨機(jī)變量進(jìn)行了區(qū)分,以大寫(xiě)字母表示變量本身,小寫(xiě)字母表示對(duì)應(yīng)的實(shí)例。比如時(shí)刻t的狀態(tài)、動(dòng)作和收益被表示為St、At和Rt,而它們可能的取值被表示為s、a和r。與之相伴隨,我們用小寫(xiě)字母的形式(例如v)來(lái)表示價(jià)值函數(shù),用大寫(xiě)字母表示其表格型的估計(jì)值,比如Qt(s,a)。近似價(jià)值函數(shù)是具有隨機(jī)參數(shù)的確定性函數(shù),因此用小寫(xiě)字母表示,比如v(s,wt)v(s)。向量用粗體的小寫(xiě)字母表示(包括隨機(jī)變量),比如權(quán)值向量wt(先前用t表示)、特征向量xt(先前用?t表示)。大寫(xiě)粗體用以表示矩陣。在第1版中我們使用了特殊記號(hào)Paass來(lái)表示轉(zhuǎn)移概率和期望收益。但這種記號(hào)并不能完整地表示出收益的動(dòng)態(tài)性,只表示了期望值,因此只適用于動(dòng)態(tài)規(guī)劃而不適用于強(qiáng)化學(xué)習(xí)。另一個(gè)缺點(diǎn)是上下標(biāo)的過(guò)度使用。因此,在這一版中我們明確采用p(s,r|s,a)的記 號(hào)來(lái)表示給定當(dāng)前狀態(tài)s和動(dòng)作a后,下一時(shí)刻的狀態(tài)s和收r的聯(lián)合概率分布。所有的記號(hào)變化都收錄在稍后的符號(hào)列表中。
第2版內(nèi)容結(jié)構(gòu) 第2版在原先的基礎(chǔ)上進(jìn)行了許多拓展,整體結(jié)構(gòu)也有所變化。第1章是導(dǎo)論性的介紹,其后分為三個(gè)部分。第I部分(第28 章)會(huì)盡可能多地用表格型的案例講解強(qiáng)化學(xué)習(xí),主要包括針對(duì)表格型案例的學(xué)習(xí)和規(guī)劃算法,以及它們?cè)趎步法和Dyna中的統(tǒng)一表達(dá)。這部分介紹的許多算法是第2版的新增內(nèi)容,包括UCB、期望Sarsa、雙重學(xué)習(xí)、樹(shù)回溯、Q()、RTDP和MCTS。從介紹表格型案例開(kāi)始,可以在最簡(jiǎn)單的情況下理解算法的核心思想。本書(shū)的第II部分(第913章)致力于將這些思想從表格型的情況擴(kuò)展到函數(shù)逼近,包含人工神經(jīng)網(wǎng)絡(luò)、傅立葉變換基礎(chǔ)、LSTD、核方法、梯度TD和強(qiáng)調(diào)TD方法、平均收益方法、真實(shí)的在線(xiàn)TD(λ)和策略梯度方法等新內(nèi)容。第2版大幅拓展了對(duì)離軌策略的介紹,首先是第57章講解表格型的案例,之后在第11章和第12章講解函數(shù)逼近法。另一個(gè)變化是,這一版將n步自舉法(在第7章中詳細(xì)闡述)中的前向視圖思想與資格跡(在第12章中單獨(dú)闡述)中的后向視圖思想分開(kāi)詳細(xì)講解。本書(shū)的第III部分加入了大量闡述強(qiáng)化學(xué)習(xí)與心理學(xué)(第14章)、神經(jīng)科學(xué)(第15章)聯(lián)系的新章節(jié),更新了針對(duì)多種案例,包括Atari游戲、Watson的投注策略和圍棋人工智能AlphaGo、AlphaGo Zero (第16章)的研究章節(jié)。盡管如此,本書(shū)涵蓋的內(nèi)容仍然只是該領(lǐng)域的一小部分,只反映了我們長(zhǎng)期以來(lái)對(duì)低成本無(wú)模型方法的興趣,這些方法可以很好地適應(yīng)大規(guī)模的應(yīng)用。最后一章包括了對(duì)強(qiáng)化學(xué)習(xí)未來(lái)的社會(huì)影響的討論。無(wú)論好壞,第2版的篇幅達(dá)到了第1版的兩倍。 本書(shū)旨在作為一到兩學(xué)期強(qiáng)化學(xué)習(xí)課程的初級(jí)教材。一個(gè)學(xué)期的課程可以著重對(duì)前10章進(jìn)行討論,掌握核心思想,根據(jù)需要再將其他章節(jié),或者其他書(shū)籍的某些章節(jié),比如Bertsekas和Tsitsiklis(1996)、Wiering和van Otterlo(2012),以及Szepesvári(2010)或其他文獻(xiàn)作為輔助材料。根據(jù)學(xué)生的背景,在線(xiàn)有監(jiān)督學(xué)習(xí)的一些額外材料可能會(huì)對(duì)學(xué)習(xí)這門(mén)課有所幫助。比如選項(xiàng)的概念和模型(Sutton、Precup和Singh,1999)就是一個(gè)很好的補(bǔ)充。兩學(xué)期的課程可以使用所有章節(jié)內(nèi)容及補(bǔ)充材料。本書(shū)還可以作為機(jī)器 學(xué)習(xí)、人工智能或神經(jīng)網(wǎng)絡(luò)等課程的一部分。這種情況只需要講述部分內(nèi)容,我們推薦對(duì)第1章進(jìn)行簡(jiǎn)要概述,然后學(xué)習(xí)第2章到2.4節(jié)和第3章,隨后根據(jù)時(shí)間和興趣選擇其余章節(jié)。第6章的內(nèi)容對(duì)于本書(shū)和相關(guān)課程來(lái)說(shuō)是最重要的。關(guān)于機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)的課程應(yīng)該使用第9章和第10章的內(nèi)容,而關(guān)于人工智能或規(guī)劃算法的課程應(yīng)該使用第8章的內(nèi)容。在整本書(shū)中,相對(duì)比較難且對(duì)于其他課程不那么重要的章節(jié)和部分已用∗注明。這些部分在第一次閱讀時(shí)可以跳過(guò),這不會(huì)影響后續(xù)閱讀。練習(xí)中一些進(jìn)階的、對(duì)理解基礎(chǔ)概念不那么重要的問(wèn)題也已經(jīng)用∗標(biāo)識(shí)。 大多數(shù)章節(jié)最后會(huì)出現(xiàn)題為參考文獻(xiàn)和歷史備注的部分,在這部分中,我們針對(duì)本章中一些值得深入探究的概念和觀點(diǎn)提供了進(jìn)一步閱讀和研究的材料,并描述了相關(guān)的歷史背景。盡管我們?cè)噲D使這些部分內(nèi)容具有權(quán)威性和完整性,但也不免會(huì)忽略一些重要的前期工作。為此,我們?cè)俅伪硎厩敢,也歡迎讀者提出更正和擴(kuò)展。
本書(shū)寫(xiě)作背景 和第1版一樣,我們用本書(shū)的這一版紀(jì)念A(yù).Harry Klopf。是Harry把本書(shū)的作者們介紹給彼此,也是他關(guān)于大腦和人工智能的想法,使我們踏上對(duì)強(qiáng)化學(xué)習(xí)研究的漫長(zhǎng)征程。Harry是俄亥俄州賴(lài)特-帕特森空軍基地空軍科學(xué)研究所(AFOSR)航空電子管理局的一位高級(jí)研究員,他受過(guò)神經(jīng)生理學(xué)的訓(xùn)練,并一直對(duì)機(jī)器智能很感興趣。在解釋自然智能、機(jī)器智能基礎(chǔ)機(jī)理的問(wèn)題上,他并不滿(mǎn)意當(dāng)時(shí)的人們對(duì)平衡態(tài)搜索(equilibrium-seeking)過(guò)程(包括內(nèi)部穩(wěn)態(tài)自調(diào)整過(guò)程和基于錯(cuò)誤糾正的模式分類(lèi)方法)的廣泛重視。他指出,嘗試最大化某種準(zhǔn)則(無(wú)論該準(zhǔn)則是什么)的系統(tǒng)與搜索平衡態(tài)的系統(tǒng)在本質(zhì)上有所不同,而具有最大化準(zhǔn)則的系統(tǒng)才是理解自然智能的重要方向,是構(gòu)建人工智能的關(guān)鍵。Harry從AFOSR申請(qǐng)了項(xiàng)目資助,用于評(píng)估這些思想以及相關(guān)思想的科學(xué)價(jià)值。該項(xiàng)目于20世紀(jì)70年代末在馬薩諸塞州阿默斯特大學(xué)(麻省大學(xué)阿默斯特分校)進(jìn)行,最初由Michael Arbib、William Kilmer和Nico Spinelli指導(dǎo),他們是麻省大學(xué)阿默斯特分校計(jì)算機(jī)與信息科學(xué)系的教授,系統(tǒng)神經(jīng)科學(xué)控制論中心的創(chuàng)始成員。這是一支十分有遠(yuǎn)見(jiàn)的團(tuán)隊(duì),專(zhuān)注于神經(jīng)科學(xué)和人工智能交叉方向。 Barto,一位來(lái)自密歇根大學(xué)的博士,擔(dān)任該項(xiàng)目的博士后研究員。與此同時(shí),在斯坦福大學(xué)攻讀計(jì)算機(jī)科學(xué)和心理學(xué)的本科生Sutton,就經(jīng)典條件反射中的刺激時(shí)機(jī)的作用這一話(huà)題和Harry產(chǎn)生了共同興趣。Harry向麻省大學(xué)提出建議,認(rèn)為Sutton可以成為該項(xiàng)目的一名重要補(bǔ)充人員。因此,Sutton成為了麻省大學(xué)的研究生,在成為副教授的Barto的指導(dǎo)下攻讀博士學(xué)位。 本書(shū)中對(duì)強(qiáng)化學(xué)習(xí)的研究都出自Harry推動(dòng)的這一項(xiàng)目,且受其想法啟發(fā)而來(lái)。此外,也是通過(guò)Harry,作者們才得以聚到一起進(jìn)行長(zhǎng)期愉快的合作。因此,我們將本書(shū)獻(xiàn)給Harry,以紀(jì)念他對(duì)于強(qiáng)化學(xué)習(xí)領(lǐng)域和我們合作的重要貢獻(xiàn)。我們也感謝Arbib、Kilmer和Spinelli教授為我們提供探索這些想法的機(jī)會(huì)。最后,感謝AFOSR在研究早期給予我們的慷慨支持,并感謝NSF(美國(guó)國(guó)家科學(xué)基金會(huì))在接下來(lái)的幾年中給予的慷慨支持。
致謝 我們還要感謝在第2版中為我們提供靈感和幫助的許多人,同樣我們也要對(duì)第1版中致謝過(guò)的所有人再次表示深深的感謝,如果不是他們對(duì)第1版的貢獻(xiàn),這一版也不會(huì)面世。在這個(gè)長(zhǎng)長(zhǎng)的致謝列表中,我們?cè)黾恿嗽S多特別為第2版作出貢獻(xiàn)的人。多年來(lái)在使用該教材的教授的課堂上,我們的學(xué)生以各種各樣的方式作出貢獻(xiàn):指正錯(cuò)誤,提供修改方案,也包括對(duì)我們沒(méi)解釋清楚的地方表達(dá)困惑。我們還要特別感謝Martha Steenstrup閱讀并提供詳細(xì)的意見(jiàn)。如果沒(méi)有這些心理學(xué)和神經(jīng)科學(xué)領(lǐng)域?qū)<业膸椭嚓P(guān)章節(jié)將無(wú)法完成。感謝John Moore多年來(lái)在動(dòng)物學(xué)習(xí)實(shí)驗(yàn)、理論和神經(jīng)科學(xué)方面的耐心指導(dǎo),John仔細(xì)審閱了第14章和第15章的多版草稿。感謝Matt Botvinick、Nathaniel Daw、Peter Dayan和Yael Niv對(duì)這些章節(jié)的建議,對(duì)我們閱讀大量文獻(xiàn)給予的重要指導(dǎo),以及對(duì)早期草稿中錯(cuò)誤的斧正。當(dāng)然,這些章節(jié)一定還存在某些紕漏。我們感謝Phil Thomas幫助我們尋找非心理學(xué)、非神經(jīng)科學(xué)研究的人士來(lái)閱讀這些章節(jié),感謝Peter Sterling幫助我們改進(jìn)注釋部分。感謝Jim Houk為我們介紹基底核神經(jīng)中樞進(jìn)行信息處理的過(guò)程,并提醒我們注意其他一些相關(guān)的神經(jīng)科學(xué)的內(nèi)容。在案例學(xué)習(xí)的章節(jié),José Martínez、Terry Sejnowski、David Silver、Gerry Tesauro、Georgios Theocharous和Phil Thomas幫助我們了解他們的強(qiáng)化學(xué)習(xí)應(yīng)用程序的細(xì)節(jié),并對(duì)這些章節(jié)的草稿提出了十分有用的意見(jiàn)。特別感謝David Silver幫助我們更好地理解蒙特卡洛樹(shù)搜索和DeepMind的圍棋程序(Go-playing program)。感謝George Konidaris在傅立葉基的相關(guān)章節(jié)提供的幫助,感謝Emilio Cartoni、Thomas Cederborg、Stefan Dernbach、Clemens Rosenbaum、Patrick Taylor、Thomas Colin和Pierre-Luc Bacon在多方面對(duì)我們提供的幫助。 Sutton還要感謝阿爾伯塔大學(xué)強(qiáng)化學(xué)習(xí)和人工智能實(shí)驗(yàn)室的成員對(duì)第2版的貢獻(xiàn),特別是Rupam Mahmood對(duì)于第5章中關(guān)于離軌策略蒙特卡洛方法的重要貢獻(xiàn),Hamid Maei在第11章中提出的關(guān)于離軌策略學(xué)習(xí)的觀點(diǎn),Eric Graves在第13章中進(jìn)行的實(shí)驗(yàn),Shangtong Zhang復(fù)現(xiàn)并驗(yàn)證了幾乎所有的實(shí)驗(yàn)結(jié)果,Kris De Asis在第7章和第12章中提供的新技術(shù)內(nèi)容,以及Harm van Seijen提出的n步方法與資格跡分離的觀點(diǎn),(和Hado van Hasselt一起)和第12章中涉及的資格跡前向、后向等價(jià)性的觀點(diǎn)。Sutton 也非常感謝阿爾伯塔省政府和加拿大國(guó)家科學(xué)與工程研究委員會(huì)在整個(gè)第2版的構(gòu)思和編寫(xiě)期間給予的支持和自由。特別感謝Randy Goebel在阿爾伯塔省創(chuàng)建的包容支持、具有遠(yuǎn)見(jiàn)的基礎(chǔ)研究環(huán)境。同時(shí),也還要感謝在撰寫(xiě)本書(shū)的最后6個(gè)月中DeepMind給予的支持。 最后,我們要感謝許多閱讀網(wǎng)絡(luò)發(fā)布的第2版的細(xì)心讀者們,他們發(fā)現(xiàn)了許多我們忽視的錯(cuò)誤,提醒我們注意可能出現(xiàn)的混淆點(diǎn)。 Richard Sutton(理查德薩頓) 埃德蒙頓 DeepMind 公司的杰出科學(xué)家,阿爾伯塔大學(xué)計(jì)算科學(xué)系教授。他于2003年加入阿爾伯塔大學(xué),2017年加入DeepMind。之前,曾在美國(guó)電話(huà)電報(bào)公司(AT&T)和通用電話(huà)電子公司(GTE)實(shí)驗(yàn)室工作,在馬薩諸塞大學(xué)做學(xué)術(shù)研究。 1978年獲得斯坦福大學(xué)心理學(xué)學(xué)士學(xué)位,1984年獲得馬薩諸塞大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位,加拿大皇家學(xué)會(huì)院士和人工智能促進(jìn)會(huì)的會(huì)士。 主要研究興趣是在決策者與環(huán)境相互作用時(shí)所面臨的學(xué)習(xí)問(wèn)題,他認(rèn)為這是智能的核心問(wèn)題。其他研究興趣有:動(dòng)物學(xué)習(xí)心理學(xué)、聯(lián)結(jié)主義網(wǎng)絡(luò),以及能夠不斷學(xué)習(xí)和改進(jìn)環(huán)境表征和環(huán)境模型的系統(tǒng)。 他的科學(xué)出版物被引用超過(guò)7萬(wàn)次。 他也是一名自由主義者,國(guó)際象棋選手和癌癥幸存者。 Andrew Barto (安德魯巴圖) 馬薩諸塞大學(xué)阿默斯特分校信息與計(jì)算機(jī)科學(xué)學(xué)院名譽(yù)教授。1970年獲得密歇根大學(xué)數(shù)學(xué)專(zhuān)業(yè)的杰出學(xué)士學(xué)位,并于1975年獲該校計(jì)算機(jī)科學(xué)專(zhuān)業(yè)的博士學(xué)位。1977年他加入馬薩諸塞州阿默斯特大學(xué)計(jì)算機(jī)科學(xué)系。在2012年退休之前,他帶領(lǐng)了馬薩諸塞大學(xué)的自主學(xué)習(xí)實(shí)驗(yàn)室,該實(shí)驗(yàn)室培養(yǎng)了許多著名的機(jī)器學(xué)習(xí)研究者。 目前擔(dān)任Neural Computation (《神經(jīng)計(jì)算》)期刊的副主編,Journal of Machine Learning Research (《機(jī)器學(xué)習(xí)研究》)期刊的顧問(wèn)委員會(huì)成員,以及Adaptive Behavior (《自適應(yīng)行為》)期刊的編委員會(huì)成員。 他是美國(guó)科學(xué)促進(jìn)會(huì)的會(huì)員,IEEE(國(guó)際電子電氣工程師協(xié)會(huì))的終身會(huì)士(Life Fellow),也是神經(jīng)科學(xué)學(xué)會(huì)的成員。 2004年,因強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)榮獲IEEE神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)先鋒獎(jiǎng),并因在強(qiáng)化學(xué)習(xí)理論和應(yīng)用方面的開(kāi)創(chuàng)、富有影響力的研究獲得 IJCAI-17卓越研究獎(jiǎng);2019年獲得馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎(jiǎng)。 他在各類(lèi)期刊、會(huì)議和研討會(huì)上發(fā)表了100多篇論文,參與撰寫(xiě)多部圖書(shū)的相關(guān)章節(jié)。 譯者簡(jiǎn)介 俞凱 上海交通大學(xué)計(jì)算科學(xué)與工程系教授,思必馳公司創(chuàng)始人、首席科學(xué)家。清華大學(xué)自動(dòng)化系本科、碩士,劍橋大學(xué)工程系博士。青年千人,國(guó)家自然科學(xué)基金委優(yōu)青,上海市東方學(xué)者特聘教授。IEEE 高級(jí)會(huì)員,現(xiàn)任 IEEE Speech and Language Processing Technical Committee 委員,中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識(shí)產(chǎn)權(quán)組組長(zhǎng),中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話(huà)及聽(tīng)覺(jué)專(zhuān)業(yè)組副主任。 長(zhǎng)期從事交互式人工智能,尤其是智能語(yǔ)音及自然語(yǔ)言處理的研究和產(chǎn)業(yè)化工作。發(fā)表國(guó)際期刊和會(huì)議論文 150 余篇,獲得Computer Speech and Language, Speech Communication 等多個(gè)國(guó)際期刊及InterSpeech等國(guó)際會(huì)議的最優(yōu)論文獎(jiǎng),所搭建的工程系統(tǒng)曾獲美國(guó)國(guó)家標(biāo)準(zhǔn)局語(yǔ)音識(shí)別評(píng)測(cè)冠軍,對(duì)話(huà)系統(tǒng)國(guó)際研究挑戰(zhàn)賽冠軍等。 獲評(píng)2014吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)進(jìn)步獎(jiǎng),2016科學(xué)中國(guó)人年度人物,2018中國(guó)計(jì)算機(jī)學(xué)會(huì)青竹獎(jiǎng)。 第1章 導(dǎo)論·· · · · 1 1.1 強(qiáng)化學(xué)習(xí)·· · · · 1 1.2 示例·· · · · 4 1.3 強(qiáng)化學(xué)習(xí)要素·· · · · 5 1.4 局限性與適用范圍·· · · · 7 1.5 擴(kuò)展實(shí)例:井字棋 · ··· · · ·· 8 1.6 本章小結(jié)·· · · · 12 1.7 強(qiáng)化學(xué)習(xí)的早期歷史·· · · · 13 第I部分 表格型求解方法·· · · · 23 第2章 多臂賭博機(jī)·· · · · 25 2.1 一個(gè) k 臂賭博機(jī)問(wèn)題·· · · · 25 2.2 動(dòng)作-價(jià)值方法·· · · · · 27 2.3 10 臂測(cè)試平臺(tái)·· · · · 28 2.4 增量式實(shí)現(xiàn)·· · · · 30 2.5 跟蹤一個(gè)非平穩(wěn)問(wèn)題··· · · · 32 2.6 樂(lè)觀初始值·· · · · 34 2.7 基于置信度上界的動(dòng)作選擇 ··· · · · 35 2.8 梯度賭博機(jī)算法·· · · · 37 2.9 關(guān)聯(lián)搜索 (上下文相關(guān)的賭博機(jī)) ·· · · · · 40 2.10 本章小結(jié)·· · · · 41 第3章 有限馬爾可夫決策過(guò)程·· 45 3.1 智能體-環(huán)境交互接口 ·· · · · 45 3.2 目標(biāo)和收益 ·· · · · · · · · · · 51 3.3 回報(bào)和分幕· · · · · · 52 3.4 分幕式和持續(xù)性任務(wù)的統(tǒng)一表示法 ·· ·· 54 3.5 策略和價(jià)值函數(shù) ·· · · · · 55 3.6 最優(yōu)策略和最優(yōu)價(jià)值函數(shù) · ·· · 60 3.7 最優(yōu)性和近似算法 · · · · ·· · · · · · · · 65 3.8 本章小結(jié)· · ·· · 66 第4章 動(dòng)態(tài)規(guī)劃 · ·· · 71 4.1 策略評(píng)估 (預(yù)測(cè)) · ·· · · 72 4.2 策略改進(jìn)· ·· · 75 4.3 策略迭代· ·· · 78 4.4 價(jià)值迭代· ·· · 80 4.5 異步動(dòng)態(tài)規(guī)劃 ·· · 83 4.6 廣義策略迭代 ·· 84 4.7 動(dòng)態(tài)規(guī)劃的效率· · · · 85 4.8 本章小結(jié)·· · · 86 第5章 蒙特卡洛方法 ·· · 89 5.1 蒙特卡洛預(yù)測(cè) · · · 90 5.2 動(dòng)作價(jià)值的蒙特卡洛估計(jì) ·· · · · · · · 94 5.3 蒙特卡洛控制 · ·· · · · 95 5.4 沒(méi)有試探性出發(fā)假設(shè)的蒙特卡洛控制 · ·· · · · · · 98 5.5 基于重要度采樣的離軌策略 · ·· · · · · · 101 5.6 增量式實(shí)現(xiàn) · ·· 107 5.7 離軌策略蒙特卡洛控制 · ·· · · ··· · · · · 108 5.8 ∗ 折扣敏感的重要度采樣·· · · · · ·110 5.9 ∗ 每次決策型重要度采樣·· · · · · 112 5.10 本章小結(jié)·· · · · · 113 第 6 章 時(shí)序差分學(xué)習(xí) · ·· · · 117 6.1 時(shí)序差分預(yù)測(cè) ·· 117 6.2 時(shí)序差分預(yù)測(cè)方法的優(yōu)勢(shì) · ·· · · 122 6.3 TD(0) 的最優(yōu)性 ·· · · · · · · · · · · 124 6.4 Sarsa:同軌策略下的時(shí)序差分控制 · · · ·· · 127 6.5 Q 學(xué)習(xí):離軌策略下的時(shí)序差分控制 · ·· · · 129 6.6 期望 Sarsa · ·· · 131 6.7 最大化偏差與雙學(xué)習(xí)· · · ·· · · · 133 6.8 游戲、后位狀態(tài)和其他特殊例子· ·· · 135 6.9 本章小結(jié)· ·· · 136 第7章 n 步自舉法 ·· · · 139 7.1 n 步時(shí)序差分預(yù)測(cè) ·· · · · · · · · 140 7.2 n 步 Sarsa · ·· · · 144 7.3 n 步離軌策略學(xué)習(xí) · · · · · · · ·146 7.4 ∗ 帶控制變量的每次決策型方法· ·· · ·148 7.5 不需要使用重要度采樣的離軌策略學(xué)習(xí)方法:n 步樹(shù)回溯算法· ·· · ·150 7.6 ∗ 一個(gè)統(tǒng)一的算法:n 步 Q() · ·· · ·153 7.7 本章小結(jié)·· ·· · ·155 第8章 基于表格型方法的規(guī)劃和學(xué)習(xí) ·· · ·· · 157 8.1 模型和規(guī)劃 · ·· · 157 8.2 Dyna:集成在一起的規(guī)劃、動(dòng)作和學(xué)習(xí)·· · · · · 159 8.3 當(dāng)模型錯(cuò)誤的時(shí)候 ·· ·· · · · 164 8.4 優(yōu)先遍歷· · ·· · · 166 8.5 期望更新與采樣更新的對(duì)比 ·· · ·· 170 8.6 軌跡采樣·· · · 173 8.7 實(shí)時(shí)動(dòng)態(tài)規(guī)劃 ·· · 176 8.8 決策時(shí)規(guī)劃 ·· · 179 8.9 啟發(fā)式搜索 · ·· · · 180 8.10 預(yù)演算法· · · · 182 8.11 蒙特卡洛樹(shù)搜索· · · · · · · · 184 8.12 本章小結(jié) · ·· · · 187 8.13 第I部分總結(jié) ·· · · · · · · 188 第II部分 表格型近似求解方法· ·· · · · · · · · 193 第9章 基于函數(shù)逼近的同軌策略預(yù)測(cè) ·· · · · · · · · 195 9.1 價(jià)值函數(shù)逼近 · · ·· · 195 9.2 預(yù)測(cè)目標(biāo) (VE ) ·· · · · · · · 196 9.3 隨機(jī)梯度和半梯度方法 · ·· · · 198 9.4 線(xiàn)性方法· · · · · ·· · · · 202 9.5 線(xiàn)性方法的特征構(gòu)造· ·· · · · · · · · 207 9.5.1 多項(xiàng)式基 · ·· · · · 208 9.5.2 傅立葉基 · · ·· · · · 209 9.5.3 粗編碼· · · · · · ·· · · 212 9.5.4 瓦片編碼· · ·· ·214 9.5.5 徑向基函數(shù) ·· · · · · · · · 218 9.6 手動(dòng)選擇步長(zhǎng)參數(shù) · · · ·· · · · · 219 9.7 非線(xiàn)性函數(shù)逼近:人工神經(jīng)網(wǎng)絡(luò)· · · ·· · · 220 9.8 最小二乘時(shí)序差分 · · · ·· · · · 225 9.9 基于記憶的函數(shù)逼近· · · · ·· · 227 9.10 基于核函數(shù)的函數(shù)逼近 · · · ·· · 229 9.11 深入了解同軌策略學(xué)習(xí):興趣與強(qiáng)調(diào) · · ·· · · 230 9.12 本章小結(jié) · · ·· · · · 232 第10章 基于函數(shù)逼近的同軌策略控制· ·· · · · · · 239 10.1 分幕式半梯度控制 · · ·· 239 10.2 半梯度 n 步 Sarsa· ·· · · · · · · · 242 10.3 平均收益:持續(xù)性任務(wù)中的新的問(wèn)題設(shè)定· · ·· · 245 10.4 棄用折扣 · · · ·· · · · · 249 10.5 差分半梯度 n 步 Sarsa · · · ·· 251 10.6 本章小結(jié) · ·· · · · · · 252 第11 章 ∗ 基于函數(shù)逼近的離軌策略方法· · · ·· 253 11.1 半梯度方法· · · ·· 254 11.2 離軌策略發(fā)散的例子· · · ·· 256 11.3 致命三要素· · · ·· 260 11.4 線(xiàn)性?xún)r(jià)值函數(shù)的幾何性質(zhì) · · · · · · · ·· · 262 11.5 對(duì)貝爾曼誤差做梯度下降 · · · · · · ·· · 266 11.6 貝爾曼誤差是不可學(xué)習(xí)的 · · · · · · · · · 270 11.7 梯度 TD 方法 · · · ·· · · · · · 274 11.8 強(qiáng)調(diào) TD 方法 · ··· 278 11.9 減小方差 · · ·· · · · · · · 279 11.10 本章小結(jié) · · · · ·· · · · · · 280 第12章 資格跡 · · · · ·· · · · 283 12.1 λ-回報(bào)· · · · ·· · · · · 284 12.2 TD(λ)· · · ·· · 287 12.3 n-步截?cái)?λ- 回報(bào)方法 · · ·291 12.4 重做更新:在線(xiàn) λ-回報(bào)算法· · · · ·· · 292 12.5 真實(shí)的在線(xiàn) TD(λ) · · · · ·· · 294 12.6 ∗ 蒙特卡洛學(xué)習(xí)中的荷蘭跡· · · · ·· · 296 12.7 Sarsa(λ)·· · · · ·· ·· 298 12.8 變量 λ 和 · · · · ·· · 303 12.9 帶有控制變量的離軌策略資格跡 · ·· · · · · · 304 12.10 從 Watkins 的 Q(λ) 到樹(shù)回溯 TB(λ)· · · · ·· · · 308 12.11 采用資格跡保障離軌策略方法的穩(wěn)定性 · · ·· · 310 12.12 實(shí)現(xiàn)中的問(wèn)題 · · · ·· · · · · · · · · · · 312 12.13 本章小結(jié) · ·· · · · · · · · · · · · · · 312 第13章 策略梯度方法· · ·· · 317 13.1 策略近似及其優(yōu)勢(shì) · · · · ··· · 318 13.2 策略梯度定理 ·· ·· 320 13.3 REINFORCE:蒙特卡洛策略梯度 · · · ·· · · 322 13.4 帶有基線(xiàn)的 REINFORCE · · ·· · · · 325 13.5 行動(dòng)器-評(píng)判器方法 · · · · ·· · · 327 13.6 持續(xù)性問(wèn)題的策略梯度 · · · ··· · · 329 13.7 針對(duì)連續(xù)動(dòng)作的策略參數(shù)化方法 · · ··· · 332 13.8 本章小結(jié) · · · · ·· ·· · · 333 第III部分 表格型深入研究 · · · ·· ·· · 337 第14章 心理學(xué) · ·· · · · · · · · 339 14.1 預(yù)測(cè)與控制 · ·· · · · · · · · · · · 340 14.2 經(jīng)典條件反射 · · · ·· · · · · · 341 14.2.1 阻塞與高級(jí)條件反射· · · · ·· · · 342 14.2.2 Rescorla-Wagner 模型· · · · ·· · 344 14.2.3 TD 模型 · · ·· · 347 14.2.4 TD 模型模擬 · · · ·· · · · · · 348 14.3 工具性條件反射· ·· · · · · 355 14.4 延遲強(qiáng)化 ·· · · 359 14.5 認(rèn)知圖 · · · ·· · 361 14.6 習(xí)慣行為與目標(biāo)導(dǎo)向行為 · · ·· · · · ·362 14.7 本章小結(jié) · · ·· · · · 366 第15章 神經(jīng)科學(xué) · · ·· · · 373 15.1 神經(jīng)科學(xué)基礎(chǔ) · · · ·· · · · 374 15.2 收益信號(hào)、強(qiáng)化信號(hào)、價(jià)值和預(yù)測(cè)誤差 · ·· · · 375 15.3 收益預(yù)測(cè)誤差假說(shuō) · · · · · ·· · · 377 15.4 多巴胺 · · ·· · · · 379 15.5 收益預(yù)測(cè)誤差假說(shuō)的實(shí)驗(yàn)支持· · · ·· · · 382 15.6 TD 誤差/多巴胺對(duì)應(yīng) · ·· · · · · · 385 15.7 神經(jīng)行動(dòng)器-評(píng)判器 · ·· · · · · · 390 15.8 行動(dòng)器與評(píng)判器學(xué)習(xí)規(guī)則 · · · ·· · · 393 15.9 享樂(lè)主義神經(jīng)元· · · · · · ·· · · 397 15.10 集體強(qiáng)化學(xué)習(xí) · · ·· · · · · 399 15.11 大腦中的基于模型的算法 · ·· · · 402 15.12 成癮· ·· · · · · · · 403 15.13 本章小結(jié) ·· · · · · 404 第 16 章 應(yīng)用及案例分析 · ·· · · · 413 16.1 TD-Gammon · · · ·· · 413 16.2 Samuel 的跳棋程序 · · · · · · ·· 418 16.3 Watson 的每日雙倍投注 · · · · · ·· · · · · 421 16.4 優(yōu)化內(nèi)存控制 · · · ·· · · · · 424 16.5 人類(lèi)級(jí)別的視頻游戲 · · · · · · ·· · · · 428 16.6 主宰圍棋游戲 · · · · ·· · · · · 433 16.6.1 AlphaGo · · · ·· · · · · 436 16.6.2 AlphaGo Zero · · · ·· · · · ·439 16.7 個(gè)性化網(wǎng)絡(luò)服務(wù)· · ·· · 442 16.8 熱氣流滑翔 · ·· · · · · 446 第17章 前沿技術(shù) · · · · ·· · · · · · · · · · 451 17.1 廣義價(jià)值函數(shù)和輔助任務(wù) · · ·· · 451 17.2 基于選項(xiàng)理論的時(shí)序摘要 · · · · · · · · · ·· · · 453 17.3 觀測(cè)量和狀態(tài) · · · · ·· · · · 456 17.4 設(shè)計(jì)收益信號(hào) · ·· · · · · · · · · 460 17.5 遺留問(wèn)題 · ·· · · 464 17.6 人工智能的未來(lái)· · · · · · ·· 467 參考文獻(xiàn) · ·· · · ·· 473
你還可能感興趣
我要評(píng)論
|