一级毛片黄久久久免费看美国,国产亚洲一路线二路线高

《強(qiáng)化學(xué)習(xí)（第2版）》作為強(qiáng)化學(xué)習(xí)思想的深度解剖之作，被業(yè)內(nèi)公認(rèn)為是一本強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的經(jīng)典著作。它從強(qiáng)化學(xué)習(xí)的基本思想出發(fā)，深入淺出又嚴(yán)謹(jǐn)細(xì)致地介紹了馬爾可夫決策過(guò)程、蒙特卡洛方法、時(shí)序差分方法、同軌離軌策略等強(qiáng)化學(xué)習(xí)的基本概念和方法，并以大量的實(shí)例幫助讀者理解強(qiáng)化學(xué)習(xí)的問(wèn)題建模過(guò)程以及核心的算法細(xì)節(jié)。

《強(qiáng)化學(xué)習(xí)（第2版）》適合所有對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀、收藏。

本書(shū)第1版出版的20年以來(lái)，在機(jī)器學(xué)習(xí)(包括強(qiáng)化學(xué)習(xí)) 前沿技術(shù)發(fā)展的推動(dòng)下，人工智能取得了重大進(jìn)展。這些進(jìn)展不僅歸功于這些年迅猛發(fā)展起來(lái)的計(jì)算機(jī)強(qiáng)大的計(jì)算能力，也受益于許多理論和算法上的創(chuàng)新。面對(duì)這些進(jìn)展，我們?cè)缬袑?duì)1998年第1版書(shū)進(jìn)行更新再版的打算，但直到2012年才開(kāi)始真正著手編纂。第2版的目標(biāo)與第1版一致：為強(qiáng)化學(xué)習(xí)的核心概念與算法提供清晰簡(jiǎn)明的解釋?zhuān)怨┧邢嚓P(guān)學(xué)科的讀者學(xué)習(xí)。這一版仍然是一本概要介紹性的讀物，仍然關(guān)注最核心的在線(xiàn)學(xué)習(xí)算法，同時(shí)增加了一些近年來(lái)日趨重要的話(huà)題，并拓展了部分內(nèi)容，給出了更新的理解。強(qiáng)化學(xué)習(xí)領(lǐng)域可以延伸出很多不同的方向，但我們并不想包羅萬(wàn)象，在此為可能出現(xiàn)的些許遺漏表示歉意。

第2版記號(hào)變化

和第1版一樣，我們沒(méi)有以最嚴(yán)謹(jǐn)?shù)男问交姆绞絹?lái)定義強(qiáng)化學(xué)習(xí)，也沒(méi)有采用特別抽象的術(shù)語(yǔ)表達(dá)，但是為了大家能更深入地理解，有些話(huà)題仍然需要用數(shù)學(xué)來(lái)解釋。無(wú)數(shù)學(xué)需求的讀者可以選擇跳過(guò)灰色框中的數(shù)學(xué)原理部分。在教學(xué)過(guò)程中，我們發(fā)現(xiàn)一些新的記號(hào)可以消除一些共同的疑惑點(diǎn)，因此本書(shū)的部分記號(hào)和上一版相比略有差異。首先我們對(duì)隨機(jī)變量進(jìn)行了區(qū)分，以大寫(xiě)字母表示變量本身，小寫(xiě)字母表示對(duì)應(yīng)的實(shí)例。比如時(shí)刻t的狀態(tài)、動(dòng)作和收益被表示為St、At和Rt，而它們可能的取值被表示為s、a和r。與之相伴隨，我們用小寫(xiě)字母的形式(例如v)來(lái)表示價(jià)值函數(shù)，用大寫(xiě)字母表示其表格型的估計(jì)值，比如Qt(s,a)。近似價(jià)值函數(shù)是具有隨機(jī)參數(shù)的確定性函數(shù)，因此用小寫(xiě)字母表示，比如v(s,wt)v(s)。向量用粗體的小寫(xiě)字母表示(包括隨機(jī)變量)，比如權(quán)值向量wt(先前用t表示)、特征向量xt(先前用?t表示)。大寫(xiě)粗體用以表示矩陣。在第1版中我們使用了特殊記號(hào)Paass來(lái)表示轉(zhuǎn)移概率和期望收益。但這種記號(hào)并不能完整地表示出收益的動(dòng)態(tài)性，只表示了期望值，因此只適用于動(dòng)態(tài)規(guī)劃而不適用于強(qiáng)化學(xué)習(xí)。另一個(gè)缺點(diǎn)是上下標(biāo)的過(guò)度使用。因此，在這一版中我們明確采用p(s,r|s,a)的記號(hào)來(lái)表示給定當(dāng)前狀態(tài)s和動(dòng)作a后，下一時(shí)刻的狀態(tài)s和收r的聯(lián)合概率分布。所有的記號(hào)變化都收錄在稍后的符號(hào)列表中。

第2版內(nèi)容結(jié)構(gòu)

第2版在原先的基礎(chǔ)上進(jìn)行了許多拓展，整體結(jié)構(gòu)也有所變化。第1章是導(dǎo)論性的介紹，其后分為三個(gè)部分。第I部分(第28 章)會(huì)盡可能多地用表格型的案例講解強(qiáng)化學(xué)習(xí)，主要包括針對(duì)表格型案例的學(xué)習(xí)和規(guī)劃算法，以及它們?cè)趎步法和Dyna中的統(tǒng)一表達(dá)。這部分介紹的許多算法是第2版的新增內(nèi)容，包括UCB、期望Sarsa、雙重學(xué)習(xí)、樹(shù)回溯、Q()、RTDP和MCTS。從介紹表格型案例開(kāi)始，可以在最簡(jiǎn)單的情況下理解算法的核心思想。本書(shū)的第II部分(第913章)致力于將這些思想從表格型的情況擴(kuò)展到函數(shù)逼近，包含人工神經(jīng)網(wǎng)絡(luò)、傅立葉變換基礎(chǔ)、LSTD、核方法、梯度TD和強(qiáng)調(diào)TD方法、平均收益方法、真實(shí)的在線(xiàn)TD(λ)和策略梯度方法等新內(nèi)容。第2版大幅拓展了對(duì)離軌策略的介紹，首先是第57章講解表格型的案例，之后在第11章和第12章講解函數(shù)逼近法。另一個(gè)變化是，這一版將n步自舉法(在第7章中詳細(xì)闡述)中的前向視圖思想與資格跡(在第12章中單獨(dú)闡述)中的后向視圖思想分開(kāi)詳細(xì)講解。本書(shū)的第III部分加入了大量闡述強(qiáng)化學(xué)習(xí)與心理學(xué)(第14章)、神經(jīng)科學(xué)(第15章)聯(lián)系的新章節(jié)，更新了針對(duì)多種案例，包括Atari游戲、Watson的投注策略和圍棋人工智能AlphaGo、AlphaGo Zero (第16章)的研究章節(jié)。盡管如此，本書(shū)涵蓋的內(nèi)容仍然只是該領(lǐng)域的一小部分，只反映了我們長(zhǎng)期以來(lái)對(duì)低成本無(wú)模型方法的興趣，這些方法可以很好地適應(yīng)大規(guī)模的應(yīng)用。最后一章包括了對(duì)強(qiáng)化學(xué)習(xí)未來(lái)的社會(huì)影響的討論。無(wú)論好壞，第2版的篇幅達(dá)到了第1版的兩倍。

本書(shū)旨在作為一到兩學(xué)期強(qiáng)化學(xué)習(xí)課程的初級(jí)教材。一個(gè)學(xué)期的課程可以著重對(duì)前10章進(jìn)行討論，掌握核心思想，根據(jù)需要再將其他章節(jié)，或者其他書(shū)籍的某些章節(jié)，比如Bertsekas和Tsitsiklis(1996)、Wiering和van Otterlo(2012)，以及Szepesvári(2010)或其他文獻(xiàn)作為輔助材料。根據(jù)學(xué)生的背景，在線(xiàn)有監(jiān)督學(xué)習(xí)的一些額外材料可能會(huì)對(duì)學(xué)習(xí)這門(mén)課有所幫助。比如選項(xiàng)的概念和模型(Sutton、Precup和Singh，1999)就是一個(gè)很好的補(bǔ)充。兩學(xué)期的課程可以使用所有章節(jié)內(nèi)容及補(bǔ)充材料。本書(shū)還可以作為機(jī)器學(xué)習(xí)、人工智能或神經(jīng)網(wǎng)絡(luò)等課程的一部分。這種情況只需要講述部分內(nèi)容，我們推薦對(duì)第1章進(jìn)行簡(jiǎn)要概述，然后學(xué)習(xí)第2章到2.4節(jié)和第3章，隨后根據(jù)時(shí)間和興趣選擇其余章節(jié)。第6章的內(nèi)容對(duì)于本書(shū)和相關(guān)課程來(lái)說(shuō)是最重要的。關(guān)于機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)的課程應(yīng)該使用第9章和第10章的內(nèi)容，而關(guān)于人工智能或規(guī)劃算法的課程應(yīng)該使用第8章的內(nèi)容。在整本書(shū)中，相對(duì)比較難且對(duì)于其他課程不那么重要的章節(jié)和部分已用∗注明。這些部分在第一次閱讀時(shí)可以跳過(guò)，這不會(huì)影響后續(xù)閱讀。練習(xí)中一些進(jìn)階的、對(duì)理解基礎(chǔ)概念不那么重要的問(wèn)題也已經(jīng)用∗標(biāo)識(shí)。

大多數(shù)章節(jié)最后會(huì)出現(xiàn)題為參考文獻(xiàn)和歷史備注的部分，在這部分中，我們針對(duì)本章中一些值得深入探究的概念和觀點(diǎn)提供了進(jìn)一步閱讀和研究的材料，并描述了相關(guān)的歷史背景。盡管我們?cè)噲D使這些部分內(nèi)容具有權(quán)威性和完整性，但也不免會(huì)忽略一些重要的前期工作。為此，我們?cè)俅伪硎厩敢�，也歡迎讀者提出更正和擴(kuò)展。

本書(shū)寫(xiě)作背景

和第1版一樣，我們用本書(shū)的這一版紀(jì)念A(yù).Harry Klopf。是Harry把本書(shū)的作者們介紹給彼此，也是他關(guān)于大腦和人工智能的想法，使我們踏上對(duì)強(qiáng)化學(xué)習(xí)研究的漫長(zhǎng)征程。Harry是俄亥俄州賴(lài)特-帕特森空軍基地空軍科學(xué)研究所(AFOSR)航空電子管理局的一位高級(jí)研究員，他受過(guò)神經(jīng)生理學(xué)的訓(xùn)練，并一直對(duì)機(jī)器智能很感興趣。在解釋自然智能、機(jī)器智能基礎(chǔ)機(jī)理的問(wèn)題上，他并不滿(mǎn)意當(dāng)時(shí)的人們對(duì)平衡態(tài)搜索(equilibrium-seeking)過(guò)程(包括內(nèi)部穩(wěn)態(tài)自調(diào)整過(guò)程和基于錯(cuò)誤糾正的模式分類(lèi)方法)的廣泛重視。他指出，嘗試最大化某種準(zhǔn)則(無(wú)論該準(zhǔn)則是什么)的系統(tǒng)與搜索平衡態(tài)的系統(tǒng)在本質(zhì)上有所不同，而具有最大化準(zhǔn)則的系統(tǒng)才是理解自然智能的重要方向，是構(gòu)建人工智能的關(guān)鍵。Harry從AFOSR申請(qǐng)了項(xiàng)目資助，用于評(píng)估這些思想以及相關(guān)思想的科學(xué)價(jià)值。該項(xiàng)目于20世紀(jì)70年代末在馬薩諸塞州阿默斯特大學(xué)(麻省大學(xué)阿默斯特分校)進(jìn)行，最初由Michael Arbib、William Kilmer和Nico Spinelli指導(dǎo)，他們是麻省大學(xué)阿默斯特分校計(jì)算機(jī)與信息科學(xué)系的教授，系統(tǒng)神經(jīng)科學(xué)控制論中心的創(chuàng)始成員。這是一支十分有遠(yuǎn)見(jiàn)的團(tuán)隊(duì)，專(zhuān)注于神經(jīng)科學(xué)和人工智能交叉方向。

Barto，一位來(lái)自密歇根大學(xué)的博士，擔(dān)任該項(xiàng)目的博士后研究員。與此同時(shí)，在斯坦福大學(xué)攻讀計(jì)算機(jī)科學(xué)和心理學(xué)的本科生Sutton，就經(jīng)典條件反射中的刺激時(shí)機(jī)的作用這一話(huà)題和Harry產(chǎn)生了共同興趣。Harry向麻省大學(xué)提出建議，認(rèn)為Sutton可以成為該項(xiàng)目的一名重要補(bǔ)充人員。因此，Sutton成為了麻省大學(xué)的研究生，在成為副教授的Barto的指導(dǎo)下攻讀博士學(xué)位。

本書(shū)中對(duì)強(qiáng)化學(xué)習(xí)的研究都出自Harry推動(dòng)的這一項(xiàng)目，且受其想法啟發(fā)而來(lái)。此外，也是通過(guò)Harry，作者們才得以聚到一起進(jìn)行長(zhǎng)期愉快的合作。因此，我們將本書(shū)獻(xiàn)給Harry，以紀(jì)念他對(duì)于強(qiáng)化學(xué)習(xí)領(lǐng)域和我們合作的重要貢獻(xiàn)。我們也感謝Arbib、Kilmer和Spinelli教授為我們提供探索這些想法的機(jī)會(huì)。最后，感謝AFOSR在研究早期給予我們的慷慨支持，并感謝NSF(美國(guó)國(guó)家科學(xué)基金會(huì))在接下來(lái)的幾年中給予的慷慨支持。

致謝

我們還要感謝在第2版中為我們提供靈感和幫助的許多人，同樣我們也要對(duì)第1版中致謝過(guò)的所有人再次表示深深的感謝，如果不是他們對(duì)第1版的貢獻(xiàn)，這一版也不會(huì)面世。在這個(gè)長(zhǎng)長(zhǎng)的致謝列表中，我們?cè)黾恿嗽S多特別為第2版作出貢獻(xiàn)的人。多年來(lái)在使用該教材的教授的課堂上，我們的學(xué)生以各種各樣的方式作出貢獻(xiàn)：指正錯(cuò)誤，提供修改方案，也包括對(duì)我們沒(méi)解釋清楚的地方表達(dá)困惑。我們還要特別感謝Martha Steenstrup閱讀并提供詳細(xì)的意見(jiàn)。如果沒(méi)有這些心理學(xué)和神經(jīng)科學(xué)領(lǐng)域?qū)＜业膸椭嚓P(guān)章節(jié)將無(wú)法完成。感謝John Moore多年來(lái)在動(dòng)物學(xué)習(xí)實(shí)驗(yàn)、理論和神經(jīng)科學(xué)方面的耐心指導(dǎo)，John仔細(xì)審閱了第14章和第15章的多版草稿。感謝Matt Botvinick、Nathaniel Daw、Peter Dayan和Yael Niv對(duì)這些章節(jié)的建議，對(duì)我們閱讀大量文獻(xiàn)給予的重要指導(dǎo)，以及對(duì)早期草稿中錯(cuò)誤的斧正。當(dāng)然，這些章節(jié)一定還存在某些紕漏。我們感謝Phil Thomas幫助我們尋找非心理學(xué)、非神經(jīng)科學(xué)研究的人士來(lái)閱讀這些章節(jié)，感謝Peter Sterling幫助我們改進(jìn)注釋部分。感謝Jim Houk為我們介紹基底核神經(jīng)中樞進(jìn)行信息處理的過(guò)程，并提醒我們注意其他一些相關(guān)的神經(jīng)科學(xué)的內(nèi)容。在案例學(xué)習(xí)的章節(jié)，José Martínez、Terry Sejnowski、David Silver、Gerry Tesauro、Georgios Theocharous和Phil Thomas幫助我們了解他們的強(qiáng)化學(xué)習(xí)應(yīng)用程序的細(xì)節(jié)，并對(duì)這些章節(jié)的草稿提出了十分有用的意見(jiàn)。特別感謝David Silver幫助我們更好地理解蒙特卡洛樹(shù)搜索和DeepMind的圍棋程序(Go-playing program)。感謝George Konidaris在傅立葉基的相關(guān)章節(jié)提供的幫助，感謝Emilio Cartoni、Thomas Cederborg、Stefan Dernbach、Clemens Rosenbaum、Patrick Taylor、Thomas Colin和Pierre-Luc Bacon在多方面對(duì)我們提供的幫助。

Sutton還要感謝阿爾伯塔大學(xué)強(qiáng)化學(xué)習(xí)和人工智能實(shí)驗(yàn)室的成員對(duì)第2版的貢獻(xiàn)，特別是Rupam Mahmood對(duì)于第5章中關(guān)于離軌策略蒙特卡洛方法的重要貢獻(xiàn)，Hamid Maei在第11章中提出的關(guān)于離軌策略學(xué)習(xí)的觀點(diǎn)，Eric Graves在第13章中進(jìn)行的實(shí)驗(yàn)，Shangtong Zhang復(fù)現(xiàn)并驗(yàn)證了幾乎所有的實(shí)驗(yàn)結(jié)果，Kris De Asis在第7章和第12章中提供的新技術(shù)內(nèi)容，以及Harm van Seijen提出的n步方法與資格跡分離的觀點(diǎn)，(和Hado van Hasselt一起)和第12章中涉及的資格跡前向、后向等價(jià)性的觀點(diǎn)。Sutton 也非常感謝阿爾伯塔省政府和加拿大國(guó)家科學(xué)與工程研究委員會(huì)在整個(gè)第2版的構(gòu)思和編寫(xiě)期間給予的支持和自由。特別感謝Randy Goebel在阿爾伯塔省創(chuàng)建的包容支持、具有遠(yuǎn)見(jiàn)的基礎(chǔ)研究環(huán)境。同時(shí)，也還要感謝在撰寫(xiě)本書(shū)的最后6個(gè)月中DeepMind給予的支持。

最后，我們要感謝許多閱讀網(wǎng)絡(luò)發(fā)布的第2版的細(xì)心讀者們，他們發(fā)現(xiàn)了許多我們忽視的錯(cuò)誤，提醒我們注意可能出現(xiàn)的混淆點(diǎn)。

Richard Sutton（理查德薩頓）

埃德蒙頓 DeepMind 公司的杰出科學(xué)家，阿爾伯塔大學(xué)計(jì)算科學(xué)系教授。他于2003年加入阿爾伯塔大學(xué)，2017年加入DeepMind。之前，曾在美國(guó)電話(huà)電報(bào)公司（AT＆T）和通用電話(huà)電子公司（GTE）實(shí)驗(yàn)室工作，在馬薩諸塞大學(xué)做學(xué)術(shù)研究。

1978年獲得斯坦福大學(xué)心理學(xué)學(xué)士學(xué)位，1984年獲得馬薩諸塞大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位，加拿大皇家學(xué)會(huì)院士和人工智能促進(jìn)會(huì)的會(huì)士。

主要研究興趣是在決策者與環(huán)境相互作用時(shí)所面臨的學(xué)習(xí)問(wèn)題，他認(rèn)為這是智能的核心問(wèn)題。其他研究興趣有：動(dòng)物學(xué)習(xí)心理學(xué)、聯(lián)結(jié)主義網(wǎng)絡(luò)，以及能夠不斷學(xué)習(xí)和改進(jìn)環(huán)境表征和環(huán)境模型的系統(tǒng)。

他的科學(xué)出版物被引用超過(guò)7萬(wàn)次。

他也是一名自由主義者，國(guó)際象棋選手和癌癥幸存者。

Andrew Barto （安德魯巴圖）

馬薩諸塞大學(xué)阿默斯特分校信息與計(jì)算機(jī)科學(xué)學(xué)院名譽(yù)教授。1970年獲得密歇根大學(xué)數(shù)學(xué)專(zhuān)業(yè)的杰出學(xué)士學(xué)位，并于1975年獲該校計(jì)算機(jī)科學(xué)專(zhuān)業(yè)的博士學(xué)位。1977年他加入馬薩諸塞州阿默斯特大學(xué)計(jì)算機(jī)科學(xué)系。在2012年退休之前，他帶領(lǐng)了馬薩諸塞大學(xué)的自主學(xué)習(xí)實(shí)驗(yàn)室，該實(shí)驗(yàn)室培養(yǎng)了許多著名的機(jī)器學(xué)習(xí)研究者。

目前擔(dān)任Neural Computation （《神經(jīng)計(jì)算》）期刊的副主編，Journal of Machine Learning Research （《機(jī)器學(xué)習(xí)研究》）期刊的顧問(wèn)委員會(huì)成員，以及Adaptive Behavior （《自適應(yīng)行為》）期刊的編委員會(huì)成員。

他是美國(guó)科學(xué)促進(jìn)會(huì)的會(huì)員，IEEE（國(guó)際電子電氣工程師協(xié)會(huì)）的終身會(huì)士（Life Fellow），也是神經(jīng)科學(xué)學(xué)會(huì)的成員。

2004年，因強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)榮獲IEEE神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)先鋒獎(jiǎng)，并因在強(qiáng)化學(xué)習(xí)理論和應(yīng)用方面的開(kāi)創(chuàng)、富有影響力的研究獲得 IJCAI-17卓越研究獎(jiǎng)；2019年獲得馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎(jiǎng)。

他在各類(lèi)期刊、會(huì)議和研討會(huì)上發(fā)表了100多篇論文，參與撰寫(xiě)多部圖書(shū)的相關(guān)章節(jié)。

譯者簡(jiǎn)介

俞凱

上海交通大學(xué)計(jì)算科學(xué)與工程系教授，思必馳公司創(chuàng)始人、首席科學(xué)家。清華大學(xué)自動(dòng)化系本科、碩士，劍橋大學(xué)工程系博士。青年千人，國(guó)家自然科學(xué)基金委優(yōu)青，上海市東方學(xué)者特聘教授。IEEE 高級(jí)會(huì)員，現(xiàn)任 IEEE Speech and Language Processing Technical Committee 委員，中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識(shí)產(chǎn)權(quán)組組長(zhǎng)，中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話(huà)及聽(tīng)覺(jué)專(zhuān)業(yè)組副主任。

長(zhǎng)期從事交互式人工智能，尤其是智能語(yǔ)音及自然語(yǔ)言處理的研究和產(chǎn)業(yè)化工作。發(fā)表國(guó)際期刊和會(huì)議論文 150 余篇，獲得Computer Speech and Language, Speech Communication 等多個(gè)國(guó)際期刊及InterSpeech等國(guó)際會(huì)議的最優(yōu)論文獎(jiǎng)，所搭建的工程系統(tǒng)曾獲美國(guó)國(guó)家標(biāo)準(zhǔn)局語(yǔ)音識(shí)別評(píng)測(cè)冠軍，對(duì)話(huà)系統(tǒng)國(guó)際研究挑戰(zhàn)賽冠軍等。

獲評(píng)2014吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)進(jìn)步獎(jiǎng)，2016科學(xué)中國(guó)人年度人物，2018中國(guó)計(jì)算機(jī)學(xué)會(huì)青竹獎(jiǎng)。

你還可能感興趣

我要評(píng)論