欧美成人观看免费全部完,亚洲综合网站一级片,无码在线观看av麻豆

本書介紹了深度強(qiáng)化學(xué)習(xí)理論和實(shí)現(xiàn)的獨(dú)特結(jié)合。它從入門開始，然后詳細(xì)地解釋了深度強(qiáng)化學(xué)習(xí)算法的理論，也討論了它的配套軟件庫(kù)SLM實(shí)驗(yàn)室的實(shí)現(xiàn)，并以使深度強(qiáng)化學(xué)習(xí)工作的實(shí)際細(xì)節(jié)結(jié)束。

當(dāng)DeepMind在Atari街機(jī)游戲中取得突破性進(jìn)展時(shí)，我們次發(fā)現(xiàn)了深度強(qiáng)化學(xué)習(xí)（Deep RL）。人工智能體在只使用圖像而不使用先驗(yàn)知識(shí)的情況下，首次達(dá)到了人類的水平。
人工智能體在沒有監(jiān)督的情況下，通過(guò)反復(fù)試驗(yàn)自學(xué)的想法激發(fā)了我們的想象力，這是一種新的、令人興奮的機(jī)器學(xué)習(xí)方法，它與我們熟悉的監(jiān)督學(xué)習(xí)領(lǐng)域有很大的不同。
我們決定一起學(xué)習(xí)這個(gè)主題，我們閱讀書籍和論文，學(xué)習(xí)在線課程，學(xué)習(xí)代碼，并嘗試實(shí)現(xiàn)核心算法。我們意識(shí)到，深度強(qiáng)化學(xué)習(xí)不僅在概念上具有挑戰(zhàn)性，在實(shí)現(xiàn)過(guò)程中也需要像大型軟件工程項(xiàng)目一樣經(jīng)過(guò)艱辛的努力。
隨著我們的進(jìn)步，我們了解了更多關(guān)于深度強(qiáng)化學(xué)習(xí)的知識(shí)算法如何相互關(guān)聯(lián)以及它們的不同特征是什么。形成這種心理模型是一個(gè)挑戰(zhàn)，因?yàn)樯疃葟?qiáng)化學(xué)習(xí)是一個(gè)新的研究領(lǐng)域，尚無(wú)全面的理論書籍，我們必須直接從研究論文和在線講座中學(xué)習(xí)。
另一個(gè)挑戰(zhàn)是理論與實(shí)現(xiàn)之間的巨大差距。通常，深度強(qiáng)化學(xué)習(xí)算法有許多組件和可調(diào)的超參數(shù)，這使其變得敏感且脆弱。為了成功運(yùn)行，所有組件都需要正確地協(xié)同工作，并使用適當(dāng)?shù)某瑓?shù)值。從理論上講，實(shí)現(xiàn)這一目標(biāo)所需的細(xì)節(jié)并不是很清楚，但同樣重要。在我們的學(xué)習(xí)過(guò)程中，那些理論和實(shí)現(xiàn)相結(jié)合的資源是非常寶貴的。
我們覺得從理論到實(shí)現(xiàn)的過(guò)程應(yīng)該比我們發(fā)現(xiàn)的更簡(jiǎn)單，我們希望通過(guò)自己的努力使深度強(qiáng)化學(xué)習(xí)更易于學(xué)習(xí)。這本書是我們的嘗試，書中采用端到端的方法來(lái)引入深度強(qiáng)化學(xué)習(xí)從直覺開始，然后解釋理論和算法，后是實(shí)現(xiàn)和實(shí)踐技巧。這也是為什么這本書附帶了一個(gè)軟件庫(kù)SLM Lab，其中包含了所有算法的實(shí)現(xiàn)。簡(jiǎn)而言之，這是我們?cè)陂_始學(xué)習(xí)這一主題時(shí)希望擁有的書。
深度強(qiáng)化學(xué)習(xí)屬于強(qiáng)化學(xué)習(xí)中一個(gè)較大的領(lǐng)域。強(qiáng)化學(xué)習(xí)的核心是函數(shù)逼近，在深度強(qiáng)化學(xué)習(xí)中，函數(shù)是用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的。強(qiáng)化學(xué)習(xí)與有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)一起構(gòu)成了機(jī)器學(xué)習(xí)的三種核心技術(shù)，每種技術(shù)在問題的表達(dá)方式和算法的數(shù)據(jù)學(xué)習(xí)方式上都有所不同。
在這本書中，我們專注于深度強(qiáng)化學(xué)習(xí)，因?yàn)槲覀兯?jīng)歷的挑戰(zhàn)是針對(duì)強(qiáng)化學(xué)習(xí)這一子領(lǐng)域的。這從兩個(gè)方面限制了本書的范圍。首先，它排除了在強(qiáng)化學(xué)習(xí)中可以用來(lái)學(xué)習(xí)函數(shù)的所有其他技術(shù)。其次，雖然強(qiáng)化學(xué)習(xí)從20世紀(jì)50年代就已經(jīng)存在，但本書強(qiáng)調(diào)的是2013年到2019年的發(fā)展。近的許多發(fā)展都是建立在較早的研究基礎(chǔ)上的，因此我們認(rèn)為有必要追溯主要思想的發(fā)展。然而，我們并不打算給出這一領(lǐng)域的全面歷史介紹。
這本書是針對(duì)計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生和軟件工程師的，旨在介紹深度強(qiáng)化學(xué)習(xí)，無(wú)須事先了解相關(guān)主題。但是，我們假設(shè)讀者對(duì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)有基本的了解，并且有中級(jí)Python編程水平。一些使用PyTorch的經(jīng)驗(yàn)也是有用的，但不是必需的。
這本書的結(jié)構(gòu)如下。
第1章介紹深度強(qiáng)化學(xué)習(xí)問題的不同方面，并對(duì)深度強(qiáng)化學(xué)習(xí)算法進(jìn)行綜述。
部分是基于策略的算法和基于值的算法。第2章介紹種策略梯度方法（REINFORCE算法）。第3章介紹種基于值的方法（SARSA）。第4章討論深度Q網(wǎng)絡(luò)（DQN）算法。第5章重點(diǎn)討論改進(jìn)的深度Q網(wǎng)絡(luò)目標(biāo)網(wǎng)絡(luò)、雙重DQN算法和優(yōu)先級(jí)經(jīng)驗(yàn)回放技術(shù)。
第二部分重點(diǎn)研究基于策略和基于值的組合方法。第6章介紹對(duì)REINFORCE算法進(jìn)行擴(kuò)展的演員-評(píng)論家算法。第7章介紹對(duì)演員-評(píng)論家算法進(jìn)行擴(kuò)展的近端策略優(yōu)化（PPO）算法。第8章討論同步和異步并行方法，適用于本書中的任何算法。后，第9章總結(jié)所有的算法。
每個(gè)算法章節(jié)的結(jié)構(gòu)都是相同的。首先，介紹該章的主要概念，并通過(guò)相關(guān)的數(shù)學(xué)公式進(jìn)行研究。然后，描述算法并討論在Python中的實(shí)現(xiàn)。后，提供一個(gè)可在SLM Lab中運(yùn)行的可調(diào)超參數(shù)配置算法，并用圖表說(shuō)明該算法的主要特點(diǎn)。
第三部分重點(diǎn)介紹實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)算法的實(shí)踐細(xì)節(jié)。第10章介紹工程和調(diào)試實(shí)現(xiàn)，包括關(guān)于超參數(shù)和實(shí)驗(yàn)結(jié)果的小結(jié)。第11章為配套的SLM Lab提供使用參考。第12章介紹神經(jīng)網(wǎng)絡(luò)架構(gòu)。第13章討論硬件。
本書的后一部分（第四部分）是關(guān)于環(huán)境設(shè)計(jì)的，由第14～17章組成，分別討論狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和轉(zhuǎn)換函數(shù)的設(shè)計(jì)。
我們推薦從第1章開始順序閱讀到第10章。這些章節(jié)介紹了本書中的所有算法，并提供了實(shí)現(xiàn)算法的實(shí)用技巧。接下來(lái)的三章（第11～13章）集中在更專業(yè)的主題上，可以按任何順序閱讀。對(duì)于不想深入研究的讀者來(lái)說(shuō)，第1、2、3、4、6和10章是本書的一個(gè)連貫子集，重點(diǎn)關(guān)注了一些算法。后，第四部分包含了一組獨(dú)立的章節(jié)，供對(duì)更深入地理解環(huán)境或構(gòu)建自己的環(huán)境有特殊興趣的讀者閱讀。
SLM Lab\[67\]是本書的配套軟件庫(kù)，是一個(gè)使用PyTorch\[114\]構(gòu)建的模塊化深度強(qiáng)化學(xué)習(xí)框架。SLM是Strange Loop Machine的縮寫，向侯世達(dá)的名著《哥德爾、艾舍爾、巴赫：集異璧之大成》\[53\]致敬。SLM Lab的具體例子包括使用PyTorch的語(yǔ)法和特性來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。然而，實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)算法的基本原理也適用于其他的深度學(xué)習(xí)框架，比如TensorFlow\[1\]。
SLM Lab的設(shè)計(jì)旨在幫助初學(xué)者通過(guò)將其組成部分組織成概念清晰的片段來(lái)學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)。這些組成部分與學(xué)

你還可能感興趣

我要評(píng)論