![]() ![]() |
基于Python的強(qiáng)化學(xué)習(xí) 本書首先介紹在強(qiáng)化學(xué)習(xí)環(huán)境中工作所需的工具、庫和設(shè)置,涵蓋了強(qiáng)化學(xué)習(xí)的構(gòu)成模塊,深入探討基于值的方法,如Q-learning和SARSA算法的應(yīng)用。讀者將學(xué)習(xí)如何結(jié)合使用Q-learning和神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜問題。此外,在學(xué)習(xí)*d*dPG和TD3確定性算法之前,讀者將學(xué)習(xí)策略梯度方法,如TRPO和PPO,以提高性能和穩(wěn)定性。本書還介紹模仿學(xué)習(xí)的原理,以及Dagger如何教智能體飛行。讀者將探索進(jìn)化策略和黑盒優(yōu)化技術(shù)。最后,讀者將掌握探索方法,如UCB和UCB1,并開發(fā)一個(gè)名為ESBAS的元算法。
你還可能感興趣
我要評(píng)論
|