定 價(jià):128 元
叢書(shū)名:新一代人工智能理論、技術(shù)及應(yīng)用叢書(shū)
當(dāng)前圖書(shū)已被 23 所學(xué)校薦購(gòu)過(guò)!
查看明細(xì)
- 作者:
- 出版時(shí)間:2024/3/1
- ISBN:9787030770950
- 出 版 社:科學(xué)出版社
- 中圖法分類(lèi):TP
- 頁(yè)碼:
- 紙張:
- 版次:1
- 開(kāi)本:B5
本書(shū)嘗試總結(jié)近年來(lái)游戲人工智能方向的優(yōu)秀研究工作,以及作者的一些探索成果。主要內(nèi)容包括游戲人工智能的背景、經(jīng)典的游戲人工智能方法、DeepMind針對(duì)棋牌和視頻類(lèi)游戲的人工智能方法,以及作者團(tuán)隊(duì)針對(duì)即時(shí)游戲的人工智能方法,如格斗游戲、星際爭(zhēng)霸的宏觀生產(chǎn)和微觀操作等。從理論分析到算法設(shè)計(jì)到編程實(shí)現(xiàn),旨在為讀者提供一個(gè)針對(duì)不同游戲人工智能問(wèn)題的系統(tǒng)性論述。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
趙冬斌,易建強(qiáng)。全方位移動(dòng)機(jī)器人導(dǎo)論。科學(xué)出版社
目錄
“新一代人工智能理論、技術(shù)及應(yīng)用叢書(shū)”序
前言
第1章游戲人工智能介紹1
1.1引言1
1.1.1游戲人工智能背景和意義1
1.1.2游戲人工智能研究發(fā)展1
1.2回合制游戲人工智能3
1.2.1棋類(lèi)游戲人工智能發(fā)展歷程3
1.2.2牌類(lèi)游戲人工智能發(fā)展歷程4
1.2.3棋牌類(lèi)游戲人工智能測(cè)試平臺(tái)5
1.3即時(shí)制游戲人工智能7
1.3.1即時(shí)制游戲平臺(tái)和競(jìng)賽7
1.3.2雅達(dá)利游戲8
1.3.3第一人稱(chēng)視角游戲9
1.3.4即時(shí)策略游戲10
1.4游戲人工智能的關(guān)鍵性挑戰(zhàn)與研究思路12
1.5游戲人工智能的未來(lái)發(fā)展趨勢(shì)與展望13
1.5.1基于深度強(qiáng)化學(xué)習(xí)方法的策略模型泛化性14
1.5.2構(gòu)建高效魯棒合理的前向推理模型14
1.5.3增強(qiáng)模型的環(huán)境適應(yīng)和學(xué)習(xí)優(yōu)化性能14
1.5.4從虛擬環(huán)境到實(shí)際應(yīng)用的遷移15
1.6本章小結(jié)15
參考文獻(xiàn)15
第2章基本游戲人工智能方法20
2.1引言20
2.2經(jīng)典博弈樹(shù)模型20
2.2.1極小化極大算法20
2.2.2α-β剪枝算法21
2.3統(tǒng)計(jì)前向規(guī)劃22
2.3.1蒙特卡羅樹(shù)搜索算法23
2.3.2滾動(dòng)時(shí)域演化算法26
2.4強(qiáng)化學(xué)習(xí)27
2.4.1蒙特卡羅算法29
2.4.2時(shí)間差分強(qiáng)化學(xué)習(xí)算法30
2.4.3策略梯度學(xué)習(xí)算法31
2.5深度強(qiáng)化學(xué)習(xí)33
2.5.1深度Q網(wǎng)絡(luò)及其擴(kuò)展34
2.5.2異步優(yōu)勢(shì)執(zhí)行器-評(píng)價(jià)器算法及其擴(kuò)展38
2.5.3策略梯度深度強(qiáng)化學(xué)習(xí)40
2.5.4面向?qū)共┺牡纳疃葟?qiáng)化學(xué)習(xí)43
2.6本章小結(jié)45
參考文獻(xiàn)45
第3章DeepMind游戲人工智能方法51
3.1引言51
3.2AlphaGo51
3.2.1算法概述52
3.2.2計(jì)算機(jī)圍棋的發(fā)展歷史與現(xiàn)狀52
3.2.3原理分析53
3.2.4性能分析56
3.2.5評(píng)價(jià)57
3.3AlphaGoZero.58
3.3.1算法概述58
3.3.2深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)61
3.3.3蒙特卡羅樹(shù)搜索61
3.3.4訓(xùn)練流程64
3.3.5討論65
3.4AlphaZero和MuZero66
3.4.1AlphaZero概述67
3.4.2MuZero概述68
3.4.3算法解析70
3.4.4性能分析72
3.5AlphaStar74
3.5.1星際爭(zhēng)霸研究意義74
3.5.2算法概述75
3.5.3算法解析76
3.5.4性能分析78
3.6本章小結(jié)81
參考文獻(xiàn)82
第4章兩人零和馬爾可夫博弈的極小化極大Q網(wǎng)絡(luò)算法85
4.1引言85
4.2兩人零和馬爾可夫博弈的基本知識(shí)86
4.2.1兩人零和馬爾可夫博弈86
4.2.2納什均衡或極小化極大均衡86
4.2.3極小化極大價(jià)值和極小化極大方程86
4.2.4線性規(guī)劃求解極小化極大解87
4.3動(dòng)態(tài)規(guī)劃求解貝爾曼極小化極大方程88
4.3.1值迭代88
4.3.2策略迭代88
4.3.3廣義策略迭代89
4.4極小化極大Q網(wǎng)絡(luò)算法90
4.4.1Q函數(shù)神經(jīng)網(wǎng)絡(luò)90
4.4.2在線學(xué)習(xí)90
4.4.3M2QN算法在查表法下的收斂性92
4.5仿真實(shí)驗(yàn)94
4.5.1足球博弈94
4.5.2守護(hù)領(lǐng)土96
4.5.3格斗游戲98
4.6本章小結(jié)101
參考文獻(xiàn)101
第5章格斗游戲的對(duì)手模型和滾動(dòng)時(shí)域演化算法104
5.1引言104
5.2基于滾動(dòng)時(shí)域演化的統(tǒng)計(jì)前向規(guī)劃建模105
5.2.1格斗游戲問(wèn)題定義105
5.2.2滾動(dòng)時(shí)域演化算法105
5.3基于自適應(yīng)對(duì)手模型的神經(jīng)網(wǎng)絡(luò)建模107
5.3.1對(duì)手模型建模107
5.3.2監(jiān)督學(xué)習(xí)式對(duì)手模型107
5.3.3強(qiáng)化學(xué)習(xí)式對(duì)手模型108
5.4實(shí)驗(yàn)設(shè)計(jì)與測(cè)試結(jié)果110
5.4.1實(shí)驗(yàn)設(shè)置與測(cè)試平臺(tái)110
5.4.2內(nèi)部比較111
5.4.3對(duì)抗2018年格斗游戲程序113
5.4.4兩種統(tǒng)計(jì)前向規(guī)劃與對(duì)手建模結(jié)合的性能比較114
5.4.52019年格斗游戲競(jìng)賽結(jié)果115
5.4.62020年格斗游戲競(jìng)賽結(jié)果115
5.4.7性能指標(biāo)分析116
5.4.8討論121
5.5本章小結(jié)121
參考文獻(xiàn)122
第6章星際爭(zhēng)霸宏觀生產(chǎn)的深度強(qiáng)化學(xué)習(xí)算法124
6.1引言124
6.2星際爭(zhēng)霸宏觀生產(chǎn)決策分析與建模125
6.2.1問(wèn)題定義125
6.2.2輸入狀態(tài)特征126
6.2.3決策動(dòng)作定義128
6.2.4決策神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)128
6.2.5基于策略和價(jià)值混合式網(wǎng)絡(luò)的決策系統(tǒng)優(yōu)化方法129
6.3實(shí)驗(yàn)設(shè)置與結(jié)果分析132
6.3.1星際爭(zhēng)霸宏觀決策對(duì)抗優(yōu)化場(chǎng)景132
6.3.2對(duì)抗優(yōu)化場(chǎng)景下的實(shí)驗(yàn)結(jié)果133
6.3.3星際爭(zhēng)霸學(xué)生天梯賽136
6.4本章小結(jié)136
參考文獻(xiàn)136
第7章星際爭(zhēng)霸微操的強(qiáng)化學(xué)習(xí)和課程遷移學(xué)習(xí)算法138
7.1引言138
7.2星際爭(zhēng)霸微操任務(wù)分析與建模139
7.2.1問(wèn)題定義139
7.2.2高維狀態(tài)表示140
7.2.3動(dòng)作定義141
7.2.4網(wǎng)絡(luò)結(jié)構(gòu)141
7.3基于強(qiáng)化學(xué)習(xí)的星際爭(zhēng)霸多單位控制142
7.3.1共享參數(shù)多智能體梯度下降Sarsa(λ)算法143
7.3.2獎(jiǎng)賞函數(shù)144
7.3.3幀跳躍145
7.3.4課程遷移學(xué)習(xí)145
7.4實(shí)驗(yàn)設(shè)置和結(jié)果分析146
7.4.1星際爭(zhēng)霸微操場(chǎng)景設(shè)置146
7.4.2結(jié)果討論147
7.4.3策略分析151
7.5本章小結(jié)154
參考文獻(xiàn)154
第8章星際爭(zhēng)霸微操的可變數(shù)量多智能體強(qiáng)化學(xué)習(xí)算法156
8.1引言156
8.2背景知識(shí)與相關(guān)工作156
8.2.1多智能體強(qiáng)化學(xué)習(xí)156
8.2.2聯(lián)合觀測(cè)動(dòng)作價(jià)值函數(shù)分解158
8.2.3相關(guān)工作158
8.3可變數(shù)量多智能體強(qiáng)化學(xué)習(xí)162
8.3.1自加權(quán)混合網(wǎng)絡(luò)162
8.3.2適應(yīng)動(dòng)作空間變化的智能體網(wǎng)絡(luò)165
8.3.3可變網(wǎng)絡(luò)的訓(xùn)練算法166
8.4星際爭(zhēng)霸II微操實(shí)驗(yàn)169
8.4.1可變網(wǎng)絡(luò)在星際爭(zhēng)霸II微操環(huán)境的實(shí)驗(yàn)設(shè)置169
8.4.2可變網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果170
8.4.3消融實(shí)驗(yàn)172
8.4.4可變網(wǎng)絡(luò)策略分析174
8.5本章小結(jié)175
參考文獻(xiàn)176
附錄A強(qiáng)化學(xué)習(xí)符號(hào)表178
附錄B主要詞匯中英文對(duì)照表179