智能決策是邁向通用人工智能的必經(jīng)之路。2016年,圍棋智能體AlphaGo戰(zhàn)勝韓國棋手李世石,智能決策引起人們的廣泛關(guān)注;2022年底,ChatGPT火爆全球,凸顯出大模型的價值。可以預(yù)見,神經(jīng)網(wǎng)絡(luò)大模型將進一步推動智能決策在自主學習和應(yīng)用范圍上的突破。本書圍繞智能決策領(lǐng)域涉及的基本方法與技術(shù)展開介紹,主要內(nèi)容包括:智能決策與智能體的基本概念,智能體所處環(huán)境的分類與建模,確定環(huán)境下智能體的搜索推理決策方法,不確定環(huán)境下決策策略強化學習方法、博弈學習方法,復(fù)雜策略的深層神經(jīng)網(wǎng)絡(luò)建模與應(yīng)用,以及網(wǎng)格世界游戲、“雅達利”游戲、圍棋對弈、“星際爭霸”即時戰(zhàn)略對抗游戲、陸戰(zhàn)對抗等實例下智能體的決策策略生成技術(shù)和部分Python代碼實現(xiàn)。
更多科學出版社服務(wù),請掃碼獲取。
1. 第二屆全軍"先知.兵圣"人機對抗挑戰(zhàn)賽--先知分隊級智能體第二名, 2020年(本書依托)。
2. 基于魯棒水印的數(shù)字媒體安全管理系統(tǒng),軍隊科技進步獎二等獎,2014年,排名第2。
目錄
前言
第1章 智能決策概述 1
1.1 智能決策的內(nèi)涵 1
1.1.1 基本概念 1
1.1.2 兩個關(guān)鍵問題 2
1.1.3 虛擬環(huán)境 3
1.2 當前成果與技術(shù)流派 6
1.2.1 當前成果 6
1.2.2 三大流派 9
1.3 未來應(yīng)用與發(fā)展方向 10
1.3.1 為復(fù)雜體系提供輔助決策 10
1.3.2 為無人系統(tǒng)提升自主能力 12
第2章 基本理論與模型 14
2.1 決策的基本理論 14
2.1.1 人類決策的一般過程 14
2.1.2 決策的認知心理學描述 16
2.2 智能體模型理論 18
2.2.1 智能體的基本概念 18
2.2.2 與一般決策的不同 20
2.3 知識與環(huán)境描述 21
2.3.1 知識表示 21
2.3.2 環(huán)境描述方法 22
2.3.3 環(huán)境與智能體分類 23
第3章 確定環(huán)境下的搜索推理決策方法 27
3.1 智能體的描述與分析 27
3.1.1 智能體的決策問題 27
3.1.2 問題的形式化 28
3.1.3 問題蘊含的知識 29
3.2 搜索推理決策方法 31
3.2.1 智能體的決策 31
3.2.2 搜索算法基礎(chǔ) 32
3.2.3 無信息搜索策略 36
3.2.4 啟發(fā)式搜索策略 41
3.3 自動規(guī)劃與知識描述 42
3.3.1 集合論描述 42
3.3.2 經(jīng)典規(guī)劃描述 47
3.3.3 時態(tài)規(guī)劃模型 52
第4章 不確定環(huán)境下的決策策略生成方法 54
4.1 不確定環(huán)境下的基本決策方法 54
4.1.1 隨機不確定環(huán)境下的最大期望效用決策 54
4.1.2 博弈不確定環(huán)境下的純策略決策 56
4.1.3 博弈不確定環(huán)境下的混合策略決策 64
4.2 決策策略的強化學習算法 68
4.2.1 強化學習的基本概念 68
4.2.2 有模型的強化學習 70
4.2.3 無模型的強化學習 75
第5章 神經(jīng)網(wǎng)絡(luò)與決策策略建模 87
5.1 神經(jīng)網(wǎng)絡(luò)的基本概念 87
5.1.1 神經(jīng)網(wǎng)絡(luò)的定義 87
5.1.2 神經(jīng)元模型 89
5.2 全連接反向傳播與監(jiān)督學習 91
5.2.1 反向傳播算法 91
5.2.2 前饋多層神經(jīng)網(wǎng)絡(luò) 96
5.2.3 監(jiān)督學習下的損失函數(shù) 97
5.2.4 參數(shù)初始化與參數(shù)更新方法 100
5.3 卷積神經(jīng)網(wǎng)絡(luò)及其反向傳播 106
5.3.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 106
5.3.2 卷積神經(jīng)網(wǎng)絡(luò)中的反向傳播 114
5.4 神經(jīng)網(wǎng)絡(luò)在決策策略建模中的應(yīng)用 117
5.4.1 擬合狀態(tài)價值函數(shù)與直接生成動作 117
5.4.2 策略網(wǎng)絡(luò)的訓練 119
5.4.3 Actor-Critic方法 121
第6章 簡單游戲中的智能決策技術(shù) 124
6.1 OpenAI Gym與虛擬環(huán)境 124
6.2 表格Q學習與網(wǎng)格世界游戲決策 125
6.2.1 游戲環(huán)境與Q學習實現(xiàn) 125
6.2.2 湖面溜冰游戲決策 128
6.3 DQN與打磚塊游戲決策 129
6.3.1 打磚塊游戲環(huán)境 129
6.3.2 DQN算法過程 130
6.3.3 DQN核心代碼 136
6.3.4 打磚塊游戲智能體的實現(xiàn) 142
第7章 完全信息下的棋類智能決策技術(shù) 149
7.1 AlphaZero算法原理 149
7.1.1 基本思路 149
7.1.2 蒙特卡羅樹搜索基礎(chǔ) 151
7.1.3 自我博弈與神經(jīng)網(wǎng)絡(luò)設(shè)計 156
7.2 棋盤游戲環(huán)境實現(xiàn) 160
7.2.1 N子棋走子 160
7.2.2 棋盤環(huán)境 164
7.3 AlphaZero算法實現(xiàn) 170
7.3.1 自我博弈實現(xiàn) 170
7.3.2 蒙特卡羅樹搜索 174
7.3.3 策略價值網(wǎng)絡(luò) 176
7.3.4 訓練與決策 183
第8章 不完全信息下的對抗策略的博弈學習 193
8.1 博弈學習算法 193
8.1.1 博弈學習的基本概念 193
8.1.2 博弈及其策略的形式化描述 194
8.1.3 博弈學習動力學及學習算法 196
8.2 “星際爭霸”游戲?qū)箚栴}分析 200
8.2.1 “星際爭霸”游戲環(huán)境 200
8.2.2 決策問題分析 206
8.3 AlphaStar中的決策神經(jīng)網(wǎng)絡(luò)和博弈學習技術(shù) 207
8.3.1 動作體系與狀態(tài)觀測量 207
8.3.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)概況與監(jiān)督學習 209
8.3.3 神經(jīng)網(wǎng)絡(luò)強化學習的基本方法 212
8.3.4 加權(quán)虛擬自我博弈與聯(lián)盟學習 214
第9章 戰(zhàn)術(shù)級陸戰(zhàn)對抗策略的智能生成 216
9.1 陸戰(zhàn)人機對抗環(huán)境 216
9.1.1 陸戰(zhàn)對抗場景 216
9.1.2 廟算平臺的環(huán)境接口 218
9.2 智能體的基本框架 219
9.2.1 智能體對棋子的控制 219
9.2.2 高層動作的實施邏輯 222
9.3 基于先驗收益的目標點位選擇的初始策略 223
9.3.1 目標點位選擇問題分析 223
9.3.2 博弈模型構(gòu)建 224
9.3.3 收益值計算與混合策略求解 225
9.4 目標點位選擇策略的博弈學習 232
9.4.1 博弈學習架構(gòu)設(shè)計 232
9.4.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計 234
9.4.3 神經(jīng)網(wǎng)絡(luò)參數(shù)博弈學習 238
參考文獻 244
附錄A 神經(jīng)網(wǎng)絡(luò)的使用 246
A.1 PyTorch框架下神經(jīng)網(wǎng)絡(luò)的使用 246
A.2 TensorFlow Keras框架下神經(jīng)網(wǎng)絡(luò)的使用 248
附錄B 廟算平臺接口 251
B.1 態(tài)勢接口 251
B.2 機動動作接口 256