馬氏決策過(guò)程是一個(gè)非常有用的決策分析工具,已經(jīng)成功的用于解決很多實(shí)際問(wèn)題。利用馬氏決策過(guò)程的建模思想,可以將一些離散數(shù)學(xué)中的傳統(tǒng)問(wèn)題描述為特殊的馬氏決策過(guò)程加以考慮。通過(guò)優(yōu)化這些特殊的馬氏決策過(guò)程,不僅可以為解決這些傳統(tǒng)問(wèn)題提供新的思路,而且還可以促進(jìn)馬氏決策過(guò)程本身理論的發(fā)展。但是,在研究這類特殊馬氏決策過(guò)程時(shí),只有引入攝動(dòng)因素才能有效的處理問(wèn)題,所以我們還介紹了馬氏決策的攝動(dòng)理論。本書(shū)的內(nèi)容包括一些基本的馬氏決策過(guò)程知識(shí),主要集中在有限狀態(tài)和有限行動(dòng)的馬氏決策過(guò)程上。然后介紹了有關(guān)馬氏決策過(guò)程的攝動(dòng)理論。最后,利用前面的內(nèi)容,比較詳細(xì)的介紹了攝動(dòng)馬氏決策與哈密爾頓圈之間的關(guān)系和近些年的最新研究成果,提出了一些這個(gè)領(lǐng)域里人們現(xiàn)在最為感興趣的研究問(wèn)題。
本書(shū)適用于三種讀者,一個(gè)是希望利用馬氏決策過(guò)程建立有效的模型來(lái)分析決策行為的讀者,通過(guò)前四章的閱讀可以了解基本的分析工具,后面的閱讀可以使讀者獲得建立具體模型并進(jìn)行分析的一些技巧;二是為希望利用這個(gè)隨機(jī)優(yōu)化的工具研究離散數(shù)學(xué)或者其他相關(guān)科學(xué)里的問(wèn)題的讀者提供思路;最后,對(duì)于希望發(fā)展
本書(shū)主要介紹了兩個(gè)方面的研究工作:一個(gè)是馬氏決策過(guò)程的理論及其攝動(dòng)問(wèn)題。在介紹了一般的馬氏決策過(guò)程理論模型之后,本書(shū)還介紹了一些最新的相關(guān)進(jìn)展。特別的,本書(shū)專門(mén)介紹馬氏決策過(guò)程的攝動(dòng)問(wèn)題。 另一方面的工作就是將離散數(shù)學(xué)中的一類經(jīng)典問(wèn)題,諸如哈密爾頓圈問(wèn)題、旅行商問(wèn)題等等嵌入到凸域上的、可處理的分析問(wèn)題中去,使得問(wèn)題可能得到解決。很明顯,這些經(jīng)典問(wèn)題的主要困難是來(lái)自于問(wèn)題定義域的離散性。將原始的確定性問(wèn)題的關(guān)鍵元素賦予概率解釋之后,就可以獲得擴(kuò)展解域的凸化結(jié)構(gòu)。以哈密爾頓圈問(wèn)題或者旅行商問(wèn)題為例,可以建立一種技術(shù)將其嵌入到單攝動(dòng)的馬氏決策過(guò)程中去。其主要思想就是將子圖解釋為由確定性策略(如果有,就包含哈密爾頓圈)為頂點(diǎn)所構(gòu)成的凸多面體空間中的元素,即為隨機(jī)平穩(wěn)策略所對(duì)應(yīng)。 本書(shū)主要從理論和算法兩個(gè)方面著手考慮哈密爾頓圈或者旅行商問(wèn)題,揭示了圖論的理論結(jié)構(gòu)、概率代數(shù)和相應(yīng)的馬爾可夫鏈之間的一些關(guān)系,包括首次返回時(shí)間的矩、訪問(wèn)節(jié)點(diǎn)的極限頻率、用于分析馬爾可夫鏈的某些矩陣的譜等等。本書(shū)還列出了一些尚未解決的開(kāi)問(wèn)題,以供讀者欣賞和研究。
總序
前言
主要符號(hào)表
第一部分 馬氏決策過(guò)程與攝動(dòng)
第1章 緒論
1.1 序列決策模型
1.2 馬氏決策過(guò)程的例子
1.3 馬氏決策過(guò)程的定義與記號(hào)
1.3.1 決策時(shí)刻與周期
1.3.2 狀態(tài)與行動(dòng)集
1.3.3 轉(zhuǎn)移概率和報(bào)酬
1.3.4 歷史、決策規(guī)則與策略
1.3.5 誘導(dǎo)過(guò)程、效用準(zhǔn)則與馬氏策略優(yōu)勢(shì)
1.4 馬氏決策過(guò)程的起源和發(fā)展
第2章 有限階段模型
2.1 最優(yōu)準(zhǔn)則
2.2 有限階段的策略迭代和最優(yōu)方程
2.3 最優(yōu)策略的存在性和算法
2.4 最優(yōu)策略的結(jié)構(gòu)
2.5 單調(diào)策略的最優(yōu)性
第3章 無(wú)限階段折扣模型
3.1 最優(yōu)準(zhǔn)則
3.2 最優(yōu)方程
3.3 最優(yōu)策略的存在性
3.4 策略迭代算法
3.5 值迭代算法
3.6 改進(jìn)的策略迭代算法
3.7 線性規(guī)劃算法
3.8 最優(yōu)單調(diào)策略
3.9 最優(yōu)策略的結(jié)構(gòu)
第4章 無(wú)限階段平均模型
4.1 最優(yōu)準(zhǔn)則
4.2 最優(yōu)平穩(wěn)策略的存在性
4.3 平穩(wěn)策略的一些特征
4.4 最優(yōu)方程與策略迭代算法
4.5 單鏈的線性規(guī)劃與相關(guān)問(wèn)題
4.5.1 極限平均頻率
4.5.2 帶約束模型問(wèn)題
4.5.3 方差問(wèn)題
4.6 多鏈的線性規(guī)劃與相關(guān)問(wèn)題
4.6.1 對(duì)偶可行解與隨機(jī)平穩(wěn)策略
4.6.2 基本可行解與確定性決策規(guī)則
4.6.3 最優(yōu)解與最優(yōu)策略
4.7 平均準(zhǔn)則下的Bellman最優(yōu)原則
第5章 攝動(dòng)MDP
5.1 預(yù)備知識(shí)
5.2 一些基本記號(hào)和定義
5.3 攝動(dòng)平均問(wèn)題的漸進(jìn)性和極限控制原則
5.4 折扣準(zhǔn)則的攝動(dòng)問(wèn)題
5.5 一般的攝動(dòng)
5.6 單攝動(dòng)極限平均MDP的算法
5.6.1 假設(shè)與漸進(jìn)性質(zhì)
5.6.2 數(shù)學(xué)規(guī)劃和極限馬爾可夫決策問(wèn)題
5.6.3 聚合一分解算法
5.7 進(jìn)一步的研究進(jìn)展
5.7.1 折扣權(quán)重?cái)z動(dòng)模型
5.7.2 折扣平均權(quán)重?cái)z動(dòng)問(wèn)題
第二部分 攝動(dòng)MDP與哈密爾頓圈
第6章 HC與MDP
6.1 哈密爾頓圈問(wèn)題
6.2 有向圖到MDP的嵌入
6.3 平穩(wěn)策略的分類
6.4 約束折扣MDP與HC
6.5 約束折扣MDP的求解
6.6 HC與TSP
第7章 HCP嵌入MDP的攝動(dòng)
7.1 轉(zhuǎn)移概率的攝動(dòng)
7.1.1 轉(zhuǎn)移概率的對(duì)稱線性攝動(dòng)
7.1.2 轉(zhuǎn)移概率的非對(duì)稱線性攝動(dòng)
7.1.3 轉(zhuǎn)移概率的非對(duì)稱二次攝動(dòng)
7.2 攝動(dòng)下子圖的穩(wěn)態(tài)分布
7.3 非對(duì)稱線性攝動(dòng)下的幾個(gè)例子
7.4 非對(duì)稱線性攝動(dòng)下HC的性質(zhì)
7.5 更為精細(xì)的分析
7.6 開(kāi)問(wèn)題和有關(guān)猜想
第8章 頻率空間上的分析
8.1 長(zhǎng)期平均MDP頻率空間中的HCP
8.2 二次非對(duì)稱攝動(dòng)與新目標(biāo)函數(shù)
8.3 啟發(fā)式內(nèi)點(diǎn)算法
8.3.1 內(nèi)點(diǎn)算法簡(jiǎn)介
8.3.2 關(guān)于(QP)求解的啟發(fā)式算法
8.3.3 數(shù)值計(jì)算例子
8.4 一些開(kāi)問(wèn)題及其他
第9章 雙隨機(jī)攝動(dòng)與HC
9.1 基本矩陣
9.2 再談雙隨機(jī)攝動(dòng)
9.3 漸進(jìn)表達(dá)式
9.4 優(yōu)化問(wèn)題與HC的全局最優(yōu)性
9.4.1 非線性規(guī)劃問(wèn)題
9.4.2 方向?qū)?shù)
9.4.3 HC既是局部也是全局最小
9.5 哈密爾頓間隙
9.6 對(duì)稱雙隨機(jī)矩陣的探討
9.7 混合時(shí)間及其變化的最小化
9.7.1 從不可約鏈到一般的情形
9.7.2 跡與對(duì)角線上的元素
9.7.3 攝動(dòng)帶來(lái)的好處
9.7.4 帶有對(duì)稱線性攝動(dòng)的雙隨機(jī)矩陣
第10章 將來(lái)的研究方向和結(jié)束語(yǔ)
10.1 將來(lái)的研究方向
10.2 結(jié)束語(yǔ)
參考文獻(xiàn)
索引
第一部分 馬氏決策過(guò)程與攝動(dòng)
第1章 緒論
人們?cè)谧鰶Q策的時(shí)候,不僅要考慮做決策當(dāng)前的效果,也要照顧到所做的決策對(duì)長(zhǎng)遠(yuǎn)利益的影響.正像一個(gè)長(zhǎng)跑運(yùn)動(dòng)員,他要根據(jù)需要跑的距離而合理分配自己的體力,以避免尚未跑完全程就筋疲力盡.因此,做決策不是孤立的,也就是說(shuō)今天的決策會(huì)影響到明天,而明天的決策會(huì)影響到將來(lái),如果不顧及對(duì)將來(lái)的影響而只考慮當(dāng)前的利益做決策,從長(zhǎng)遠(yuǎn)的角度來(lái)看,效果不會(huì)很好。
本書(shū)涉及的馬爾可夫決策過(guò)程是在不確定環(huán)境下的一類序列決策模型,決策者不僅要考慮決策結(jié)果的即時(shí)效應(yīng),還要考慮為將來(lái)繼續(xù)做決策創(chuàng)造機(jī)會(huì),也就是要考慮這次選擇決策后對(duì)將來(lái)發(fā)展過(guò)程的影響.看上去這個(gè)模型似乎不復(fù)雜,但是它的應(yīng)用極其廣泛,而且產(chǎn)生了豐富的數(shù)學(xué)理論,這一章主要通過(guò)一些例子來(lái)說(shuō)明決策的過(guò)程和動(dòng)態(tài),然后給出馬爾可夫決策過(guò)程的一般記號(hào)與定義,最后敘述了馬氏決策過(guò)程的發(fā)展簡(jiǎn)史和一些比較有影響的相關(guān)書(shū)籍。
1.1 序列決策模型
我們用圖1.1描述多階段決策過(guò)程的一個(gè)完整步驟,在時(shí)刻t,控制系統(tǒng)的決策者觀察到系統(tǒng)當(dāng)前所處的狀態(tài),并根據(jù)這個(gè)狀態(tài)選