无码人妻中文字幕一区,久久久精品人妻一区二区三区

本書研究的靈感來自于近期的強(qiáng)化學(xué)習(xí)(RL)和信息物理系統(tǒng)(CPS)領(lǐng)域的發(fā)展。RL植根于行為心理學(xué)，是機(jī)器學(xué)習(xí)的主要分支之一。不同于其他機(jī)器學(xué)習(xí)算法（如監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)），RL的關(guān)鍵特征是其獨(dú)特的學(xué)習(xí)范式，即試錯。與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合，深度RL變得如此強(qiáng)大，以至于許多復(fù)雜的系統(tǒng)可以被人工智能智能體在超人的水平上自動管理。另一方面，CPS被設(shè)想在不久的將來給我們的社會帶來革命性的變化。這些例子包括新興的智能建筑、智能交通和電網(wǎng)。

適讀人群：科學(xué)、工程、計算機(jī)科學(xué)或應(yīng)用數(shù)學(xué)領(lǐng)域的研究生、本科生、研究人員和工程師。

本書的靈感來自強(qiáng)化學(xué)習(xí)（RL）與信息物理系統(tǒng)（CPS）領(lǐng)域近期的發(fā)展。強(qiáng)化學(xué)習(xí)植根于行為心理學(xué)，是機(jī)器學(xué)習(xí)的主要分支。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)這樣的機(jī)器學(xué)習(xí)算法不同，強(qiáng)化學(xué)習(xí)的主要特征是其獨(dú)一無二的學(xué)習(xí)范式——試錯法。通過與深度神經(jīng)網(wǎng)絡(luò)結(jié)合，深度強(qiáng)化學(xué)習(xí)變得非常強(qiáng)大，使得AI智能體能夠以超人類的水平自動管理許多復(fù)雜的系統(tǒng)。此外，人們期望信息物理系統(tǒng)能夠在不久的將來給我們的社會帶來顛覆性改變，例如新興智能建筑、智能交通和電網(wǎng)。
然而，信息物理系統(tǒng)領(lǐng)域的傳統(tǒng)人工編程控制器，既不能處理日益復(fù)雜的系統(tǒng)，也不能自動適應(yīng)它以前從未遇到過的新情況。如何應(yīng)用現(xiàn)有的深度強(qiáng)化學(xué)習(xí)算法或開發(fā)新的強(qiáng)化學(xué)習(xí)算法以實(shí)現(xiàn)實(shí)時適應(yīng)性信息物理系統(tǒng)？此問題仍然懸而未決。本書通過系統(tǒng)介紹強(qiáng)化學(xué)習(xí)領(lǐng)域的基礎(chǔ)與算法，在兩個領(lǐng)域之間建立起聯(lián)系，并在每一部分列舉了一個或幾個*新的信息物理系統(tǒng)示例，以幫助讀者直觀地理解強(qiáng)化學(xué)習(xí)技術(shù)的實(shí)用性。
本書特色
介紹強(qiáng)化學(xué)習(xí)，包括強(qiáng)化學(xué)習(xí)領(lǐng)域的高級主題。
將強(qiáng)化學(xué)習(xí)應(yīng)用到信息物理系統(tǒng)和網(wǎng)絡(luò)安全。
每章都包含新的示例和練習(xí)。
用兩個案例研究介紹網(wǎng)絡(luò)安全問題。
本書適用于科學(xué)、工程、計算機(jī)科學(xué)或應(yīng)用數(shù)學(xué)領(lǐng)域的研究生或大三/大四本科生，以及對于網(wǎng)絡(luò)安全、強(qiáng)化學(xué)習(xí)和信息物理系統(tǒng)等領(lǐng)域感興趣的研究人員和工程師。閱讀本書的讀者需要微積分和概率論的基礎(chǔ)知識。

前　　言

Reinforcement Learning for Cyber-Physical Systems: with Cybersecurity Case Studies

人工智能（Artificial Intelligence，AI）這一學(xué)科始創(chuàng)于1956年，經(jīng)歷了幾次突飛猛進(jìn)的發(fā)展，但每次都伴隨著漫長的寒冬，也就是AI寒冬—其原因是計算能力的限制、硬件技術(shù)成本的提高、科研經(jīng)費(fèi)的缺乏等。而包括無線技術(shù)、信息技術(shù)和集成電路（IC）在內(nèi)的其他技術(shù)，在此時期已經(jīng)有了顯著的進(jìn)步并成為主流。從2010年開始，先進(jìn)的計算技術(shù)、取自人們?nèi)粘；顒拥拇髷?shù)據(jù)，以及機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等人工智能研究子領(lǐng)域的整合，使社會風(fēng)尚的主流轉(zhuǎn)向人工智能研究及其廣泛的應(yīng)用。例如，谷歌DeepMind最近推出的人工智能圍棋玩家AlphaGo Zero，可以在零人工輸入的情況下實(shí)現(xiàn)超人類水平的性能。也就是說，這臺機(jī)器可以從不了解任何圍棋知識開始，通過與自己玩游戲成為自己的老師。AlphaGo的突破性成功表明，人工智能可以從一個“新生的嬰兒”開始，學(xué)會自己成長，最終表現(xiàn)出超人類水平的性能，幫助我們解決現(xiàn)在和未來面臨的最具挑戰(zhàn)性的任務(wù)。

本書的靈感來自強(qiáng)化學(xué)習(xí)（RL）與信息物理系統(tǒng)（CPS）領(lǐng)域近期的發(fā)展。強(qiáng)化學(xué)習(xí)植根于行為心理學(xué)，是機(jī)器學(xué)習(xí)的主要分支。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)這樣的機(jī)器學(xué)習(xí)算法不同，強(qiáng)化學(xué)習(xí)的主要特征是其獨(dú)一無二的學(xué)習(xí)范式—試錯法。通過與深度神經(jīng)網(wǎng)絡(luò)結(jié)合，深度強(qiáng)化學(xué)習(xí)變得十分強(qiáng)大，使得AI智能體能夠以超人類的水平自動管理許多復(fù)雜的系統(tǒng)。此外，人們期望CPS能夠在不久的將來給我們的社會帶來顛覆性改變，例如新興智能建筑、智能交通和電網(wǎng)。然而，CPS領(lǐng)域傳統(tǒng)的人工編程控制器，既不能處理日益復(fù)雜的系統(tǒng)，也不能自動適應(yīng)它以前從未遇到過的新情況。如何應(yīng)用現(xiàn)有的深度強(qiáng)化學(xué)習(xí)算法或開發(fā)新的強(qiáng)化學(xué)習(xí)算法以實(shí)現(xiàn)實(shí)時適應(yīng)性CPS？此問題仍然懸而未決。本書通過系統(tǒng)介紹強(qiáng)化學(xué)習(xí)領(lǐng)域的基礎(chǔ)與算法，在兩個領(lǐng)域之間建立起聯(lián)系，并在每一部分列舉了一個或幾個最新的CPS示例，以幫助讀者直觀地理解強(qiáng)化學(xué)習(xí)技術(shù)的實(shí)用性。我們相信，書中大量關(guān)于強(qiáng)化學(xué)習(xí)算法的CPS示例會對所有正在使用或?qū)⑹褂脧?qiáng)化學(xué)習(xí)工具解決現(xiàn)實(shí)世界問題的人非常有益。

本書系統(tǒng)介紹強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的關(guān)鍵思想和算法，并全面介紹CPS和網(wǎng)絡(luò)安全。我們的目標(biāo)是使所展示的內(nèi)容易于機(jī)器學(xué)習(xí)、CPS或其他相關(guān)學(xué)科的讀者理解。因此，本書不是一本嚴(yán)格意義上的專注于強(qiáng)化學(xué)習(xí)和CPS理論的書籍。此外，本書并不是對現(xiàn)有的可用強(qiáng)化學(xué)習(xí)算法的最新總結(jié)（因?yàn)槲墨I(xiàn)數(shù)量龐大且發(fā)展迅速）。只有少數(shù)典型的強(qiáng)化學(xué)習(xí)算法被收錄在本書中用于教學(xué)。

本書第一部分對強(qiáng)化學(xué)習(xí)、CPS和網(wǎng)絡(luò)安全進(jìn)行概要介紹。第1章介紹強(qiáng)化學(xué)習(xí)的概念和發(fā)展歷史。第2章介紹CPS和網(wǎng)絡(luò)安全的概念和框架。第二部分正式介紹強(qiáng)化學(xué)習(xí)的框架，并對強(qiáng)化學(xué)習(xí)問題進(jìn)行定義，給出了兩類解決方案：基于模型的解決方案和無模型的解決方案。為了使本書各部分內(nèi)容獨(dú)立，以便讀者不必事先了解強(qiáng)化學(xué)習(xí)就可以很容易地理解每一個知識點(diǎn)，我們在本書中采用Sutton和Barto（1998）的經(jīng)典強(qiáng)化學(xué)習(xí)書籍中的一些資料，而不是在書中提供索引讓讀者到他們的書中查看相關(guān)的算法和討論。最后，我們用一章的篇幅介紹近年來發(fā)展極為迅速的新興研究領(lǐng)域—深度強(qiáng)化學(xué)習(xí)。第三部分通過回顧現(xiàn)有的網(wǎng)絡(luò)安全技術(shù)并描述新興的網(wǎng)絡(luò)威脅，將注意力轉(zhuǎn)移到網(wǎng)絡(luò)安全，其中這些新興的網(wǎng)絡(luò)攻擊不是傳統(tǒng)的網(wǎng)絡(luò)管理方法能直接解決的。之后給出了兩個案例研究，它們是基于（深度）強(qiáng)化學(xué)習(xí)解決這些新興網(wǎng)絡(luò)安全問題的典型案例。這兩個案例基于哥倫比亞大學(xué)研究生的研究成果。這一部分旨在說明如何應(yīng)用強(qiáng)化學(xué)習(xí)知識來描述和解決與CPS相關(guān)的問題。

本書適用于科學(xué)與工程領(lǐng)域的研究生或大三/大四本科生，這些領(lǐng)域包括計算機(jī)科學(xué)/工程、電氣工程、機(jī)械工程、應(yīng)用數(shù)學(xué)、經(jīng)濟(jì)學(xué)等。目標(biāo)讀者還包括與強(qiáng)化學(xué)習(xí)、CPS以及網(wǎng)絡(luò)安全等領(lǐng)域相關(guān)的研究人員和工程師。讀者所需的唯一背景知識是微積分和概率論的基礎(chǔ)知識。

從某種意義上說，我們已經(jīng)花了相當(dāng)長的時間來為本書做準(zhǔn)備。在過去的一年里，我們從哥倫比亞大學(xué)研究生和同事的反饋中受益匪淺。他們中的許多人對本書做出了重大貢獻(xiàn)。在此特別鳴謝：Tashrif Billah（第1章），邱龍飛、曾毅、劉小洋（第2章），Andrew Atkinson Stirn（第3章），Tingyu Mao（第4章），張靈鈺（第5章），顏禎佑（第6章），邱龍飛、劉小洋（第7章），Mehmet Necip Kurt、Oyetunji Enoch Ogundijo（第8章參考了他們的研究成果），胡曉天、胡洋（第9章參考了他們的研究成果）。我們還感謝Urs Niesen、Jon Krohn、張鵬、王振東和劉躍明對書稿的仔細(xì)審查和提出的建設(shè)性反饋。王振東和張磊貢獻(xiàn)了本書第3、4、5章的練習(xí)。本書中的一些練習(xí)和示例是從一些（在線）大學(xué)課程中獲取的，或由這些課程中的一些練習(xí)和示例修改而來，這些課程包括斯坦福大學(xué)的課程CS221和CS234、伯克利大學(xué)的課程CS294-129、卡內(nèi)基–梅隆大學(xué)的課程10-701、倫敦大學(xué)學(xué)院的課程GI13/4C60、猶他大學(xué)的課程CS6300和華盛頓大學(xué)的課程CSE573。

最后，李崇博士非常感謝他的博士導(dǎo)師Nicola Elia。Elia教授對科學(xué)研究的嚴(yán)謹(jǐn)態(tài)度和方法，特別是他在最優(yōu)反饋控制和信息理論方面令人印象深刻的見解，極大地影響了本書的寫作方式。事實(shí)上，最優(yōu)反饋控制一直被視為強(qiáng)化學(xué)習(xí)歷史上的兩條主要線索之一。而另一條線索來自動物學(xué)習(xí)心理學(xué)。本書是對反饋控制理論和反饋信息理論的長期思考和深入研究的直接成果。邱美康教授感謝他的研究小組成員蓋珂珂教授和邱龍飛先生在將強(qiáng)化學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)安全方面的研究洞察力和奉獻(xiàn)精神。我們相信由人工智能引領(lǐng)的新興領(lǐng)域?qū)母旧细淖兪澜�、人類和整個宇宙。

你還可能感興趣

我要評論