進化博弈中多代理人強化學習模型-筆記

阿新 • • 發佈：2021-10-05

一、博弈論與進化

策略式博弈模型組成部分

博弈人
策略空間：行動
支付函式：收益

進化博弈論和傳統博弈論的區別：進化博弈論把博弈人行為演化過程看作一個時間演化系統, 重點研究博弈人行為的調整過程.
傳統博弈論是以博弈人行動所傳遞的資訊為依據, 重點研究博弈人在預期資訊下的決策結果。
個人理解：進化博弈論研究的是人怎麼去選擇策略，調整策略的過程，而傳統博弈研究的是人選擇策略後，在預期的條件下會獲得的結果。

二、強化學習

強化學習結構：
Q-learning：

個人理解：Q值得更新取決於舊的Q值以及在當前狀態下，選擇某一行動獲得的獎勵和最大的Q（s，t）值，γ值表示折扣因子，γ越小，說明
系統只考慮即時獎勵，比較短視，γ越大，說明系統同時考慮了未來的獎勵。

三、模型設計

根據代理人的不同可以將強化學習分為單代理人強化學習和多代理人強化學習。單代理人強化學習把其他代理人當作環境的一部分。

模型思想
將博弈過程中博弈人所處的狀態看成是兩人的歷史行動組合。兩個博弈人獨立選擇自己的行動，並分別得到一個順勢回報r1 r2，若
r1+r2=0，則為零和博弈。兩人確定動作a1 a2後確定了一個新的行動組合，轉移到新狀態，轉移概率記為。
轉移概率的確定

在進化博弈中，狀態的不斷改變會使得博弈人的策略不斷更新。λ刻畫的是代理人決策的隨機性，λ越大，隨機性越大。
策略迭代演算法

兩人進化博弈中強化學習模型的策略迭代演算法流程為:

理解：令初始Q值為0，隨機生成一個狀態s，由t時刻的雙博弈矩陣計算出Nash解，通過解1可以觀察到瞬時報酬r1r2，以及對手的行動a2，還有。
然後計算出t+1時刻的雙博弈矩陣的Nash解，並更新Q1 Q2.令t=t+1，直到搜尋完為止。

五、模擬實驗

背景：一次的囚徒困境中，對於個體而言，背叛是納什均衡解，但是同時選擇合作總體收益卻是更高。重複多次的囚徒困境
可以給博弈雙方建立信任的機會，從而可能可以破解不合作的困境。
博弈過程中的轉移概率及瞬時回報

圖中給出了博弈一方在各個狀態下根據不同策略的狀態轉移概率的不同，如狀態<C,C>,在選擇決策C時，轉移到狀態S1的概率是0.375，
轉移到狀態S2的概率是0.625，瞬時報酬為3。
多種模式下的Q值迭代
取γ值為0.7，分別使用單代理人模式和多代理人模式進行重複博弈。

如圖所示，Q值誤差隨著迭代逐漸收斂為0，經過比較，多代理人學習模型比單代理人學習模型具有更快的收斂速度。

如表所示，隨機決策的效率最低，表明單代理人強化學習模型和多代理人強化學習模型是有效的。多代理人決策模型選擇策略C
的次數和聯合得益都是最高的, 由此可見: 多代理人決策模型更能有效的實現合作的Pareto最優均衡。

進化博弈中多代理人強化學習模型-筆記

一、博弈論與進化策略式博弈模型組成部分博弈人策略空間：行動支付函式：收益

李巨集毅強化學習完整筆記！開源專案《LeeDeepRL-Notes》釋出

Datawhale開源核心貢獻者：王琦、楊逸遠、江季提起李巨集毅老師，熟悉強化學習的讀者朋友一定不會陌生。很多人選擇的強化學習入門學習材料都是李巨集毅老師的臺大公開課視訊。

多智慧體博弈強化學習研究綜述筆記3

多智慧體博弈強化學習研究綜述筆記擴充套件式博弈完全資訊的擴充套件式博弈

強化學習 4 —— 時序差分法（TD）解決無模型預測與控制問題

在上篇文章強化學習——蒙特卡洛 (MC) 取樣法的預測與控制中我們討論了 Model Free 情況下的策略評估問題，主要介紹了蒙特卡洛（MC）取樣法的預測與控制問題，這次我們介紹另外一種方法——時序差分法（TD）

強化學習 3—— 使用蒙特卡洛取樣法（MC）解決無模型預測與控制問題

一、問題引入回顧上篇強化學習 2 —— 用動態規劃求解 MDP我們使用策略迭代和價值迭代來求解MDP問題

Java中的多執行緒學習筆記003：靜態代理

https://space.bilibili.com/95256449/channel/detail?cid=146244 靜態代理 package com.stark.study001; /**

Java中的多執行緒學習筆記002：Callable介面實現多執行緒

https://space.bilibili.com/95256449/channel/detail?cid=146244 Java中的多執行緒002 1、使用Callable介面實現多執行緒

Java中的多執行緒學習筆記001：Thread類和Runnable介面

https://space.bilibili.com/95256449/channel/detail?cid=146244 Java中的多執行緒001 1、繼承Thread類，重寫run方法，建立執行緒物件，呼叫start()方法

Java中的多執行緒學習筆記005：執行緒的狀態

https://www.bilibili.com/video/BV1V4411p7EF?p=11 執行緒的狀態執行緒的方法 package com.stark.study001;

Java中的多執行緒學習筆記004：Lambda表示式和函式式介面

https://space.bilibili.com/95256449/channel/detail?cid=146244 Lambda表示式和函式式介面 Functional Interface(函式式介面)：

基於淺層神經網路（全連線網路）的強化學習演算法（Reinforce）在訓練過程中出現梯度衰退（degenerate）的現象

首先給出一個程式碼地址： https://gitee.com/devilmaycry812839668/CartPole-PolicyNetwork 強化學習中的策略網路演算法。《TensorFlow實戰》一書中強化學習部分的策略網路演算法，模擬環境為gym的CartPole，本專案

OpenAI 多智慧體強化學習環境(multiagent-particle-envs)詳解

multiagent-particle-envs是OpenAI開源的多智慧體學習環境。一、安裝 Link：https://github.com/openai/multiagent-particle-envs

強化學習baseline論文—— rainbow演算法中給出實驗結果的54個atari2600遊戲名稱列表

alien amidar assault asterix asteroids atlantis bank_heist battle_zone beam_rider berzerk bowling boxing breakout

Java基礎（一）：I/O多路複用模型及Linux中的應用

IO多路複用模型廣泛的應用於各種高併發的中介軟體中，那麼區別於其他模式他的優勢是什麼、其核心設計思想又是什麼、其在Linux中是如何實現的？

基於納什均衡的多智慧體強化學習交通訊號控制

納什均衡理論基本概念基本概念納什均衡：要其他參與者不改變自己的策略的情況下，沒有任何一個參與者可以通過改變策略獲得更多的收益。任何靜態的博弈至少有一個納什均衡。

5篇關於強化學習在金融領域中應用的論文推薦

近年來機器學習在各個金融領域各個方面均有應用，其實金融領域的場景是很適合強化學習應用的，但是由於金融領域真金白銀的，以目前強化學習的學習效率估計願意嘗試的人不多，但是並不妨礙我們學習和了解這方面的知識

如何為Keras中的深度學習模型建立Checkpoint

深度學習模式可能需要幾個小時，幾天甚至幾周的時間來訓練。如果執行意外停止，你可能就白乾了。

Deepmind的星際爭霸2強化學習教程（1）：建立環境與訓練模型

去年，DeepMind開源將星際爭霸II的強化學習環境公之於眾，很多人都為之興奮。

強化學習中好奇心機制

參考連結： https://www.leiphone.com/category/ai/TmJCRLNVeuXoh2mv.html https://tianjuewudi.gitee.io/2021/12/02/qiang-hua-xue-xi-zhong-de-hao-qi-xin-jiang-li-ji-zhi/#!

用示範克服強化學習中的探索

主要內容：對比遊戲和機器人領域，關鍵的區別在於探索的難度，這取決於獎勵函式的選擇和複雜的環境動態性。在博弈中，獎勵函式通常是給定的，可以直接進行優化，最新的研究表明，使用稀疏獎勵學習可以得到執行期望目

進化博弈中多代理人強化學習模型-筆記

一、博弈論與進化

二、強化學習

三、模型設計

五、模擬實驗

相關推薦