1. 程式人生 > 其它 >進化博弈中多代理人強化學習模型-筆記

進化博弈中多代理人強化學習模型-筆記

一、博弈論與進化

  • 策略式博弈模型組成部分
  1. 博弈人
  2. 策略空間:行動
  3. 支付函式:收益
  • 進化博弈論和傳統博弈論的區別:進化博弈論把博弈人行為演化過程看作一個時間演化系統, 重點研究博弈人行為的調整過程.
    傳統博弈論是以博弈人行動所傳遞的資訊為依據, 重點研究博弈人在預期資訊下的決策結果。
    個人理解:進化博弈論研究的是人怎麼去選擇策略,調整策略的過程,而傳統博弈研究的是人選擇策略後,在預期的條件下會獲得的結果。

二、強化學習

  • 強化學習結構:
  • Q-learning:

    個人理解:Q值得更新取決於舊的Q值以及在當前狀態下,選擇某一行動獲得的獎勵和最大的Q(s,t)值,γ值表示折扣因子,γ越小,說明
    系統只考慮即時獎勵,比較短視,γ越大,說明系統同時考慮了未來的獎勵。

三、模型設計

根據代理人的不同可以將強化學習分為單代理人強化學習和多代理人強化學習。單代理人強化學習把其他代理人當作環境的一部分。

  • 模型思想
    將博弈過程中博弈人所處的狀態看成是兩人的歷史行動組合。兩個博弈人獨立選擇自己的行動,並分別得到一個順勢回報r1 r2,若
    r1+r2=0,則為零和博弈。兩人確定動作a1 a2後確定了一個新的行動組合,轉移到新狀態,轉移概率記為。
  • 轉移概率的確定

    在進化博弈中,狀態的不斷改變會使得博弈人的策略不斷更新。λ刻畫的是代理人決策的隨機性,λ越大,隨機性越大。

  • 策略迭代演算法



    兩人進化博弈中強化學習模型 的策略迭代演算法流程為:

    理解:令初始Q值為0,隨機生成一個狀態s,由t時刻的雙博弈矩陣計算出Nash解,通過解1可以觀察到瞬時報酬r1r2,以及對手的行動a2,還有。
    然後計算出t+1時刻的雙博弈矩陣的Nash解,並更新Q1 Q2.令t=t+1,直到搜尋完為止。

五、模擬實驗

  • 背景:一次的囚徒困境中,對於個體而言,背叛是納什均衡解,但是同時選擇合作總體收益卻是更高。重複多次的囚徒困境
    可以給博弈雙方建立信任的機會,從而可能可以破解不合作的困境。
  • 博弈過程中的轉移概率及瞬時回報

    圖中給出了博弈一方在各個狀態下根據不同策略的狀態轉移概率的不同,如狀態<C,C>,在選擇決策C時,轉移到狀態S1的概率是0.375,
    轉移到狀態S2的概率是0.625,瞬時報酬為3。
  • 多種模式下的Q值迭代
    取γ值為0.7,分別使用單代理人模式和多代理人模式進行重複博弈。

    如圖所示,Q值誤差隨著迭代逐漸收斂為0,經過比較,多代理人學習模型比單代理人學習模型具有更快的收斂速度。

    如表所示,隨機決策的效率最低,表明單代理人強化學習模型和多代理人強化學習模型是有效的。多代理人決策模型選擇策略C
    的次數和聯合得益都是最高的, 由此可見: 多代理人決策模型更能有效的實現合作的Pareto最優均衡。