1. 程式人生 > 其它 >Game Theory and Multi-agent Reinforcement Learning筆記 上

Game Theory and Multi-agent Reinforcement Learning筆記 上

一、引言

  • 多智慧體強化學習的標準模型:

    多智慧體產生動作a1,a2.....an聯合作用於環境,環境返回當前的狀態st和獎勵rt。智慧體接受到系統的反饋st和ri,根據反饋資訊選擇下一步的策略。

二、重複博弈

  1. 正規形式博弈
  • 定義:正規形式的博弈是一個元組(n,A1,...,n,R1,...,n)
    n代表n個參與者
    Ak代表參與者k能夠選擇的動作
    Rk是參與者k的獎勵函式,指定他通過執行動作a∈A1×A2....×An

-純策略與混合策略:如果動作a ∈ Ak,且σk(a) = 1,而其他所有動作σall-k(a) = 0,則稱為全策略。否則稱為混合策略。

  • 玩家k在策略配置σ下的預期回報:

  • 經典的雙人博弈:(a)匹配硬幣,一種純粹的競爭(零和)遊戲。(b)囚徒困境,一般和博弈。(c)協調博弈,即共同利益(相同收益)博弈。(d)性別博弈,各主體偏好不同的協調博弈)純納什均衡用粗體表示。

    博弈a:玩家1和玩家2一起拋硬幣,若是雙方硬幣是同一面的,則玩家1獲勝,否則玩家2獲勝。零和博弈
    博弈b:囚徒博弈,一般和博弈。
    博弈c:一個共同興趣遊戲。在這種情況下,兩個玩家在每次聯合行動中獲得相同的收益。這個遊戲的挑戰是讓玩家協調最優的聯合行動。選擇錯誤的聯合行動將給出次優收益,而未能協調結果將得到0收益。
    博弈d:性別之戰,是另一個協調遊戲的例子。然而,在這裡,玩家會獲得個人獎勵,並偏好不同的結果。Agent 1偏好(a1,a1)而Agent 2偏好(a2,a2)除了協調問題之外,玩家現在還必須就哪種優選結果達成一致。

  • 3個動作的共同興趣遊戲:(a)攀爬對策(b)懲罰對策,k≤0。這兩款遊戲都具有共同的興趣型別。純納什均衡用粗體表示。

  1. 博弈中的解決方案概念
  • 定義:設σ = (σ1,…,σn)是一個策略配置,令表示相同的策略配置,但不包含參與人k的策略σk。如果下列條件成立,則稱為參與人k的最佳響應:

  • 納什均衡的定義:(納什均衡是博弈的核心解決概念)
    如果對於每個玩家k,策略σk是對其他玩家σ−k的策略的最佳響應,則策略輪廓σ=(σ1,...,σn)被稱為納什均衡。

  1. 重複博弈中的強化學習
  • 遺憾值定義:

    其中a(t)表示在t時玩的聯合動作,a−k(t)∪{a}表示相同的聯合動作,但玩家k選擇動作a。

  • 梯度上升方法
    線性獎勵-處罰:


    r(t)為時刻t接收到的反饋,K為自動機可用的動作數。λ1 和λ2 是常數,分別稱為獎勵和懲罰引數。根據這些引數的值,可以考慮演算法的3種不同的變化。當λ1 =λ2,該演算法被稱為線性獎罰(LR−P),而當λ1 > >λ2時,稱為線性獎勵-ε懲罰(LR−εP)。.如果λ2 = 0的演算法被稱為線性獎勵-不作為(LR−I).

順序博弈

  1. 馬爾可夫場
  • 定義:馬爾可夫對策是一個元組(n,S,A1,...,n, R1,...,nT):
    n 系統中智慧體的個數
    S 系統狀態的有限集合
    Ak 智慧體k的動作集合
    Rk 智慧體k的獎勵函式
    T 轉移函式
    在聯合策略下π = (π1,π…n),agent k的期望折扣報酬的定義如下:

    該策略為每一個代理i分配了一個策略πi
    而該聯合策略下agent k的平均報酬定義為: