1. 程式人生 > 其它 >學習日誌-2021.10.04

學習日誌-2021.10.04

學習日誌-2021.10.04

博弈論與多智慧體強化學習(續)

文獻閱讀:

學習自動機強化方案

  • 學習自動機是相對簡單的策略迭代器,在動作集a上保持向量動作概率p。這些概率根據從環境接收到的反饋進行更新。

  • 這種方案最初的研究主要集中在n武裝匪(n-armed bandit)徒環境中的單個自動機。

  • 最常用的自動學習機更新方案稱為線性獎-懲(Linear Reward-Penalty),其更新行動概率如下:

    \(p_i (t+1) = p_i (t) + \lambda_1 r(t) (1-p_i(t)) - \lambda_2 (1-r(t)) p_i (t)\)\(if\) \(a(t) = a_i\)

    \(p_j (t+1) = p_j (t) - \lambda_1 r(t) p_j (t) + \lambda_2 (1-r(t))(\frac{1}{K-1} - p_j (t))\)\(if\) \(a_j ≠ a_i\) .

    第一個公式存在錯誤 \(b(t)\) ,現已修正為 \(r(t)\)

    • \(r(t)\) 是在時間t處接收到的反饋;

    • \(K\) 表示自動機的動作數量;

    • \(\lambda_1\)\(\lambda_2\) 為常數,分別代表獎勵因子和懲罰因子。根據這兩個引數的變化,有3種不同的演算法

    • \(\lambda_1 = \lambda_2\)

      時,該演算法為線性獎-懲( \(Linear\) \(Rewaed-Penalty,L_{R-P}\) );

    • \(\lambda_1 >> \lambda_2\) 時,該演算法為線性獎- \(\epsilon\) 懲( \(Linear\) \(Rewaed-\epsilon Penalty,L_{R-\epsilon P}\) );

    • \(\lambda_2 = 0\) 時,該演算法為線性獎勵無效(\(Linear\) \(Rewaed-Inaction,L_{R-I}\) ),此時 \(\lambda_1\) 可以被稱為學習率:

      \(p_i (t+1) = p_i (t) + \lambda_1 r(t) (1-p_i (t))\)

      \(if\) \(a(t)=a_i\)

      \(p_j (t+1) = p_j (t) - \lambda_1 r(t) p_j (t)\)\(if\) \(a_j ≠ a_i\).

    這些演算法雖然都來自相同的通用方案,但它們會表現出不同的學習行為。在不需要其他玩家的任何資訊(動作、獎勵、策略)的情況下,這些學習方案在遊戲環境中也能表現良好。在兩人零和博弈中,當純策略存在時,\(L_{R-I}\) 方案收斂到納什均衡,而 \(L_{R- \epsilon P}\) 方案能夠近似混合均衡。在n個玩家的公共物品博弈中,獎勵無效方案也會收斂到純粹的納什均衡。

    Sastry等人在1994年的研究中,探討了一般和博弈中獎勵行為的狀態,通過常微分方程組近似自動機博弈中的更新。發現以下屬性適用於 \(L_{R-I}\) 動力學:

    • 所有的納什均衡是固定點;
    • 所有嚴格的納什均衡都是漸近穩定的;
    • 所有的非納什均衡的靜止點都是不穩定的。
  • 基於學習自動機的方案能在智慧體非同步行動和有獎勵延遲的環境下達到收斂。

  • 另外一種梯度技術是無窮小梯度上升( \(Infinitestesimal\) $ Gradient$ \(Ascent\) ,IGA )演算法。

序貫博弈

傳統的博弈論框架雖然強調了多智慧體環境中的學習所帶來的一些重要問題,但並未充分體現多智慧體強化學習的複雜性。強化學習問題的一個重要部分是在具有狀態轉換的環境中做出順序決策,不能用標準博弈來描述,因為標準博弈只允許靜態的、可能隨機的、完全依賴於玩家行為的獎勵函式。

在標準博弈中,沒有狀態轉換系統的概念這是馬爾可夫決策過程概念的核心問題。因此,我們要考慮一個包括重複博弈和MDPs的豐富框架。將多個智慧體引入MDP模型會使學習代理面臨的問題顯得複雜化。現在讓環境中的獎勵和狀態轉變都取決於系統中所有智慧體的行為,因此智慧體需要在聯合行動空間學習。此外,由於每個智慧體可以具有不同的目標,因此可能不存在同時最大化所有智慧體獎勵的最佳解決方案。

  • 馬爾可夫博弈

    馬爾可夫博弈可以定義單智慧體馬爾可夫決策過程(MDP)到多智慧體情況的擴充套件。在馬爾可夫博弈中,聯合動作是多個智慧體獨立選擇動作的結果。

    多智慧體試圖優化他們未來預期獎勵的策略,通常情況下,他們會嘗試最大限度地提高未來的折扣獎勵或平均獎勵。與單智慧體的主要區別在於,現在策略的選擇還取決於其他智慧體的策略。參考公式

  • 馬爾可夫博弈中的強化學習

    在標準博弈中,強化學習者面臨的挑戰主要來自智慧體之間的互動,在馬爾可夫博弈中,他們還面臨著狀態轉換環境。

    • 值迭代法

      已經有許多將成功的Q-learning演算法擴充套件到多智慧體系統的方法,為了在多智慧體環境中取得成功,這些演算法必須首先處理一些關鍵問題。

      • 第一個問題:當前的獎勵和狀態轉移概率取決於所有智慧體的行為。因此多智慧體Q-learning方法中,智慧體不只是學習評估每個狀態-動作,而是評估狀態-動作集,為在狀態s中採取聯合動作 a = \(a_1,...,a_n\) ,給出預期的未來獎勵。即智慧體在狀態s採取的行動將獲得的未來獎勵不是單一的,而是一個評估向量,根據其他智慧體的聯合行動 \(a_{-k}\) 得出行動 \(a_k\) 的未來獎勵。在學習過程中,智慧體選擇一個動作,然後需要觀察其他智慧體採取的動作,以便更新適當的Q(s,a)值。
      • 第二個問題:引導更新中使用的狀態值。在單智慧體Q-learning的更新規則中,智慧體在下一個狀態 \(s'\) 中使用其超過其他行為的最大值。這是貪心策略下狀態 \(s'\) 值的當前評估。但在多智慧體情況下,智慧體不能預測下一狀態採取行動的值,因為這個值也取決於其他智慧體的行動。為了解決這個問題,許多研究者提出了許多不同的方法,通過考慮其他代理來計算 \(s'\) 的值。