1. 程式人生 > 其它 >學習日誌-2021.10.02

學習日誌-2021.10.02

學習日誌-2021.10.02

文獻閱讀:

博弈論與多智慧體強化學習

  • 重點討論強化學習技術在多智慧體系統中的應用。
  • 描述了一個基於對博弈論的經濟研究的基本學習框架,並說明了在這種系統中出現的額外複雜性,以及分析學習結果的工具。

Introduction

  • 多智慧體博弈標準模型
  • 系統是分散的。因為需要滿足多個可能衝突的目標,或者僅僅是一個集中的控制器需要許多資源,所以資料或控制在物理上是分散式的。
  • 智慧體自主的實體,有個人的目標和獨立的決策能力,但也受到彼此的決策約束的影響。
  • 無狀態博弈技術和馬爾可夫博弈技術
    • 前者專注於處理多智慧體互動,而假設環境是平穩的
    • 後者同時處理多智慧體互動和動態環境。

Repeated Games

  • 博弈理論

    • 博弈是一個數學物件,它根據個體收益描述了玩家策略之間的互動結果。
  • 標準博弈

    • 定義

      • 標準博弈是一個元組 \((n,A_{1,...,n},R_{1,...,n})\) ,其中:
        • \(1,...,n\) :遊戲參與者的集合(玩家)
        • \(A_k\) :參與者 \(k\) 的動作集合
        • \(R_k\) :表示參與者 \(k\) 在動作 \(a∈A_1×...×A_n\) 中獲得的預期收益。

      遊戲是通過允許每個玩家從其私有動作集 \(A_k\) 中獨立選擇一個單獨的動作來進行的。

    • 策略 \(\sigma_k\)

      • \(\mu (A_k)\)

        :是參與人 \(k\) 的動作集 \(A_k\) 的概率分佈的集合。 \(A_k → [0,1]\)\(\mu (A_k)\) 的一個元素。

      • 純策略:如果 \(\sigma_k (A) = 1 ∈A_k\) ,其他所有的 \(\sigma_k (A)\) 為0。(否則為混合策略)

      • 在標準博弈中有一個重要的假設,即玩家策略的預期收益是線性的,也就是說,對於策略配置σ,玩家的預期回報是:

        \[R_k (\sigma) = \sum_{a∈A} \prod_{j=1}^n \sigma_j (a_j) R_k (a) \]
  • 博弈型別

    • 。。。
  • 博弈中的解決方案概念

    由於遊戲中的玩家擁有依賴於其他玩家行動的個人獎勵功能,所以遊戲的預期結果往往無法明確定義。我們不能簡單地期望參與者最大化他們的收益,因為所有參與者不可能同時達到這個目標。

    • 當玩家採取最佳響應時,他的收益相對於對手的當前策略是最大化的,也就是說,如果遊戲中的其他參與者保持策略不變,那麼玩家不可能提高自己的獎勵。

      \(\sigma = (\sigma_1,...,\sigma_n)\) 是一個策略集; \(\sigma_{-k}\) 表示不包括參與者k的策略 \(\sigma_k\) 的策略集,若有:

      \[R_k (\sigma_{-k}∪\sigma_k^* )≥ R_k (\sigma_{-k} ∪ \sigma'_k) ∀ \sigma'_k ∈ \mu (A_k) \]

      則策略 \(\sigma_k^*∈ \mu (A_k)\) 稱為參與者k的最佳響應。

    • 納什證明了每個標準博弈至少有一個納什均衡(可能在混合策略中)。在納什均衡中,所有參與者都採取最佳響應,這意味著每個參與者都對其他參與者的當前策略採取最佳對策,則博弈中的任何參與者都不能通過單方面的偏離均衡來提高收益,想逃離納什均衡則必須有多個參與者同時改變自己的策略。

  • 博弈論中的強化學習

    • 強化學習的目標

      • 由於通常情況下,博弈中的所有參與者都不可能同時最大化自己的收益,大多數強化學習的方法都試圖實現納什均衡。但納什均衡存在一定的侷限性:

        • 納什均衡不一定唯一,這導致均衡選擇的問題。納什均衡的方法不能保證參與者有唯一的結果,也不能保證參與者有唯一的回報。
        • 在一個納什均衡中,參與者可能有不同的預期收益,不同的參與者可能會傾向於不同的均衡結果,這意味著需要注意確保參與者才一個納什均衡中協調。
        • 納什均衡並不能保證最優,納什均衡保證了沒有一個參與者可以通過單方面改變策略來提高收益,但它不能保證參與者全域性收益最大化,甚至不能保證參與者同時做得更好。(一個博弈有可能產生非納什均衡結果,儘管如此,它還是有可能會給所有參與者帶來比納什均衡下更高的收益,如囚徒困境)
      • 雖然納什均衡經常被用作學習的主要目標,但它並不是博弈論中唯一可能的解概念。如相關均衡(CE)、進化穩定策略(ESS)等。每種均衡都有自己的應用和優缺點,需要根據問題需要進行選擇。

      • 遺憾的概念:

        遺憾是一個智慧體實現的收益與該智慧體使用某種固定策略所能獲得的最大收益之間的差值。

        \[R_T = \max_{a∈A_k} \sum_{t=1}^T R_k (a_{-k}(t)∪\{ a \}) - R_k(a(t)) \]

        大多數基於遺憾的學習方法都試圖最小化學習者的平均遺憾 \(R_T/ T\) 。為了確定 \(R_k (a{-k}(t)∪{a})\) 項,精確計算這種遺憾需要了解報酬函式並觀察其他智慧體的行為。如果沒有這方面的資料,遺憾只能根據以前的意見來估計。