1. 程式人生 > 其它 >《Learning to Incentivize Other Learning Agents》2020-NIPS

《Learning to Incentivize Other Learning Agents》2020-NIPS

學會激勵其他學習智慧體

總結:

  • 為了促進在一般和馬爾可夫遊戲中的多智慧體之間的合作,為每個智慧體配置一個獎勵函式用來直接向其他智慧體提供獎勵,並明確解釋接受該獎勵者自身行為會受到的影響。該獎勵函式會根據提供的獎勵對其他智慧體的產生的影響以及後續其他智慧體對自己獲取的環境獎勵的影響來不斷學習。使用該機制來刺激合作達到較高的群體收益。
  • 創新點:保持分散式訓練解決大規模問題的同時保證了合作高收益,獎勵函式自適應學習而非事先制定
  • 代理人學習包括兩部分:
    • 學習一個使其獲得的外在獎勵和激勵總量達到最優的策略(強化學習)
    • 學習一個改變其他代理人行為從而使自身外在目標達到最優的激勵函式(外在目標獎勵的梯度上升方法)

環境:

  • 理想化模型,即每個智慧體擁有其他智慧體的引數和梯度
  • Escape Room game:(N,M)共有N名玩家,至少有M名玩家合作拉桿才能開門離開密室,拉桿的玩家會獲得-1的獎勵,如果沒有達到M則所有玩家獲得-1獎勵;成功開啟門則沒有參與拉桿的玩家獲得+10獎勵。
  • 重複囚徒困境
  • cleanup環境

具體實現:

  • 獎勵函式

    包含環境獎勵和其他代理給予的激勵獎勵,-i代表除了i以外的其他下標
  • 價值函式

    最終目標是最大化價值函式
  • 更新引數

    由上面價值函式學到的策略得到一條軌跡,用來更新策略網路的引數

    之後得到新的策略網路,同時有一條新的軌跡用來更新激勵函式的引數

    後面一項代表獎勵別人所付出的代價

    由上面兩個過程不斷迭代至收斂
  • 演算法虛擬碼