RUDDER:回報分解解決強化學習得獎勵延遲問題
阿新 • • 發佈:2019-02-05
本文為筆者閱讀該文章的筆記整理,有任何問題歡迎與我交流,郵箱是[email protected] / [email protected]
解決獎勵延遲的強化學習演算法:RUDDER
強化學習
一、回顧馬爾可夫決策過程(MDP):
在進行討論之前我們有必要回顧MDP,MDP是由一個6元組(S,A,R,p,π,γ)唯一確定的, 是有限狀態集合, 是表示t時刻狀態的隨機變數,A代表動作, 代表t時刻動作的隨機變數,R代表獎勵, 代表t時刻的獎勵的隨機變數,P是轉移獎勵,比如:
表示t時刻處於s狀態,並執行a動作,在t+1時刻達到 狀態並得到獎勵r的概率
策略是指在狀態下的條件概率分佈:
期望獎勵為:
回報:
在策略π下的動作-值函式為
我們學習的目的是為最大化
二、MDP估計的偏差的方差分析:
1.獎勵延遲使學習效果惡化
文章用了大量的篇幅說明了獎勵延遲造成的問題,在此我們不多做介紹,我們只接受事實,獎勵延遲會造成估計的方差變大。
三、回報分解以及獎勵重新分配
1.回報等價及狀態豐富
為了解釋這個問題,我們要引入兩個概念:Return-Equivalent(回報等價)以及state-Enriched(狀態豐富)
回報等價的定義:如果兩個MDP僅在與不同,但兩者在相同策略下卻有相同的期望回報,那麼我們稱這兩個MDP過程是回報等價的。
回報等價的性質:兩個回報等價的過程具有相同的最優策略。
狀態豐富的定義:我們稱一個MDP 相比於是狀態豐富的,當且僅當同構於的子集,比較直觀的描述是說:如果與擁有相同的狀態、動作、轉移概率,以及獎勵概率.但是
狀態豐富的性質:狀態豐富不改變最優策略以及-values.
2.延遲獎勵的MDP與即時獎勵的MDP過程之間的等價
首先,考慮一個即時獎勵的MDP過程,我們將他轉換成一個延時獎勵的MDP過程,這裡有一種很顯然的轉換方式,定義轉換後的過程有如下獎勵:
- reward:
- state