1. 程式人生 > >RUDDER:回報分解解決強化學習得獎勵延遲問題

RUDDER:回報分解解決強化學習得獎勵延遲問題

本文為筆者閱讀該文章的筆記整理,有任何問題歡迎與我交流,郵箱是[email protected] / [email protected]

解決獎勵延遲的強化學習演算法:RUDDER

強化學習

一、回顧馬爾可夫決策過程(MDP):

在進行討論之前我們有必要回顧MDP,MDP是由一個6元組(S,A,R,p,π,γ)唯一確定的, 是有限狀態集合, 是表示t時刻狀態的隨機變數,A代表動作, 代表t時刻動作的隨機變數,R代表獎勵, 代表t時刻的獎勵的隨機變數,P是轉移獎勵,比如:

title

表示t時刻處於s狀態,並執行a動作,在t+1時刻達到 狀態並得到獎勵r的概率
策略是指在狀態下的條件概率分佈:
π(At+1=a|St+1=s)

期望獎勵為:
r(s,a)=rrp(r|s,a)

回報:
Gt=k=0γkRt+k+1

在策略π下的動作-值函式為
qπ(s,a)=Eπ[Gt|St=s,At=a]

我們學習的目的是為最大化G0

二、MDP估計的偏差的方差分析:

1.獎勵延遲使學習效果惡化

文章用了大量的篇幅說明了獎勵延遲造成的問題,在此我們不多做介紹,我們只接受事實,獎勵延遲會造成估計的方差變大。

三、回報分解以及獎勵重新分配

1.回報等價及狀態豐富

為了解釋這個問題,我們要引入兩個概念:Return-Equivalent(回報等價)以及state-Enriched(狀態豐富)

  • 回報等價的定義:如果兩個MDP僅在p(r~|s,a)p(r|s,a)不同,但兩者在相同策略下卻有相同的期望回報v~0π=v0π,那麼我們稱這兩個MDP過程是回報等價的。

  • 回報等價的性質:兩個回報等價的過程具有相同的最優策略。

  • 狀態豐富的定義:我們稱一個MDP P~相比於P是狀態豐富的,當且僅當p同構於p~的子集,比較直觀的描述是說:如果p~P擁有相同的狀態、動作、轉移概率,以及獎勵概率.但是

    p~的狀態擁有更多的更多的資訊。

  • 狀態豐富的性質:狀態豐富不改變最優策略以及Q-values.

2.延遲獎勵的MDP與即時獎勵的MDP過程之間的等價

首先,考慮一個即時獎勵的MDP過程,我們將他轉換成一個延時獎勵的MDP過程p~,這裡有一種很顯然的轉換方式,定義轉換後的過程p~有如下獎勵:

  • reward:
(1)R~t={0fortTk=0TRk+1fort=T
  • state
    (2)s~t=(st,ρt)