1. 程式人生 > >[增強學習][Reinforcement Learning]學習筆記與回顧-1

[增強學習][Reinforcement Learning]學習筆記與回顧-1

引言

增強學習這幾篇部落格在於學習增強學習中所獲得知識的理解與回顧,如果想要深入學習增強學習,請參考後文所列出的資料和書籍。本文只用於複習與理解。

Introduction to Reinforcement Learning

1.領域交叉

這裡寫圖片描述

這張圖詳盡的描述了增強學習與各個領域的交集,可以很多領域都涉及增強學習過程,自認為RL可能是科學這個空間裡最接近強人工智慧的一項,看到訓練出的AI完成遊戲的過程,就像是訓練一個新生兒。

2.RL與ML
這裡寫圖片描述

  • RL中沒有supervisor,只有一個reward signal
  • Feedback is delay,not instantaneous
  • Time really matter(在於agent做決策的過程其實是一個時序的決策序列)
  • Agent’s actions affect the subsequent data it receives(這個一個動態的系統,agent不斷的與外部進行著互動)

增強學習的過程在於優化決策序列

3.RL中的獎勵機制

  • A reward Rt is a scalar feedback signal
  • Indicates how well agent is doing at step t
  • the agent’s job is to maximize cumulative reward

最終目標都在於最大化累計回報

這裡有兩個問題值得深思,第一,如果獎勵不及時,那麼怎麼計算評估每一個動作造成的獎勵呢,這個問題在於需要分割出一個階段,即定義階段的開始與結束,然後為這個階段定義獎勵。第二,如果目標的獎勵基於時間,也就是時間也是評價獎勵的標準。這種情況下,每經歷一個時間步長,都會有一個-1的獎勵訊號。這裡的reward第一是最大化累計獎勵,第二是最短時間。

4.決策序列制訂
目標:選擇合適的動作去最大化未來全部收益
這裡同樣為了理解。

  • 這裡的actions是一個長期的決策序列
  • 獎勵有delay
  • 有可能要犧牲immediate reward來換取長期的高額收益。(這裡很好理解,假設股票漲跌,短期跌無所謂,只在意投資組合一個階段的累計收益,遊戲也是一樣)

    這張圖描述的是Agent這個大腦的工作,接收O依賴R,做決策A
    這裡寫圖片描述
    這張圖描繪了Agent 與 當前Environment的互動
    這裡寫圖片描述

History and State

下面回顧一下重要的概念history和state

History

意味著觀測,動作,獎勵的一連串序列
數學表達為Ht=A1,O1,R1,...At,Ot,Rt
他就意味著整個歷史(說了等於沒說),假設說是在遊戲中的話,他意味著我們根據遊戲畫面的觀測,做過的所有操作,產生的所有獎勵。這個歷史是有些用的,但是用處,主要是資料量太大了,對於即時的狀態可能幫助不大。

State

狀態是歷史函式,used to determine what happens next
St=f(Ht)

  • environment state
  • agent state
  • information state

An information state (a.k.a. Markov state) contains all useful
information from the history。

給出markov state的定義
這裡寫圖片描述

這裡有幾個點我認為要關注一下。第一Once the state is known, the history may be thrown away。說明state對於當前任務的重要,歷史已經當前做出判斷沒這麼重要。The environment state Set is Markov.同樣,The history Ht is Markov.

Fully Observable Environments

全觀測環境,意義如其名。agent directly observes environment state。
在這裡,很重要的一點,觀測到的O等於Agent的狀態,等於Envir的狀態。這裡我不是太理解這個過程,為什麼這裡具有馬爾可夫性?這個全觀測環境是一個MDP(Markov decision process).下個筆記重點關注一下這裡。

Partially Observable Environments

agent indirectly observes environment。這裡的agent state不等於environment state。這是一個POMDP(partially observable Markov decision process)。這時候,代理人必須建立自己的狀態。通過他的歷史,或者所處的環境狀態,或者RNN.

Major Components of an RL Agent

  • Policy: agent’s behaviour function(動作函式)
  • Value function: how good is each state and/or action(價值函式)
  • Model: agent’s representation of the environment

policy是state到action的對映。

  • 確定性的政策:a=π(s)
  • 隨機性的政策:π(as)=P[At=aSt=s]
    價值函式value function是對於未來價值的預測,評估當前狀態的好壞。其中,未來的收益是根據時間遞減的,r為折現因子。

model 預測環境將會發生什麼

P預測下一個state,R預測接下來的獎勵。
這裡寫圖片描述

Categorizing RL agents

  • value based
    • no policy
    • value funtion
  • policy based
    • policy
    • no value function
  • actor critic
    • policy
    • value function
  • model-free
    • policy and/or value function
    • no model
  • model-based
    • policy and/or value function
    • model

RL與動態規劃的不同

RL的環境是未知的,agent與環境互動,並且不斷change policy
planning 的環境是已知的,只計算利用他的model,通過計算改變自己的policy

Exploration and Exploitation

探索和利用困境。在於是利用當年的資訊直接利用,還是不斷探索獲得更多資訊。It is usually important to explore as well as exploit。

prediction and control

  1. prediction problem 問題在於給定policy,評估在政策下的未來情況。
  2. 而control problem 在於在所有的policy中找到最優的find the best.
    這裡也有一些不理解。後面的部落格多關注些這裡吧。

參考