1. 程式人生 > >David Silver深度強化學習第1課- intro-RL

David Silver深度強化學習第1課- intro-RL

David Silver深度強化學習第1課 intro-RL
在這裡插入圖片描述

Agent(我們建立的演算法)

演算法就是一個從history對映到action的過程,其中history:在這裡插入圖片描述
由於history包含了太多冗長的資訊,因此我們用state代替history。

State

state is a function of history
在這裡插入圖片描述
兩種形式的state

  1. environment state(環境狀態)
    是環境資訊的展示,通常不可視,即使可見也會包含不相關資訊
  2. agent state
    也是數字形式。whatever information the agent uses to pick the
    next action

以上兩種狀態的數學形式是Markov狀態。 Markov狀態具有Markov性質:將來的狀態St+1只與現在的狀態St有關,而與過去的狀態無關。(狀態表示法)。現在的狀態St決定了未來所有的觀測、狀態、獎勵、行動。

使用RL時,我們的主要任務即在完全可觀測環境下建立agent狀態,並以此決定下一步的policy。
在這裡插入圖片描述

部分觀測環境下代理必須建立其自己的狀態體現(貝葉斯分佈/最近agents狀態與最新觀測狀態的線性組合,即迴圈神經網路)

Policy(圓周率Π)

在這裡插入圖片描述

Value Function

在這裡插入圖片描述

Model

在這裡插入圖片描述

catagorizing RL agents

在這裡插入圖片描述

預測vs控制

在這裡插入圖片描述