1. 程式人生 > >深度增強學習David Silver(一)——介紹

深度增強學習David Silver(一)——介紹

Lecture 01 對增強學習進行概述,並安排接下去的課程內容。

增強學習和監督學習哪裡不同?
- 沒有監督值,只有獎勵值 (reward signal)
- 反饋延時,而不是馬上得到
- 智慧體的行動影響它接下來接收的資料

增強學習是一個序列決策的問題,決策目標是:選擇行動以最大化未來總獎勵(total future reward) 。“未來”意味著要有長遠的打算,不侷限於當前的行動產生的立即獎勵。

以下是一張經典的智慧體和環境的互動圖:
這裡寫圖片描述

歷史(history)是觀察(observation)、行動(action)、獎勵(reward)的序列集合。狀態是關於歷史的函式。通過狀態(state)來決定下一步會發生什麼(比如智慧體選擇什麼動作,環境給予什麼獎勵,怎麼變化)。

Ht=O1,R1,A1,...,Ot,Rt,At
St=f(Ht)

狀態分為三類,如下:
  • Environment State:環境用來選擇下一個觀察和獎勵,智慧體通常不可見,用Set表示
  • Agent State:智慧體用來選擇下一個動作,用Sat表示
  • Information State:包含所有歷史有用的資訊,也稱作Markov State,該狀態足以預測未來,用St表示

環境(environment)分為完全可觀察和部分可觀察,如下:

  • Fully:Ot=Sat=Set=St,這是一個MDP(Markov decision process)
  • Partially:SatSet,也稱為POMDP(partially observable MDP)

智慧體包括:

  • policy:智慧體的行為(behavior)函式,也就是根據當前狀態智慧體要怎麼做,分為決定性策略π(s)和隨機策略π(a|s)
  • value function:預測未來獎勵,體現了每個狀態、行動的好壞,
  • model:智慧體對環境的表示,智慧體怎麼理解環境,輸出環境的下一個狀態。

policy和value function的區別如下:

序列決策中有兩個基本問題:

  • 增強學習:
    • 環境部分未知
    • 智慧體和環境互動
    • 智慧體改進策略
  • planning:
    • 環境模型完全已知(有人告訴你這個遊戲怎麼玩)
    • 智慧體根據這個模型計算,不需要互動
    • 智慧體改進策略
    • 比如:搜尋、推理

增強學習是一個試錯的學習過程,不斷尋找exploration(廣度,希望遍歷儘量多的可能)和exploitation(深度,希望效果儘量好)的平衡。由此引申出Prediction(給定一個policy,預測未來獎勵)和Control(探索最優policy,最優化未來獎勵),這個後面會講到。

以下是後面幾節課的安排:

  • Part I: Elementary Reinforcement Learning

    1. Introduction to RL
    2. Markov Decision Processes
    3. Planning by Dynamic Programming
    4. Model-Free Prediction
    5. Model-Free Control
  • Part II: Reinforcement Learning in Practice

    1. value Function Approximation
    2. Policy Gradient Methods
    3. Integrating Learning and Planning
    4. xploration and Exploitation
    5. Case study - RL in games