深度增強學習David Silver(一)——介紹
阿新 • • 發佈:2019-02-18
Lecture 01 對增強學習進行概述,並安排接下去的課程內容。
增強學習和監督學習哪裡不同?
- 沒有監督值,只有獎勵值 (reward signal)
- 反饋延時,而不是馬上得到
- 智慧體的行動影響它接下來接收的資料
增強學習是一個序列決策的問題,決策目標是:選擇行動以最大化未來總獎勵(total future reward) 。“未來”意味著要有長遠的打算,不侷限於當前的行動產生的立即獎勵。
以下是一張經典的智慧體和環境的互動圖:
歷史(history)是觀察(observation)、行動(action)、獎勵(reward)的序列集合。狀態是關於歷史的函式。通過狀態(state)來決定下一步會發生什麼(比如智慧體選擇什麼動作,環境給予什麼獎勵,怎麼變化)。
狀態分為三類,如下:
- Environment State:環境用來選擇下一個觀察和獎勵,智慧體通常不可見,用
Set 表示 - Agent State:智慧體用來選擇下一個動作,用
Sat 表示 - Information State:包含所有歷史有用的資訊,也稱作Markov State,該狀態足以預測未來,用
St 表示
環境(environment)分為完全可觀察和部分可觀察,如下:
- Fully:
Ot=Sat=Set=St ,這是一個MDP(Markov decision process) - Partially:
Sat≠Set ,也稱為POMDP(partially observable MDP)
智慧體包括:
- policy:智慧體的行為(behavior)函式,也就是根據當前狀態智慧體要怎麼做,分為決定性策略
π(s) 和隨機策略π(a|s) - value function:預測未來獎勵,體現了每個狀態、行動的好壞,
- model:智慧體對環境的表示,智慧體怎麼理解環境,輸出環境的下一個狀態。
policy和value function的區別如下:
序列決策中有兩個基本問題:
- 增強學習:
- 環境部分未知
- 智慧體和環境互動
- 智慧體改進策略
- planning:
- 環境模型完全已知(有人告訴你這個遊戲怎麼玩)
- 智慧體根據這個模型計算,不需要互動
- 智慧體改進策略
- 比如:搜尋、推理
增強學習是一個試錯的學習過程,不斷尋找exploration(廣度,希望遍歷儘量多的可能)和exploitation(深度,希望效果儘量好)的平衡。由此引申出Prediction(給定一個policy,預測未來獎勵)和Control(探索最優policy,最優化未來獎勵),這個後面會講到。
以下是後面幾節課的安排:
Part I: Elementary Reinforcement Learning
- Introduction to RL
- Markov Decision Processes
- Planning by Dynamic Programming
- Model-Free Prediction
- Model-Free Control
Part II: Reinforcement Learning in Practice
- value Function Approximation
- Policy Gradient Methods
- Integrating Learning and Planning
- xploration and Exploitation
- Case study - RL in games