1. 程式人生 > 其它 >lec-1-Deep Reinforcement Learning, Decision Making, and Control

lec-1-Deep Reinforcement Learning, Decision Making, and Control

What is RL

基於學習的決策的數學形式
從經驗中學習決策和控制的方法

Why should we study this now

  • 深度神經網路特徵方法
  • 強化學習的提升
  • 計算能力的提升

我們還需要解決哪些其他問題才能實現現實世界的順序決策?

1.如何學習

Learning from reward

基本的強化學習處理的是最大化獎勵,這並不是影響順序決策的唯一問題!

更高階的方法.

1.從示例example中學習獎勵函式(反向強化學習)
2.領域間的知識轉移(遷移學習、元學習)
3.學習預測並利用預測來行動

2.other forms of supervision

①Learning from demonstrations(從演示中學習)

  • 直接複製觀察到的行為
  • 從觀察到的行為推斷獎勵(反向強化學習)

②Learning from observing the world(從觀察世界中學習)

  • 學會預測
  • 無監督學習

③Learning from other tasks(從其他任務中學習)

  • 轉移學習
  • 元學習:學會學習

為什麼需要DRL

深度Deep可以處理複雜的感官輸入,也可以計算非常複雜的函式
強化學習RL可以選擇複雜的行為

DRL目前取得well的方面

  • 在簡單、已知的規則所控制的領域獲得高度的熟練程度
  • 在有足夠經驗的情況下,使用raw生圖輸入能夠學習簡單的技能
  • 從模仿足夠多的人為專家行為中學習

挑戰

  • 人類的學習速度非常快,而深度RL方法通常很慢
  • 人類可以重複使用過去的知識,而深度學習中的遷移學習是一個有待解決的問題
  • 不清楚獎勵功能是什麼
  • 不清楚預測的作用是什麼