lec-1-Deep Reinforcement Learning, Decision Making, and Control
阿新 • • 發佈:2022-05-08
What is RL
基於學習的決策的數學形式
從經驗中學習決策和控制的方法
Why should we study this now
- 深度神經網路特徵方法
- 強化學習的提升
- 計算能力的提升
我們還需要解決哪些其他問題才能實現現實世界的順序決策?
1.如何學習
Learning from reward
基本的強化學習處理的是最大化獎勵,這並不是影響順序決策的唯一問題!
更高階的方法.
1.從示例example中學習獎勵函式(反向強化學習)
2.領域間的知識轉移(遷移學習、元學習)
3.學習預測並利用預測來行動
2.other forms of supervision
①Learning from demonstrations(從演示中學習)
- 直接複製觀察到的行為
- 從觀察到的行為推斷獎勵(反向強化學習)
②Learning from observing the world(從觀察世界中學習)
- 學會預測
- 無監督學習
③Learning from other tasks(從其他任務中學習)
- 轉移學習
- 元學習:學會學習
為什麼需要DRL
深度Deep可以處理複雜的感官輸入,也可以計算非常複雜的函式
強化學習RL可以選擇複雜的行為
DRL目前取得well的方面
- 在簡單、已知的規則所控制的領域獲得高度的熟練程度
- 在有足夠經驗的情況下,使用raw生圖輸入能夠學習簡單的技能
- 從模仿足夠多的人為專家行為中學習
挑戰
- 人類的學習速度非常快,而深度RL方法通常很慢
- 人類可以重複使用過去的知識,而深度學習中的遷移學習是一個有待解決的問題
- 不清楚獎勵功能是什麼
- 不清楚預測的作用是什麼