1. 程式人生 > >Reinforcement Learning 增強學習

Reinforcement Learning 增強學習

20180830
參考:https://www.nowcoder.com/courses/190

Reinforcement Learning(處理迴歸問題)

核心部分:包括了類似人、動物、機器人或者深度網路這樣的自動代理

目標:通過最大化數值回報來學習如何在不確定的環境中駕駛。

模型把當前狀態和行為作為輸入,產生最大化的預期回報作為輸出。
考慮從當前狀態到最終狀態之間的所有期望的回報。

Demo

Deep Atari:實際上是處理迴歸問題,而非分類問題,且無池化層(no pooling)。

Deep Q Net(DQN):使用當前狀態和行為來預測最大回報值。

區別Supervised Learning

Supervised Learning 是基於歷史樣本來理解環境。但這並總是做事的最好方法。
Reinforcement Learning 完全關注於最好的回報。強調當前行為改變狀態

Supervised Learning :嘗試在堵車的環境下基於一個禮拜之前觀察過的清晰路況駕駛,類似於通過後視鏡駕駛。
Reinforcement Learning :為你的行為得到分數(在你的車道行駛,在速度限制下開車,在適當時候發出訊號等),但也會因為追尾和超速等危險行為丟失分數。目標是在當前的交通環境下獲得最高分數。

代理

增強學習的代理可以在探索和開發之間權衡,選擇可以達到最大預期回報的路徑