強化學習： Experience Replay

阿新 • • 發佈：2019-02-09

我第一次接觸 Experience Replay 概念是李巨集毅老師的視訊課上。當時李巨集毅老師說為什麼Experience Replay 可行留作自己思考，然後並沒有做太詳細的解釋。接下來，我就把我對Experience Replay 的理解寫下來。
首先，我把李巨集毅老師的Q-learning 演算法貼出來，他的Q-learning 演算法跟傳統Q-learning 演算法有一些微小的區別
在這裡插入圖片描述

以下是Experience Replay
在這裡插入圖片描述

在看到這裡的時候，就會有一個疑問，在buffer 中儲存的是很多之前的策略，用這個策略能夠作為當前策略的學習資料嗎？
結論當然是可以的。
因為這些只是資料，並不是策略。（st,at,rt,st+1)這樣一組資料，其實跟策略是沒有什麼關係的。rt是環境返回的，可以當作是個常量，st+1 這個也是環境決定的。我們的目標學習是（st,at）狀態對的 Q value.
所以這個 Experience Buffer是可以一定程度上增加資料多樣性的。因為同一個策略在st上產生的行為總是at，而我們的Q-learning是希望能夠學習更多的狀態對，這樣他的泛化效能也會更好。在這裡我舉個例子：
我們在訓練神經網路的時候，在每個batch裡面，我們希望資料之間會更加多樣性（還有很多其他說法，更加獨立，更加diverse 其實都死一個意思）。為什麼呢？
加入我們要一個語義相似度任務，跟sentence1 和 sentence2 判斷他們相似還是不相似，相似的話輸出結果為1 ，不相似的話，輸出結果為2
這個時候我們一定是要資料打亂在傳入神經網路。如果你嘗試把相似句子為一批傳進神經網路不相似資料為一批在傳進神經網路，你會發現網路根本沒法訓練。網路就不斷地交替學習所有輸出資料全部輸出1 或者全部輸出 0。

在同一個策略上產生的資料顯然不能滿足這樣的要求。而Experience Replay就可以解決這樣的問題。

強化學習： Experience Replay

強化學習： Experience Replay

強化學習：函式逼近思想

分享《深入淺出強化學習：原理入門》高清PDF+原始碼

分享《深入淺出強化學習：原理入門》高清PDF+源代碼

《深入淺出強化學習：原理入門_郭憲方勇純》高清PDF+原始碼

《深入淺出強化學習：原理入門_郭憲方勇純》高清PDF+源代碼

分享《深入淺出強化學習：原理入門》高清PDF+原始碼免費下載

強化學習：邁向通用型人工智慧的重要途徑

深度強化學習：從畫素玩Pong!

【深度學習介紹系列之二】——深度強化學習：卷積神經網路

深度強化學習：入門(Deep Reinforcement Learning: Scratching the surface)

強化學習：Markov Decision Process (基於南大俞揚博士演講的修改和補充）

強化學習(David Silver)4：免模型學習

強化學習(David Silver)4：免模型控制

強化學習(David Silver)6：值函數近似

Seq2SQL ：使用強化學習通過自然語言生成SQL

強化學習(David Silver)2：MDP(馬爾科夫決策過程)

強化學習(David Silver)3：動態規劃

AI+遊戲：高效利用樣本的強化學習 | 騰訊AI Lab學術論壇演講

強化學習（二）：馬爾可夫決策過程

強化學習： Experience Replay

相關推薦