1. 程式人生 > >增量式強化學習

增量式強化學習

增量 name 效率 eps ima 全局最優 全局 技術分享 alt

線性逼近:

相比較於非線性逼近,線性逼近的好處是只有一個最優值,因此可以收斂到全局最優。其中技術分享為狀態s處的特征函數,或者稱為基函數。

常用的基函數的類型為:

技術分享

增量式方法參數更新過程隨機性比較大,盡管計算簡單,但樣本數據的利用效率並不高。而批的方法,盡管計算復雜,但計算效率高。

批處理方法:

技術分享

深度強化學習:

Q-learning方法是異策略時序差分方法。其偽代碼為:

技術分享

離策略:是指行動策略(產生數據的策略)和要評估的策略不是一個策略。在圖Q-learning 偽代碼中,行動策略(產生數據的策略)是第5行的\varepsilon -greedy策略,而要評估和改進的策略是第6行的貪婪策略(每個狀態取值函數最大的那個動作)。

所謂時間差分方法,是指利用時間差分目標來更新當前行為值函數。在圖1.1 Q-learning偽代碼中,時間差分目標為技術分享

增量式強化學習