論文筆記-Deteministic Policy Gradient Algorithms
Deteministic Policy Gradient Algorithms
文章目錄
論文乾貨
論文論證了確定性策略明顯優於隨機性策略在高維動作空間問題中。
策略梯度演算法廣泛運用在深度強化學習中的連續控制領域。
策略梯度演算法的主要意思是用引數概率分佈 來表示策略,表示在狀態s中隨機選擇動作a在引數向量 中。
策略梯度演算法通常通過對這種隨機策略進行抽樣,並根據累積回報的增大調整策略引數。
隨機策略是整合狀態空間與動作空間,而確定性策略整合狀態空間,故隨機策略需要更多的資料集特別是在動作空間是高維的情況下。
但是為了探索所有的狀態與動作空間,我們仍然需要隨機策略。我們通過隨機策略選擇動作,但是通過確定策略更新引數。
同時噪音對隨機策略的選擇有影響,而確定性問題則可以克服這一問題。
on-policy與off-policy
on-policy :生成樣本的policy(value function)跟網路更新引數時使用的policy(value function)相同。典型為SARAS演算法,基於當前的policy直接執行一次動作選擇,然後用這個樣本更新當前的policy,因此生成樣本的policy和學習時的policy相同,演算法為on-policy演算法。該方法會遭遇探索-利用的矛盾,光利用目前已知的最優選擇,可能學不到最優解,收斂到區域性最優,而加入探索又降低了學習效率。epsilon-greedy 演算法是這種矛盾下的折衷。優點是直接了當,速度快,劣勢是不一定找到最優策略。
off-policy:生成樣本的policy(value function)跟網路更新引數時使用的policy(value function)不同。典型為Q-learning演算法,計算下一狀態的預期收益時使用了max操作,直接選擇最優動作,而當前policy並不一定能選擇到最優動作,因此這裡生成樣本的policy和學習時的policy不同,為off-policy演算法。先產生某概率分佈下的大量行為資料(behavior policy),意在探索。從這些偏離(off)最優策略的資料中尋求target policy。當然這麼做是需要滿足數學條件的:假設π是目標策略, µ是行為策略,那麼從µ學到π的條件是:π(a|s) > 0 必然有 µ(a|s) > 0成立。兩種學習策略的關係是:on-policy是off-policy 的特殊情形,其target policy 和behavior policy是一個。劣勢是曲折,收斂慢,但優勢是更為強大和通用。其強大是因為它確保了資料全面性,所有行為都能覆蓋。
我的理解是線上學習是我在計算下一步期望預期的動作是否是我下一步一定採取的動作,例如在sarsa演算法中會用 計算出下一步的動作,並根據這一步的收益乘以 進行值函式更新,並且將下一步一定會採取該動作。而在Q-learning中,是由 進行更新,但是下一步不一定會採取該策略進行採取動作。而且在記憶回放機制中必須採用離線學習