強化學習的探索策略方式
阿新 • • 發佈:2021-07-07
https://blog.csdn.net/xyk_hust/article/details/86702700
1 固定值的貪婪策略
固定貪婪策略的值,使得演算法整個執行過程中保持一定的探索。實現方式直接而簡單,在不少情況下對收斂性的負面影響並不大,尤其是獎勵常常取負值時候。
通常應用在狀態空間有限的簡單環境中;
2 epsilon衰減貪婪策略
2.1 初始狀態下探索,然後最終使得epsilon上升,得到最終的固定貪婪值。初期的值使得演算法能夠有效探索。在DRL常用。
2.2 進行繞圈,一定程度下重新初始化探索
3 UCB方法
置信區間上界(Upper Confidence Bound, UCB)指導行為選擇。由Hoeffding不等式推導得到
4 熵相關方法
4.1 A3C,狀態下得到的行為選擇值陣列後,可以計算熵專案,給予一定權重新增到獎勵r上,使得傾向選擇最大熵對應的狀態,然後衰減該權重,形成策略?
4.2 SAC?
5 其它
對於Actor-Critic架構,Actor選擇行為,用DDPG的正態分佈等,對sigma進行衰減類似於貪婪策略,用A2C演算法的離散方式,狀態可選動作下,動作陣列取softmax,然後進行概率取樣,屬於概率方法吧。
Le vent se lève! . . . il faut tenter de vivre!
Le vent se lève! . . . il faut tenter de vivre!