1. 程式人生 > 其它 >強化學習的探索策略方式

強化學習的探索策略方式

https://blog.csdn.net/xyk_hust/article/details/86702700

1 固定值的貪婪策略

固定貪婪策略的值,使得演算法整個執行過程中保持一定的探索。實現方式直接而簡單,在不少情況下對收斂性的負面影響並不大,尤其是獎勵常常取負值時候。

通常應用在狀態空間有限的簡單環境中;

2 epsilon衰減貪婪策略

2.1 初始狀態下探索,然後最終使得epsilon上升,得到最終的固定貪婪值。初期的值使得演算法能夠有效探索。在DRL常用。

2.2 進行繞圈,一定程度下重新初始化探索

3 UCB方法

置信區間上界(Upper Confidence Bound, UCB)指導行為選擇。由Hoeffding不等式推導得到

4 熵相關方法

4.1 A3C,狀態下得到的行為選擇值陣列後,可以計算熵專案,給予一定權重新增到獎勵r上,使得傾向選擇最大熵對應的狀態,然後衰減該權重,形成策略?

4.2 SAC?

5 其它

對於Actor-Critic架構,Actor選擇行為,用DDPG的正態分佈等,對sigma進行衰減類似於貪婪策略,用A2C演算法的離散方式,狀態可選動作下,動作陣列取softmax,然後進行概率取樣,屬於概率方法吧。




Le vent se lève! . . . il faut tenter de vivre!


Le vent se lève! . . . il faut tenter de vivre!