1. 程式人生 > 實用技巧 >強化學習:q-learning演算法

強化學習:q-learning演算法

參考:https://www.cnblogs.com/dragonir/p/6224313.html

前述:

訓練的越多,Q矩陣被優化得越好!

例子:

第一次episode:

想象中:當agent處於狀態5,只能去(5,1) (5,4) (5,5)

Q矩陣更新為:

第二次episode:

3能去 (3,1) (3,2) (3,4) 隨機地,我們選擇(3,1)

想象中:agent處於1狀態,能去(1,3) (1,5)

此時,Q矩陣重新整理為:

然後

更多次episode