Reinforcement Learning Q-learning 算法學習-2
阿新 • • 發佈:2017-05-05
action 結果 最小 clas gamma -1 文章 距離 blog
在閱讀了Q-learning 算法學習-1文章之後。
我分析了這個算法的本質。
算法本質個人分析。
1.算法的初始狀態是隨機的,所以每個初始狀態都是隨機的,所以每個初始狀態出現的概率都一樣的。如果訓練的數量夠多的
話,就每種路徑都會走過。所以起始的Q(X,Y) 肯定是從目標的周圍開始分散開來。也就是目標狀態為中心的行為分數會最高。
如 Q(1,5) Q(4,5) Q(5,5)這樣就可以得到第一級別的經驗了。並且分數最高。
Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]
R(state, action) 函數決定了只有在目標的周圍才能產生初始的經驗。
然後擴散出來。
Max[Q(next state, all actions)] 函數決定了選擇最優的線路,目的是產生離目標最短的距離的級別,最小級別。
2.當出現第一級別的經驗之後,才能得到第二級別的經驗。否則就得不到經驗了。
然後第二級別的經驗會比第一級別的低一個比例,由Gamma決定。
3.以此類推,第三級別的。第三級別的經驗會比第二級別的低一個比例。也是由Gamma決定
4.這樣就得到了一個最短路徑的結果。
Reinforcement Learning Q-learning 算法學習-2