1. 程式人生 > >RL強化學習各種演算法流程虛擬碼

RL強化學習各種演算法流程虛擬碼

  • policy iteration
    這裡寫圖片描述

  • value iteration
    value iteration

    注:policy iteration使用bellman方程來更新value,最後收斂的value 即Vπ 是當前policy下的value值(所以叫做對policy進行評估),目的是為了後面的policy improvement得到新的policy。而value iteration是使用bellman 最優方程來更新value,最後收斂得到的value即這裡寫圖片描述就是當前state狀態下的最優的value值。因此,只要最後收斂,那麼最優的policy也就得到的。因此這個方法是基於更新value的,所以叫value iteration。

  • TD(0)
    TD

  • SARSA
    SARSA

  • Q-learning
    Q-learning

  • Double Q-learning
    double-q-learning

  • Deep Deterministic policy gradient( actor-citric)
    這裡寫圖片描述