1. 程式人生 > >增強學習(RL)一些入門資料

增強學習(RL)一些入門資料

增強學習(RL)一些入門資料

  1. 概述
  2. MDP
    1. 基本概念
    2. 解決方法分類
      • model-free & model-based
      • off-plicy & on-plicy
        • [TOTAL] :: 更新價值所使用的方法是沿著既定的策略(on-policy)抑或是新策略(off-policy)
        • off-plicy --> 我們可以利用一個策略(行為策略)來保持探索性,提供多樣化的資料,而不斷的優化另一個策略(目標策略)。
        • on-plicy --> 在既定的策略下學習更優策略
    3. 具體解決方法
      • 動態規劃
        • DP --> (model-based)
        • 策略迭代 --> (策略估計,策略改進)
        • 值迭代
      • 蒙特卡洛MC
      • 時間差分Temporal-Difference Learning
  3. POMDP
    • ???