DQN(Deep Reiforcement Learning) 發展歷程(一)
阿新 • • 發佈:2019-02-26
未來 使用 課程 http 包括 .com 死循環 條件 直接
目錄
- 馬爾可夫理論
- 馬爾可夫性質
- 馬爾可夫過程(MP)
- 馬爾可夫獎勵過程(MRP)
- 值函數(value function)
- MRP求解
- 馬爾可夫決策過程(MDP)
- 效用函數
- 優化的值函數
- 貝爾曼等式
- 參考
DQN發展歷程(一)
DQN發展歷程(二)
DQN發展歷程(三)
DQN發展歷程(四)
DQN發展歷程(五)
馬爾可夫理論
馬爾可夫性質
- P[St+1 | St] = P[St+1 | S1,...,St]
- 給定當前狀態 St ,過去的狀態可以不用考慮
- 當前狀態 St 可以代表過去的所有狀態
- 給定當前狀態的條件下,未來的狀態和過去的狀態相互獨立。
馬爾可夫過程(MP)
- 形式化地描述了強化學習的環境。
- 包括二元組(S,P)
- 根據給定的轉移概率矩陣P,從當前狀態St轉移到下一狀態St+1,
- 基於模型的(Model-based):事先給出了轉移概率矩陣P
馬爾可夫獎勵過程(MRP)
- 和馬爾可夫過程相比,加入了獎勵r,加入了折扣因子gamma,gamma在0~1之間。
- 馬爾可夫獎勵過程是一個四元組?S, P, R, γ?
- 需要折扣因子的原因是
- 使未來累積獎勵在數學上易於計算
- 由於可能經過某些重復狀態,避免累積獎勵的計算成死循環
- 用於表示未來的不確定性
- gamma越大表示越看中未來的獎勵
值函數(value function)
- 引入了值函數(value function),給每一個狀態一個值V,以從當前狀態St到評估未來的目標G的累積折扣獎勵的大小
MRP求解
- v = R + γPv (矩陣形式)
- 直接解出上述方程時間復雜度O(n^3), 只使用於一寫小規模問題
馬爾可夫決策過程(MDP)
- 加入了一個動作因素a,用於每個狀態的決策
- MDP是一個五元組?S, A, P, R, γ?
- 策略policy是從S到A的一個映射
效用函數
- 相比於值函數,加入了一個動作因素
優化的值函數
- 為了求最佳策略,在值函數求解時,選擇一個最大的v來更新當前狀態對應的v
貝爾曼等式
- 和值函數的求解方法相比,不需要從當前狀態到目標求解,只需要從當前狀態到下一狀態即可(根據遞推公式)
參考
david siver 課程
https://home.cnblogs.com/u/pinard/
DQN(Deep Reiforcement Learning) 發展歷程(一)