強化學習系列1:強化學習簡介
阿新 • • 發佈:2018-12-28
2015年10月,AlphaGo在和歐洲冠軍進行的圍棋賽上獲得了5:0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。
1. 基本概念
強化學習(reinforcement learning)是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程(Markov Decision Process,MDP)。所謂馬爾科夫決策過程,指的是下一時刻的狀態僅由當前階段(包括狀態、決策)決定,不依賴於以往的狀態,用數學化的語言表達為:
- 問題是多階段決策過程,階段數為
- 每個階段可能的狀態為集合 。
- 每個階段可以做的決策為集合
- 從當前階段狀態到下一階段狀態的轉移函式為 ,有
- 決策完成之後,當前階段對應的成本(或者獎賞)為 。求解變數為 ,目標函式為最小化總成本(或者最大化總獎賞)
如果階段之間的轉移存在隨機性,那麼狀態轉移函式為轉移概率
,求解變數為
,當前階段期望成本為
,目標函式為最小化期望總成本
。
模型在進行決策的時候有多種方法,這裡列舉常用的三種:
- 確定性的貪婪策略
- -greed策略:以 的概率取最優策略,其他等概率。這樣可以平衡利用和探索( 的部分)
- 高斯策略:在連續系統中,行動為 ,後面為零均值正態分佈的高斯隨機噪聲。
下面介再簡單描述一些重要概念:
- 馬爾科夫過程(MP)
MP可以用(S,P)序列表示,其中S表示環境狀態,而P表示概率轉移的邊。MP的前進過程用圖表示為:
… … - 馬爾科夫決策過程(MDP)
MDP是(S,A,P,R),多了一個決策A和回報R(跨時間的回報需要帶上折扣 ),可以看做是MDP比MP多出來的D(ecision)。MDP的目標是min = min = min ,求解變數為 。MDP的前進過程用圖表示如下:
… … - 值函式
MDP使用迭代的方法求解,定義狀態值函式 和狀態行為值函式 。 的引數是s,而 的引數是(s,a)。值函式的前進過程圖如下:
…