強化學習基礎

阿新 • • 發佈：2018-08-05

gradient ieee function 最大化 pla sea algorithm lambda 等價

概念

強化學習需要學習一個從環境狀態到智能體行動的映射，稱為智能體的一個策略，使得強化回報最大化。其環境通常采用 MDP 來定義。

馬爾可夫決策過程：$MDP = \{ S, A, P, R \} $

狀態轉移的回報函數$R: S\times A\times S \to R$
狀態轉移的概率$P: S\times S\times A \to [0,1],\forall s\in S, \forall a\in A \sum_{s‘\in S}P(s‘|s,a)=1$
部分可觀測 MDP ：MDP+O+P(O|S)，O 為觀測結果集合

一個平穩策略是一個確定的、時間無關函數$\pi:S\to A$

$Q^\pi(s,a)=\sum_{s‘\in S}P(s‘|s,a)[R(s,a,s‘)+\gamma V^\pi(s‘)]$，$\gamma$為折扣因子

$V^\pi(s)=Q^\pi(s,\pi(s)),V^\pi(s)$是狀態s下的回報期望值，$Q^\pi(s,a)$是狀態s下采取行動 a的回報期望值。

最優策略*：每個狀態選擇最大回報的動作。

$V^*(s)=\max_aQ^*(s,a),\pi^*(s)=\arg\max_aQ^*(s,a)$

動態規劃

已知P時，強化學習為確定的動態規劃算法

值叠代：從V=0值開始，得到Q，最大化$\pi$，進而得到V的新值。

策略叠代：從隨機策略$\pi$和V=0值開始，解V或Q方程得到V與Q的新值，再計算新的策略。

未知 P 時，可用隨機算法估計 P ，兩個等價的逼近公式。

估計值公式：$A_k = \frac{1}{k}\sum v_k=A_{k-1} +\alpha_k(v_k-A_{k-1}),\alpha_k=\frac{1}{k},TD= v_k-A_{k-1}$稱為TD誤差。
Robbins-Monro 隨機逼近公式：$A_k =(1-\alpha_k)A_{k-1}+\alpha_kv_k$

$Q(\lambda=0)$學習，$\lambda$為步數。重復以下步驟：

選擇執行一個動作a。為了保留探索的機會，$1-\epsilon$概率選擇非最大值。

觀察回報r和狀態 s‘
$Q(s,a)\leftarrow Q(s,a)+\alpha(r+\max_{a‘}Q(s‘,a‘)-Q(s,a))$，策略a‘被選之後不一定執行，稱為off-policy
采用值叠代時，為$TD(\lambda):V(s_t)=V(s_t)+\alpha(r_{t+1}+\gamma V(s_{t+1}))$
$s\leftarrow s‘$

$SARSA(\lambda=0)$學習，重復以下步驟：

執行一個動作a，觀察回報r和狀態 s‘
利用Q 的策略選擇 a‘
$Q(s,a)\leftarrow Q(s,a)+\alpha(r+Q(s‘,a‘)-Q(s,a))$，策略a‘被選之後必然會執行，稱為on-policy
$s\leftarrow s‘, a\leftarrow a‘$

擴展模型

隨著狀態空間維數的增加，動作空間的連續，計算復雜度指數增長，因此需要 V/Q 的低代價版本，通常的解決方案是函數逼近。

策略梯度方法

連續的動作空間使得$\max_{a‘}Q(s‘,a‘)$變得不切實際，PG采用可導函數逼近$Q$和$\pi$。

把策略隨機化、參數化：$\pi(s,a,\theta)=P{a_t=a|s_t=s,\theta}$
長期回報函數：$\rho(\pi)=E[\sum_t\gamma^{t-1}r_t|s_0,\pi]=\sum_a\pi(s_0,a)Q^\pi(s_0,a)$
梯度定理：$\frac{\partial\rho}{\partial\theta}=\sum_sd^\pi(s)\sum_a\frac{\partial\pi(s,a)}{\partial\theta}Q^\pi(s,a),d^\pi(s)=\sum_t\gamma^tP\{s_t=s|s_0,\pi\}$

找到逼近$Q^\pi$的函數：$f_w:S\times A\to R$

然後通過梯度下降法，找到長期回報函數的極值：$\lim_{k\to\infty}\frac{\partial\rho(\pi_k)}{\partial\theta}=0$

DQN

DQN采用神經網絡逼近$Q^\pi$函數，$f_w:S\to A\times R$

損失函數為：$L_i(\theta)=E_{s,a\sim\rho}[y_i-Q(s,a;\theta_i)]^2,y_i=E_{s‘\sim\epsilon}[r+\gamma\max_{a‘}Q(s‘,s‘;\theta_{i-1}]$

算法特點：在Q算法中更新Q的時候，從緩沖池中，提取小批量序列計算Q‘；並且每C步用Q‘更新Q。

AlphaGo

技術特點

策略網絡的有監督學習，得到權重初值
策略網絡的強化學習，只有最後一步有回報，然後強化每一步的策略
基於策略網絡，通過強化學習得到估值網絡
采用蒙特卡洛樹來采樣。

AlphaGo Zero

放棄有監督學習，采用單一網絡估計策略與價值，采用蒙特卡洛樹來采樣。

DDPG

針對連續動作空間

回報函數：$J(\pi_\theta)=\int_S\rho(s)\int_A\pi_\theta(s,a)r(s,a)dads=E_{s\sim\rho^\pi,a\sim\pi_\theta}[r(s,a)$
DPG定理：$J(\mu_\theta)=\int_S\rho^\mu(s)r(s,\mu_\theta(s))ds=E_{s\sim\rho^\mu}[r(s,\mu_theta(s))]$

采用了兩個可優化部件：

Actor函數$\mu$近似$\pi$，利用采樣梯度優化。
Critic 網絡近似Q，損失函數：$L=\frac{1}{N}\sum_i(y_i-Q(s_i,a_i|\theta^Q)^2,y_i=r_i+\gamma Q‘(s_{i+1},\mu‘(s_{i+1}|\theta^{\mu‘})|\theta^{Q‘})$

DDPG是采用了DQN 的訓練技術的 DPG。

參考文獻

Mozer S, M C, Hasselmo M. Reinforcement Learning: An Introduction[J]. IEEE Transactions on Neural Networks, 1992, 8(3-4):225-227.
Sutton R S. Policy Gradient Methods for Reinforcement Learning with Function Approximation[J]. Submitted to Advances in Neural Information Processing Systems, 1999, 12:1057-1063.
Simon Haykin, Neural Networks and Learning Machines (the 3rd edition), Pearson Eduction, Inc, 2009
David L. Poole and Alan K. Mackworth: Artificial Intelligence: Foundations of Computational Agents, Cambridge University Press, 2010
Mnih V, Kavukcuoglu K, Silver D, et al. Playing Atari with Deep Reinforcement Learning[J]. Computer Science, 2013.
Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms[C]// International Conference on International Conference on Machine Learning. JMLR.org, 2014:387-395.
Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. Computer Science, 2015, 8(6):A187.
Mnih V, Badia A P, Mirza M, et al. Asynchronous Methods for Deep Reinforcement Learning[J]. 2016.
Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search.[J]. Nature, 2016, 529(7587):484-489.
Silver D, Schrittwieser J, Simonyan K, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550(7676):354-359.

強化學習基礎

gradient ieee function 最大化 pla sea algorithm lambda 等價概念強化學習需要學習一個從環境狀態到智能體行動的映射，稱為智能體的一個策略，使得強化回報最大化。其環境通常采用 MDP 來定義。馬爾可夫決策過程：$MDP

強化學習基礎介紹

type color ffffff learning reward https 改進 img 動作概念強化學習，主要是主體agent根據處境state，做出行為action，並且最大化獎勵reward的過程。開始進行強化學習時，神經網絡的系數可隨機初始化。依據環境給予的

強化學習基礎闡述（一）

像西瓜書中說的一樣，強化學習任務通常用馬爾可夫決策過程（MDP）來描述：假設機器處於環境E中，狀態空間為X，其中每個狀態x∈X是機器感知到的環境的描述，然後機器能採取的動作構成了動作空間A。若某個動作a∈A作用在當前狀態x上，則潛在的轉移函式P將使得環境從當前狀態按某種概率轉移到另一個狀態。

【基礎知識十六】強化學習

動態 sof col -s 範例如何差分 ash 抽象一、任務與獎賞我們執行某個操作a時，僅能得到一個當前的反饋r（可以假設服從某種分布），這個過程抽象出來就是“強化學習”。強化學習任務通常用馬爾可夫決策過程MDP來描述：強化學

增強學習（強化學習）基礎之蒙特卡洛方法

https://blog.csdn.net/coffee_cream/article/details/66972281https://zhuanlan.zhihu.com/p/25743759https://zhuanlan.zhihu.com/p/28107168這三篇文章

強化學習之最基礎篇

部落格搬家後的第一篇這些是廢話最近由於實習公司分享會而研究強化學習知識，因而學了強化學習，為期一週5天的研究（實際就3天，還有2天做PPT，準備，分享等），研究內容偏少，但是基本弄懂了正式開始大部分來自於西瓜書的強化學習一章由於分享時

模型彙總18 強化學習（Reinforcement Learning）基礎介紹

1、背景介紹學習和推理是人類智慧最重要的體現，為了使計算機也能夠像人一樣學習和決策，機器學習技術應運而生。機器學習利用計算機來模擬和實現人類學習和解決問題的過程，計算機系統通過不斷自我改進和學習，自動獲取知識並作出相應的決策、判斷或分析。機器學習是人工智慧的一個重要的

強化學習之最基礎篇（演算法實現及基礎案例學習）

本部落格接著上一篇“強化學習之最基礎篇”而來，是基於上一篇的部落格進一步的探究，因為前一篇部落格完全是對於基本概念的介紹以及基本演算法的熟悉，這一篇便是偏應用，講理論的演算法加以實現，並且跑了一個小遊戲從而感受一下強化學習的魅力。背景：在PA公司實習

【強化學習】強化學習的一些基礎理念【一】

目錄Reinforcement Learning的關係RewardAgentenvironmentActionsObservationsRL的應用領域 Reinforcement Learning的關係強化學習的關係圖，如下: 一共有五個核心概念: 兩個實體:Agent,Environment 三個互動

強化學習入門基礎——馬爾可夫決策過程（MDP）

## MDP背景介紹 ### Random Variable **隨機變數（Random Variable）**，通常用大寫字母來表示一個隨機事件。比如看下面的例子： $X$: 河水是鹹的 $Y$: 井水是甜的很顯然，$Y$, $Y$兩個隨機事件是沒有關係的。也就是說$X$和$Y$之間**是相互獨

強化學習入門基礎-馬爾可夫決策過程（MDP）

> 作者：YJLAugus 部落格： https://www.cnblogs.com/yjlaugus 專案地址：https://github.com/YJLAugus/Reinforcement-Learning-Notes，如果感覺對您有所幫助，煩請點個⭐Star。 ## MDP背景介紹 ### R

TP5學習基礎一：增刪改查小demo

表單 arr 處理 php req 學習 model類浪費新手 ①TP5--增刪改查簡單的demo 我先吐槽一下：因為工作需要研究tp5，去官網看了一下哎呦，資源挺多挺全啊！然後下載唯一免費的官方教程，我曹pdf打開533頁。講的很細但是開發能等看完才做嗎？看到精簡版快

強化學習相關資源

ren info round count question posit pre tar tor 　　最近因為某個不可描述的原因需要迅速用強化學習完成一個小實例，但是之前完全不懂強化學習啊，雖然用了人家的代碼但是在找代碼的過程中還是發現了很多不錯的強化學習資源，決定mark下

TP5學習基礎二：目錄結構、URL路由、數據操作

更改數據 valid nbsp 命名別名 ret tag ati 一.安裝1.使用git或者composer(composer update)進行實時更新，區別在於git不會清空核心框架目錄而composer會清空。2.使用官網打包好的TP壓縮包(解壓即可用)->

html學習——基礎分類總結

rect log 內容 sem ron text html pid 頁面 1. html 超文本標記語言HyperText Markup Language。html文檔基本結構： <!DOCTYPE html><head> &

js學習——基礎知識

data undefined () defined ogl 即使所有全局 fine JavaScript //這是註釋 a = 1;//簡單賦值語句數據類型 js有動態

機器學習基礎

機器訓練集回歸標準 func inf 特征種類算法 2017-06-25 20:53:07 一、機器學習的定義 Tom Mitchell:機器學習是對能通過經驗自動改進的計算機算法的研究。機器學習可以彰顯數據背後真正的含義。二、機器學習的分類（1）監督學習 s

spark學習(基礎篇)--(第三節)Spark幾種運行模式

一些記錄 image ica runner 1.3 函數 ive 啟動 driver h2 { color: #fff; background-color: #7CCD7C; padding: 3px; margin: 10px 0px } h3 { color: #fff

solr學習-基礎環境搭建(一)

security 中文 base 拷貝 eba 知識錯誤 res 自己的目前網上關於solr6.+的安裝教程很少，有些6.0之前的教程在應用到6.+的版本中出現很多的問題，所以特別整理出來這一片文章，希望能給各位碼農一些幫助！很少寫些文章，如有不對的地方，還希望多多指

機器學習基礎概念筆記

最大什麽 mar 機器學習決策常見 idg 框架評估監督學習：分類和回歸屬於監督學習。這類算法必須知道預測什麽，即目標變量的分類信息。　　常見算法：k-近鄰算法、線性回歸、樸素貝葉斯算法、支持向量機、決策樹、Lasso最小回歸系數估計、Ridge回歸、局部加權線

強化學習基礎

概念

動態規劃

擴展模型

策略梯度方法

DQN

AlphaGo

DDPG

參考文獻

相關推薦