強化學習--Policy Gradient

阿新 • • 發佈：2019-01-05

Policy Gradient綜述：

　Policy Gradient，通過學習當前環境，直接給出要輸出的動作的概率值。

　 Policy Gradient 不是單步更新，只能等玩完一個epoch，再更新引數，所以是一個off-policy

數學推導

最大化R,,用梯度下降，需要求R的梯度。

vt的計算

Policy Gradient 不是單步更新，只能等玩完一個epoch，得到每個epoch的observation_list \ action\_list reward_list

學習的時候，根據這三個list更新引數，其中下圖公式中的vt 根據reward_list算出來。

vt的計算

Policy Gradient 不是單步更新，只能等玩完一個epoch，得到每個epoch的observation_list \ action\_list reward_list

學習的時候，根據這三個list更新引數，其中下圖公式中的vt 根據reward_list算出來。

實現方式

神經網路分類模型，但是在算loss 的時候，logloss需要乘一個係數vt,這個係數與獎勵Reward相關，如果採用當前動作，

在接下來的遊戲中獲得的Reward越大，那麼在更新梯度的時候加大當前梯度下降的速度。

演算法步驟

vt的計算

Policy Gradient 不是單步更新，只能等玩完一個epoch，得到每個epoch的observation_list \ action\_list reward_list

學習的時候，根據這三個list更新引數，其中下圖公式中的vt 根據reward_list算出來。

程式碼

  1 """
  2 This part of code is the reinforcement learning brain, which is a brain of the agent.
 
  3 All decisions are made in here.
  4 
  5 Policy Gradient, Reinforcement Learning.
  6 
  7 View more on my tutorial page: https://morvanzhou.github.io/tutorials/
  8 
  9 Using:
 10 Tensorflow: 1.0
 11 gym: 0.8.0
 12 """
 13 
 14 import numpy as np
 15 import tensorflow as tf
 16 
 17 # reproducible
 18 np.random.seed(1)
 19 tf.set_random_seed(1)
 20 
 21 
 22 class PolicyGradient:
 23     def __init__(
 24             self,
 25             n_actions,
 26             n_features,
 27             learning_rate=0.01,
 28             reward_decay=0.95,
 29             output_graph=False,
 30     ):
 31         self.n_actions = n_actions
 32         self.n_features = n_features
 33         self.lr = learning_rate
 34         self.gamma = reward_decay
 35         
 36 
 37         #每個epoch的observation \ action\ reward
 38         self.ep_obs, self.ep_as, self.ep_rs = [], [], []
 39 
 40         self._build_net()
 41 
 42         self.sess = tf.Session()
 43 
 44         if output_graph:
 45             # $ tensorboard --logdir=logs
 46             # http://0.0.0.0:6006/
 47             # tf.train.SummaryWriter soon be deprecated, use following
 48             tf.summary.FileWriter("logs/", self.sess.graph)
 49 
 50         self.sess.run(tf.global_variables_initializer())
 51 
 52     def _build_net(self):
 53         with tf.name_scope('inputs'):
 54             self.tf_obs = tf.placeholder(tf.float32, [None, self.n_features], name="observations")
 55             self.tf_acts = tf.placeholder(tf.int32, [None, ], name="actions_num")
 56             self.tf_vt = tf.placeholder(tf.float32, [None, ], name="actions_value")
 57         # fc1
 58         layer = tf.layers.dense(
 59             inputs=self.tf_obs,
 60             units=10,
 61             activation=tf.nn.tanh,  # tanh activation
 62             kernel_initializer=tf.random_normal_initializer(mean=0, stddev=0.3),
 63             bias_initializer=tf.constant_initializer(0.1),
 64             name='fc1'
 65         )
 66         # fc2
 67         all_act = tf.layers.dense(
 68             inputs=layer,
 69             units=self.n_actions,
 70             activation=None,
 71             kernel_initializer=tf.random_normal_initializer(mean=0, stddev=0.3),
 72             bias_initializer=tf.constant_initializer(0.1),
 73             name='fc2'
 74         )
 75 
 76         self.all_act_prob = tf.nn.softmax(all_act, name='act_prob')  # use softmax to convert to probability
 77 
 78         with tf.name_scope('loss'):
 79             # to maximize total reward (log_p * R) is to minimize -(log_p * R), and the tf only have minimize(loss)
 80             neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=all_act, labels=self.tf_acts)   # this is negative log of chosen action
 81             # or in this way:
 82             # neg_log_prob = tf.reduce_sum(-tf.log(self.all_act_prob)*tf.one_hot(self.tf_acts, self.n_actions), axis=1)
 83             loss = tf.reduce_mean(neg_log_prob * self.tf_vt)  # reward guided loss
 84 
 85         with tf.name_scope('train'):
 86             self.train_op = tf.train.AdamOptimizer(self.lr).minimize(loss)
 87 
 88     def choose_action(self, observation):
 89         prob_weights = self.sess.run(self.all_act_prob, feed_dict={self.tf_obs: observation[np.newaxis, :]})
 90         action = np.random.choice(range(prob_weights.shape[1]), p=prob_weights.ravel())  # select action w.r.t the actions prob
 91         return action
 92 
 93     def store_transition(self, s, a, r):
 94         self.ep_obs.append(s)
 95         self.ep_as.append(a)
 96         self.ep_rs.append(r)
 97 
 98     def learn(self):
 99         # discount and normalize episode reward
100         discounted_ep_rs_norm = self._discount_and_norm_rewards()
101 
102         # train on episode
103         self.sess.run(self.train_op, feed_dict={
104              self.tf_obs: np.vstack(self.ep_obs),  # shape=[None, n_obs]
105              self.tf_acts: np.array(self.ep_as),  # shape=[None, ]
106              self.tf_vt: discounted_ep_rs_norm,  # shape=[None, ]
107         })
108 
109         self.ep_obs, self.ep_as, self.ep_rs = [], [], []    # empty episode data
110         return discounted_ep_rs_norm
111 
112     def _discount_and_norm_rewards(self):
113         # discount episode rewards
114         discounted_ep_rs = np.zeros_like(self.ep_rs)
115         running_add = 0
116         for t in reversed(range(0, len(self.ep_rs))):
117             running_add = running_add * self.gamma + self.ep_rs[t]
118             discounted_ep_rs[t] = running_add
119 
120         # normalize episode rewards
121         discounted_ep_rs -= np.mean(discounted_ep_rs)
122         discounted_ep_rs /= np.std(discounted_ep_rs)
123         return discounted_ep_rs

強化學習--Policy Gradient

Policy Gradient綜述：　Policy Gradient，通過學習當前環境，直接給出要輸出的動作的概率值。　 Policy Gradient 不是單步更新，只能等玩完一個epoch，再更新引數，所以是一個off-policy 數學

強化學習（RLAI）讀書筆記第十三章策略梯度方法（Policy Gradient Methods）

強化學習（RLAI）讀書筆記第十三章策略梯度方法（Policy Gradient Methods） 13.1 Policy Approximation and its Advantages 13.2 The Policy Gradient Theore

強化學習七 - Policy Gradient Methods

一.前言　　之前我們討論的所有問題都是先學習action value,再根據action value 來選擇action(無論是根據greedy policy選擇使得action value 最大的action,還是根據ε-greedy policy以1-ε的概率選擇使得action value 最大的a

強化學習(十三) 策略梯度(Policy Gradient)

　　　　在前面講到的DQN系列強化學習演算法中，我們主要對價值函式進行了近似表示，基於價值來學習。這種Value Based強化學習方法在很多領域都得到比較好的應用，但是Value Based強化學習方法也有很多侷限性，因此在另一些場景下我們需要其他的方法，比如本篇討論的策略梯度(Policy Gradien

強化學習（二）：Policy Gradient理解

上一章已經介紹了基於值函式方法的簡單的DQN的理解，而在深度強化學習領域另一種基於端到端思路的策略梯度（Policy Gradient）演算法相較而言可能取得更好的結果，也更加方便理解。於是，本章我們就從有監督學習和強化學習的區別開始講起，探討策略梯度思想指導下的強化學習理念

強化學習之策略梯度(Policy Gradient)

1、什麼是 Policy Gradients 策略梯度的基本思想，就是直接根據狀態輸出動作或者動作的概率。那麼怎麼輸出呢，最簡單

CS294-112 深度強化學習秋季學期（伯克利）NO.4 Policy gradients introduction

alt blue fun tor 深度 ase gree equal bubuko gree

強化學習（RLAI）讀書筆記第十一章 Off-policy Methods with Approximation

本書第五章就已經講解過分別使用on-policy和off-policy方法來解決GPI框架裡固有的explore和exploit的矛盾。前兩章已經講了on-policy情形下對於函式近似的拓展，本章繼續講解off-policy下對函式近似的拓展，但是這個拓展比on-policy時更難更不同。在第六第

強化學習（RLAI）讀書筆記第十章On-Policy Control with Approximation

目前繼續考慮on-policy的帶逼近的control演算法。這章主要介紹半梯度Sarsa演算法，也就是半梯度TD(0)演算法對於動作值估計以及on-policy control演算法的自然延伸。雖然這個延伸對於episodic的情況是很自然的，但是對於continuing的情況，我們需要再次考慮對

強化學習（RLAI）讀書筆記第九章On-policy Prediction with Approximation

這一章學習使用on-policy的資料對狀態值函式進行逼近，也就是在策略下估計值函式。這一章的重點在於估計的值函式不是使用表格來表示而是使用引數w的函式形式。一般來說權重引數的數量是遠遠比狀態的數量要小的，而且改變一個權重的大小會影響到很多個狀態值的估計。於是一個值函式的更新會帶來很多其它值函式的改

深度增強學習之Policy Gradient方法1

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

策略梯度(Policy gradient)學習心得

文章目錄策略梯度網路結構策略梯度網路權重的更新策略梯度網路更新的時機策略梯度動作的選擇策略梯度概率更新幅度最後以前的博文介紹了Q-learning與

【李巨集毅深度強化學習2018】P2 Proximal Policy Optimization (PPO)

第二講 Proximal Policy Optimization(PPO) 視訊地址：https:/

深度強化學習cs294 Lecture5: Policy Gradients Introduction

深度強化學習cs294 Lecture5: Policy Gradients Introduction 1. The policy gradient algorithm 2. What does the policy gradient do?

強化學習中的off-policy 和on-policy

強化學習可以分成off-policy（離線）和on-policy（線上）兩種學習方法，按照個人理解，判斷一個強化學習是off-policy還是on-policy的依據在於生成樣本的policy（value-funciton）和網路引數更新時的policy（val

強化學習之四：基於策略的Agents (Policy-based Agents)

本文是對Arthur Juliani在Medium平臺釋出的強化學習系列教程的個人中文翻譯，該翻譯是基於個人分享知識的目的進行的，歡迎交流！（This article is my personal translation for the tutorial wri

強化學習相關資源

ren info round count question posit pre tar tor 　　最近因為某個不可描述的原因需要迅速用強化學習完成一個小實例，但是之前完全不懂強化學習啊，雖然用了人家的代碼但是在找代碼的過程中還是發現了很多不錯的強化學習資源，決定mark下

學習筆記TF037:實現強化學習策略網絡

屬於控制返回獎勵渲染動作 ren 虛擬初始強化學習(Reinforcement Learing)，機器學習重要分支，解決連續決策問題。強化學習問題三概念，環境狀態(Environment State)、行動(Action)、獎勵(Reward)，目標獲得最多累

強化學習(David Silver)4：免模型學習

叠代 ack 方差自舉組合 a* 最小二乘求和效率 0、為什麽免模型學習？ PS：課程中叠代的值是值函數；周誌華老師的西瓜書中叠代的是狀態值函數；課程中叠代的是狀態-動作值函數 1、蒙特卡洛方法：直接通過采樣求和（v(s) = S(s)/n(s)，其中S(s) =

強化學習(David Silver)4：免模型控制

sil 對比 rsa isod 頻率模型找到使用采樣 1、一般的策略叠代優化的方法 1)策略評估 2)策略改善 2、model free的策略叠代優化的方法基於v(s)的優化需要MDP，基於Q的優化不需要，所以策略是 1)使用Q函數策略評估 2)使用厄普西隆貪心策

強化學習--Policy Gradient

Policy Gradient綜述：

數學推導

vt的計算

vt的計算

實現方式

演算法步驟

vt的計算

程式碼

相關推薦