策略梯度訓練cartpole小遊戲

阿新 • • 發佈：2018-11-01

我原來已經安裝了anaconda，在此基礎上進入cmd進行pip install tensorflow和pip install gym就可以了. 在win10的pycharm做的。

policy_gradient.py

 1 # -*- coding: UTF-8 -*-
 2 
 3 """
 4 Policy Gradient 演算法（REINFORCE）。做決策的部分，相當於機器人的大腦
 5 """
 6 
 7 import numpy as np
 8 import tensorflow as tf
 9 
10 try:
11     xrange = xrange  # Python 2 

12 except:
13     xrange = range   # Python 3
14 
15 
16 # 策略梯度 類
17 class PolicyGradient:
18     def __init__(self,
19                  lr,      # 學習速率
20                  s_size,  # state/observation 的特徵數目
21                  a_size,  # action 的數目
22                  h_size,  # hidden layer（隱藏層）神經元數目 

23                  discount_factor=0.99  # 折扣因子
24     ):
25         self.gamma = discount_factor  # Reward 遞減率
26 
27         # 神經網路的前向傳播部分。大腦根據 state 來選 action
28         self.state_in = tf.placeholder(shape=[None, s_size], dtype=tf.float32)
29 
30         # 第一層全連線層
31         hidden = tf.layers.dense(self.state_in, h_size, activation=tf.nn.relu)
 
32 
33         # 第二層全連線層，用 Softmax 來算概率
34         self.output = tf.layers.dense(hidden, a_size, activation=tf.nn.softmax)
35 
36         # 直接選擇概率最大的那個 action
37         self.chosen_action = tf.argmax(self.output, 1)
38 
39         # 下面主要是負責訓練的一些過程
40         # 我們給神經網路傳遞 reward 和 action，為了計算 loss
41         # 再用 loss 來調節神經網路的引數
42         self.reward_holder = tf.placeholder(shape=[None], dtype=tf.float32)
43         self.action_holder = tf.placeholder(shape=[None], dtype=tf.int32)
44 
45         self.indexes = tf.range(0, tf.shape(self.output)[0]) * tf.shape(self.output)[1] + self.action_holder
46         self.outputs = tf.gather(tf.reshape(self.output, [-1]), self.indexes)
47 
48         # 計算 loss（和平時說的 loss 不一樣）有一個負號
49         # 因為 TensorFlow 自帶的梯度下降只能 minimize（最小化）loss
50         # 而 Policy Gradient 裡面是要讓這個所謂的 loss 最大化
51         # 因此需要反一下。對負的去讓它最小化，就是讓它正向最大化
52         self.loss = -tf.reduce_mean(tf.log(self.outputs) * self.reward_holder)
53 
54         # 得到可被訓練的變數
55         train_vars = tf.trainable_variables()
56         
57         self.gradient_holders = []
58         
59         for index, var in enumerate(train_vars):
60             placeholder = tf.placeholder(tf.float32, name=str(index) + '_holder')
61             self.gradient_holders.append(placeholder)
62 
63         # 對 loss 以 train_vars 來計算梯度
64         self.gradients = tf.gradients(self.loss, train_vars)
65 
66         optimizer = tf.train.AdamOptimizer(learning_rate=lr)
67         # apply_gradients 是 minimize 方法的第二部分，應用梯度
68         self.update_batch = optimizer.apply_gradients(zip(self.gradient_holders, train_vars))
69 
70     # 計算折扣後的 reward
71     # 公式： E = r1 + r2 * gamma + r3 * gamma * gamma + r4 * gamma * gamma * gamma ...
72     def discount_rewards(self, rewards):
73         discounted_r = np.zeros_like(rewards)
74         running_add = 0
75         for t in reversed(xrange(0, rewards.size)):
76             running_add = running_add * self.gamma + rewards[t]
77             discounted_r[t] = running_add
78         return discounted_r

play.py

  1 # -*- coding: UTF-8 -*-
  2 
  3 """
  4 遊戲的主程式，呼叫機器人的 Policy Gradient 決策大腦
  5 """
  6 
  7 import numpy as np
  8 import gym
  9 import tensorflow as tf
 10 
 11 from policy_gradient import PolicyGradient
 12 
 13 
 14 # 偽隨機數。為了能夠復現結果
 15 np.random.seed(1)
 16 
 17 env = gym.make('CartPole-v0')
 18 env = env.unwrapped    # 取消限制
 19 env.seed(1)   # 普通的 Policy Gradient 方法, 回合的方差比較大, 所以選一個好點的隨機種子
 20 
 21 print(env.action_space)            # 檢視這個環境中可用的 action 有多少個
 22 print(env.observation_space)       # 檢視這個環境中 state/observation 有多少個特徵值
 23 print(env.observation_space.high)  # 檢視 observation 最高取值
 24 print(env.observation_space.low)   # 檢視 observation 最低取值
 25 
 26 update_frequency = 5   # 更新頻率，多少回合更新一次
 27 total_episodes = 3000  # 總回合數
 28 
 29 # 建立 PolicyGradient 物件
 30 agent = PolicyGradient(lr=0.01,
 31                        a_size=env.action_space.n,   # 對 CartPole-v0 是 2, 兩個 action，向左/向右
 32                        s_size=env.observation_space.shape[0],  # 對 CartPole-v0 是 4
 33                        h_size=8)
 34 
 35 with tf.Session() as sess:
 36     # 初始化所有全域性變數
 37     sess.run(tf.global_variables_initializer())
 38     
 39     # 總的獎勵
 40     total_reward = []
 41 
 42     gradient_buffer = sess.run(tf.trainable_variables())
 43     for index, grad in enumerate(gradient_buffer):
 44         gradient_buffer[index] = grad * 0
 45 
 46     i = 0  # 第幾回合
 47     while i < total_episodes:
 48         # 初始化 state（狀態）
 49         s = env.reset()
 50         
 51         episode_reward = 0
 52         episode_history = []
 53 
 54         while True:
 55             # 更新視覺化環境
 56             env.render()
 57             
 58             # 根據神經網路的輸出，隨機挑選 action
 59             a_dist = sess.run(agent.output, feed_dict={agent.state_in: [s]})
 60             a = np.random.choice(a_dist[0], p=a_dist[0])
 61             a = np.argmax(a_dist == a)
 62 
 63             # 實施這個 action, 並得到環境返回的下一個 state, reward 和 done(本回合是否結束)
 64             s_, r, done, _ = env.step(a)  # 這裡的 r（獎勵）不能準確引導學習
 65 
 66             x, x_dot, theta, theta_dot = s_  # 把 s_ 細分開, 為了修改原配的 reward
 67 
 68             # x 是車的水平位移。所以 r1 是車越偏離中心, 分越少
 69             # theta 是棒子離垂直的角度, 角度越大, 越不垂直。所以 r2 是棒越垂直, 分越高
 70             r1 = (env.x_threshold - abs(x)) / env.x_threshold - 0.8
 71             r2 = (env.theta_threshold_radians - abs(theta)) / env.theta_threshold_radians - 0.5
 72             r = r1 + r2  # 總 reward 是 r1 和 r2 的結合, 既考慮位置, 也考慮角度, 這樣學習更有效率
 73 
 74             episode_history.append([s, a, r, s_])
 75 
 76             episode_reward += r
 77             s = s_
 78 
 79             # Policy Gradient 是回合更新
 80             if done:  # 如果此回合結束
 81                 # 更新神經網路
 82                 episode_history = np.array(episode_history)
 83                 
 84                 episode_history[:, 2] = agent.discount_rewards(episode_history[:, 2])
 85                 
 86                 feed_dict = {
 87                     agent.reward_holder: episode_history[:, 2],
 88                     agent.action_holder: episode_history[:, 1],
 89                     agent.state_in: np.vstack(episode_history[:, 0])
 90                 }
 91 
 92                 # 計算梯度
 93                 grads = sess.run(agent.gradients, feed_dict=feed_dict)
 94                 
 95                 for idx, grad in enumerate(grads):
 96                     gradient_buffer[idx] += grad
 97 
 98                 if i % update_frequency == 0 and i != 0:
 99                     feed_dict = dictionary = dict(zip(agent.gradient_holders, gradient_buffer))
100 
101                     # 應用梯度下降來更新引數
102                     _ = sess.run(agent.update_batch, feed_dict=feed_dict)
103 
104                     for index, grad in enumerate(gradient_buffer):
105                         gradient_buffer[index] = grad * 0
106 
107                 total_reward.append(episode_reward)
108                 break
109 
110         # 每 50 回合列印平均獎勵
111         if i % 50 == 0:
112             print("回合 {} - {} 的平均獎勵: {}".format(i, i + 50, np.mean(total_reward[-50:])))
113 
114         i += 1

啟動訓練：

會報一些警告，不用理會，訓練到獎勵大概有300分的時候，就比較穩定了，能較好的平衡槓子了

　　還有另外一個遊戲Mountain-car小遊戲也可以基於策略梯度來做，這個小遊戲的說明見“基於核方法的強化學習演算法-----何源，張文生”裡面有一段說明了這個小遊戲：

這個具體的實現下回繼續。。。

策略梯度訓練cartpole小遊戲

我原來已經安裝了anaconda，在此基礎上進入cmd進行pip install tensorflow和pip install gym就可以了. 在win10的pycharm做的。 policy_gradient.py 1 # -*- coding: UTF-8 -*- 2 3 """ 4

java語言訓練小遊戲，剪刀石頭布

package game; import java.util.Random; import java.util.Scanner; //猜拳小遊戲 public class Caiquan { public static void main(String[] ar

謀哥：社交小遊戲App將是下一個金礦!

最重要的感覺接口產品 one 這樣的現在廣告 port 【謀哥每天一原創幹貨，第四十五篇】移動互聯網的機會是許多的。誰先做誰的機會就更大，所以把握時機很重要。現在的App市場，各個分類的App已經多得眼花。也就是所謂的紅海一片。那麽。在移動浪潮下。是不是還

python-訓練1_猜拳遊戲

raw_input bin elif 重新 inpu import while user 猜拳遊戲 #!/usr/bin/python#coding=utf-8import randomxd={1:‘剪刀‘,2:‘石頭‘,3:‘布‘}blist=[‘剪刀‘,‘石頭‘,‘布‘

js-->貪吃蛇小遊戲,能成功玩

function 小遊戲 absolute images 貪吃蛇 <!doctype html><html lang="en"><head> <meta charset="UTF-8"> <title>貪吃蛇小遊戲</tit

CSS3實現五子棋Web小遊戲，Canvas畫布和DOM兩種實現，並且具有悔棋和撤銷悔棋功能。

posit oct padding 角色 sar pac osi fse ech 用Canvas實現五子棋的思路： 1、點擊棋盤，獲取坐標x，y，計算出棋子的二維數組坐標i和j， 2、棋子的實現，先arc一個圓，再填充漸變色。 3、下完一步棋後切換畫筆和角色。 4、贏法算法

2048小遊戲主要算法實現

mes 方向時間限制上下左右 print ron weight color ges http://acm.tzc.edu.cn/acmhome/problemdetail.do?&method=showdetail&id=4681 4681: 2

色盲小遊戲

query 背景 true res exe n) class color 正則 html <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8"

使用前端原生 js，貪吃蛇小遊戲

oct 新的生成方便描述 logs turn asc 轉動好久好久，真的是好久好久沒來寫過了，因為最近有點小忙。不過即使是忙，也也還是寫了兩個小遊戲，其中一個就是這個，貪吃蛇啦。算是一個小練手了，這個是在有點太簡單了，只是第一次寫這種小遊戲，還是零零星星花了三

二進制練習小遊戲

else end ~~ mes per spa 記憶 sig cout 　　今天惡補匯編，發下腦袋變遲鈍了，所以寫了個小程序，練習一下二進制轉換，鞏固記憶~~ 　　先來看看二進制（Binary）、十進制（Decimal）、十六進制（Binary）的關系表格 Dec

一個小遊戲

class 染色 2.0 name %d mat blog tdi algo 題目：　　給出一張圖，有點權，有邊權。　　兩個人輪流用最優策略染色，他們的得分是點權，加內部的邊權。 #include<iostream> #include<cstdio&

農場莊園遊戲開發，微信小遊戲，微商城開發

深圳市龍火科技有限公司（SHENZHEN DRAGON FIRE TECHNOLOGY CO.LTD.）,專業為企業提供一站式手機APP軟件開發，移動APP推廣服務，包括ANDROID APP開發，IOS APP開發，企業APP定制服務，同時提供全的APP開發流程一記開發方案。龍火科技自成立以來，以為

微信小遊戲開發

微信小遊戲開發遊戲開發棋牌遊戲開發嗨。。老板你是不是想找公司開發遊戲項目？我們就是你一直想找的公司，在此懇請老總你認真看看我的介紹看是否有你想開發項目，歡迎加我v 信視頻了解我公司能力。專業開發大型3D遊戲軟件；定制開發任意模式的系統軟件棋牌果園莊園牧場遊戲。聯系方式：

微信小遊戲開發，分銷系統定制開發

微信小遊戲棋牌遊戲分銷系統定制 ● 深圳市龍火科技有限公司專業為企業提供一站式手機APP軟件開發，移動APP推廣服務，包括ANDROID APP開發，IOS APP開發，企業APP定制服務，同時提供最全的APP開發流程以及開發方案。 ● 龍火科技自成立以來，已為

紅警進入提示“FATALString Manager failed to initilaized properly&(抗壓小遊戲)

windows 放松你是否有遇到這種情況，剛下載了個紅警結果點圖標要進入時卻提示了一串英文 ***FATAL***String Manager failed to initilaized properly這時候是最郁悶的解決方法右鍵單擊ra2.exe，選擇 --屬性——兼容性——兼容模式打

[知了堂學習筆記]_JS小遊戲之打飛機（3）-飛機之間的互相撞擊，boss的出現，以及控制boss死亡

時間 i++ score console function sss 間隔 app tint 我的小飛機和敵軍小飛機撞擊的效果的實現： 1 /** 2 * 定義我的飛機與敵機碰撞的方法： 3 */ 4 function destoryMyPlane(){ 5

【python學習】使用python寫一個2048小遊戲

ast stc 遊戲多少 wan nbsp 小遊戲效果參考個人博客：jerwang.cn 沒有參考其他代碼,效果圖：話不多少，源代碼： https://github.com/jerustc/Python/blob/master/2048.py【python學

猜數小遊戲

return turn == std clas rand col iostream using 1 #include<iostream> 2 #include<stdlib.h> 3 using namespace std; 4 int c

用Python寫一個小遊戲

python 小腳本剛學Python時間不長，但也知道了一點，看別人的參考寫了一個猜數字小遊戲，也算是禹學於樂吧。#!/usr/bin/env python #coding=utf-8

jsp-簡單的猜數小遊戲

form start ansi type att object code parseint 技術分享 <%@ page language="java" import="java.util.*" pageEncoding="utf-8"%> <% Stri

策略梯度訓練cartpole小遊戲

相關推薦