DQN玩FlappyBird的核心程式碼和註釋

阿新 • • 發佈：2018-12-05

文章的轉載地址

http://lanbing510.info/2018/07/17/DQN.html

# File: FlappyBirdDQN.py

import cv2
import wrapped_flappy_bird as game
from BrainDQN_Nature import BrainDQN
import numpy as np
import sys
sys.path.append("game/")


# 輔助函式：將80*80大小的影象進行灰度二值化處理
def preprocess(observation):
    observation = cv2.cvtColor(cv2.resize(observation, (80, 80)), cv2.COLOR_BGR2GRAY)
    ret, observation = cv2.threshold(observation,1,255,cv2.THRESH_BINARY)
    return np.reshape(observation,(80,80,1))

# 主函式：初始化DQN和遊戲，並開始遊戲進行訓練
def playFlappyBird():
    # Step 1:   初始化BrainDQN
    actions = 2
    brain = BrainDQN(actions)
    # Step 2:   初始化Flappy Bird遊戲
    flappyBird = game.GameState()
    # Step 3:   開始遊戲

    # Step 3.1: 得到初始狀態
    action0 = np.array([1,0])
    observation0, reward0, terminal = flappyBird.frame_step(action0)
    observation0 = cv2.cvtColor(cv2.resize(observation0, (80, 80)), cv2.COLOR_BGR2GRAY)
    ret, observation0 = cv2.threshold(observation0,1,255,cv2.THRESH_BINARY)
    brain.setInitState(observation0)

    # Step 3.2: 開始遊戲
    while 1!= 0:
        # 得到一個動作
        action = brain.getAction()
        # 通過遊戲介面得到動作後返回的下一幀影象、回報和終止標誌
        nextObservation,reward,terminal = flappyBird.frame_step(action) 
        # 影象灰度二值化處理
        nextObservation = preprocess(nextObservation)
        # 將動作後得到的下一幀影象放入到新狀態newState，然後將新狀態、當前狀態、動作、回報和終止標誌放入都遊戲回放記憶序列
        brain.setPerception(nextObservation,action,reward,terminal) 

def main():
    playFlappyBird()

if __name__ == '__main__':
    main()

# File: BrainDQN_NIPS.py

import tensorflow as tf 
import numpy as np 
import random
from collections import deque 

# 超引數
FRAME_PER_ACTION = 1
GAMMA = 0.99 # decay rate of past observations
OBSERVE = 100. # timesteps to observe before training
EXPLORE = 150000. # frames over which to anneal epsilon
FINAL_EPSILON = 0.0 # final value of epsilon
INITIAL_EPSILON = 0.9 # starting value of epsilon
REPLAY_MEMORY = 50000 # number of previous transitions to remember
BATCH_SIZE = 32 # size of minibatch

class BrainDQN:
    # 初始化函式
    def __init__(self,actions):
        # 初始化回放記憶佇列
        self.replayMemory = deque()
        # 初始化一些引數
        self.timeStep = 0
        self.epsilon = INITIAL_EPSILON
        self.actions = actions
        # 初始化Q網路
        self.createQNetwork()

    # 建立Q深度神經網路
    def createQNetwork(self):
        # 網路權值
        W_conv1 = self.weight_variable([8,8,4,32])
        b_conv1 = self.bias_variable([32])

        W_conv2 = self.weight_variable([4,4,32,64])
        b_conv2 = self.bias_variable([64])

        W_conv3 = self.weight_variable([3,3,64,64])
        b_conv3 = self.bias_variable([64])

        W_fc1 = self.weight_variable([1600,512])
        b_fc1 = self.bias_variable([512])

        W_fc2 = self.weight_variable([512,self.actions])
        b_fc2 = self.bias_variable([self.actions])

        # 輸入層
        self.stateInput = tf.placeholder("float",[None,80,80,4])

        # 隱層
        h_conv1 = tf.nn.relu(self.conv2d(self.stateInput,W_conv1,4) + b_conv1)
        h_pool1 = self.max_pool_2x2(h_conv1)

        h_conv2 = tf.nn.relu(self.conv2d(h_pool1,W_conv2,2) + b_conv2)

        h_conv3 = tf.nn.relu(self.conv2d(h_conv2,W_conv3,1) + b_conv3)

        h_conv3_flat = tf.reshape(h_conv3,[-1,1600])
        h_fc1 = tf.nn.relu(tf.matmul(h_conv3_flat,W_fc1) + b_fc1)

        # Q值層
        self.QValue = tf.matmul(h_fc1,W_fc2) + b_fc2

        # 訓練配置
        self.actionInput = tf.placeholder("float",[None,self.actions])
        self.yInput = tf.placeholder("float", [None]) 
        Q_action = tf.reduce_sum(tf.mul(self.QValue, self.actionInput), reduction_indices = 1)
        self.cost = tf.reduce_mean(tf.square(self.yInput - Q_action))
        self.trainStep = tf.train.AdamOptimizer(1e-6).minimize(self.cost)

        # 保持與載入網路
        self.saver = tf.train.Saver()
        self.session = tf.InteractiveSession()
        self.session.run(tf.initialize_all_variables())
        checkpoint = tf.train.get_checkpoint_state("saved_networks")
        if checkpoint and checkpoint.model_checkpoint_path:
                self.saver.restore(self.session, checkpoint.model_checkpoint_path)
                print ("Successfully loaded:", checkpoint.model_checkpoint_path)
        else:
                print ("Could not find old network weights")

    # 訓練Q網路
    def trainQNetwork(self):
        # Step 1: 從回放記憶中隨機抽取小批量資料
        minibatch = random.sample(self.replayMemory,BATCH_SIZE)
        state_batch = [data[0] for data in minibatch]
        action_batch = [data[1] for data in minibatch]
        reward_batch = [data[2] for data in minibatch]
        nextState_batch = [data[3] for data in minibatch]

        # Step 2: 計算y 
        y_batch = []
        QValue_batch = self.QValue.eval(feed_dict={self.stateInput:nextState_batch})
        for i in range(0,BATCH_SIZE):
            terminal = minibatch[i][4]
            if terminal:
                y_batch.append(reward_batch[i])
            else:
                y_batch.append(reward_batch[i] + GAMMA * np.max(QValue_batch[i]))

        # Step 3: 訓練
        self.trainStep.run(feed_dict={
            self.yInput : y_batch,
            self.actionInput : action_batch,
            self.stateInput : state_batch
            })

        # 每10000次迭代儲存一次網路
        if self.timeStep % 10000 == 0:
            self.saver.save(self.session, 'saved_networks/' + 'network' + '-dqn', global_step = self.timeStep)


    # 更新回放記憶序列，當回放資料足夠時呼叫trainQNetwork進行訓練
    def setPerception(self,nextObservation,action,reward,terminal):
        newState = np.append(self.currentState[:,:,1:],nextObservation,axis = 2)
        self.replayMemory.append((self.currentState,action,reward,newState,terminal))
        if len(self.replayMemory) > REPLAY_MEMORY:
            self.replayMemory.popleft()
        if self.timeStep > OBSERVE:
            self.trainQNetwork() # 訓練網路
        self.currentState = newState
        self.timeStep += 1

    # 得到動作
    def getAction(self):
        QValue = self.QValue.eval(feed_dict= {self.stateInput:[self.currentState]})[0]
        action = np.zeros(self.actions)
        action_index = 0
        if self.timeStep % FRAME_PER_ACTION == 0:
            if random.random() <= self.epsilon:
                action_index = random.randrange(self.actions)
                action[action_index] = 1
            else:
                action_index = np.argmax(QValue)
                action[action_index] = 1
        else:
            action[0] = 1 
        if self.epsilon > FINAL_EPSILON and self.timeStep > OBSERVE:
            self.epsilon -= (INITIAL_EPSILON - FINAL_EPSILON)/EXPLORE
        return action

    # 設定初始狀態
    def setInitState(self,observation):
        self.currentState = np.stack((observation, observation, observation, observation), axis = 2)

    # 輔助函式，用於生成網路權值
    def weight_variable(self,shape):
        initial = tf.truncated_normal(shape, stddev = 0.01)
        return tf.Variable(initial)

    # 輔助函式，用於生成網路bias
    def bias_variable(self,shape):
        initial = tf.constant(0.01, shape = shape)
        return tf.Variable(initial)

    # 輔助函式，2D卷積
    def conv2d(self,x, W, stride):
        return tf.nn.conv2d(x, W, strides = [1, stride, stride, 1], padding = "SAME")

    # 輔助函式，2*2 max pooling
    def max_pool_2x2(self,x):
        return tf.nn.max_pool(x, ksize = [1, 2, 2, 1], strides = [1, 2, 2, 1], padding = "SAME")

訓練完成後儲存網路，則可以進行遊戲：

DQN玩FlappyBird的核心程式碼和註釋

文章的轉載地址 http://lanbing510.info/2018/07/17/DQN.html # File: FlappyBirdDQN.py import cv2 import wrapped_flappy_bird as game from BrainDQN_Nature im

決策樹，decision的pyton程式碼和註釋（機器學習實戰）

Decison Tree的註釋：畫圖部分不給註釋了 from math import log import numpy def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts =

Python外星人入侵完整程式碼和註釋(一)

本外星人入侵遊戲包括一個主執行程式（alien_invasion.py）和八個模組。一、主執行程式（alien_invasion.py） 1、建立alien_invasion.py（import sys和import pygame） 2、方法run_game()

Python外星人入侵完整程式碼和註釋(八)

八、計分，建立一個scoreboard.py的檔案 1、顯示分數，在螢幕上顯示最高分，等級和剩餘的飛船數，在正上方顯示最高分，右上方顯示分數 2、建立記分牌，用於計算得到的分數 3、顯示等級。在外星人消滅後，提高等級程式碼如下 import pygame.fo

【貪心演算法】田忌賽馬問題程式碼和註釋

描述田忌與齊王賽馬，雙方各有n匹馬參賽（n<=100），每場比賽賭注為1兩黃金，現已知齊王與田忌的每匹馬的速度，並且齊王肯定是按馬的速度從快到慢出場，現要你寫一個程式幫助田忌計算他最好的結果是贏多少兩黃金（輸用負數表示）。 Tian J

一個尖括號能幹什麼，畫一個笑臉開始（為了支援互動，它又增添了JavaScript。HTML頁面也越來越臃腫。於是CSS便誕生了。API和核心程式碼的出現使HTML能夠訪問更復雜的軟體功能－－支援更高階的互動和雲服務整合。這就是今天的HTML5）

一個尖括號 < 一個尖括號能幹什麼 < ? 你可以編出一頂帽子 <(:-p 或一張笑臉 :-> 再或者更直接一些 20世紀90年代初，html作為一種簡單標記語言面世，用於在網際網路上顯示超文字。經過發展，html逐漸包含圖片和佈局設計功能。為了支援互動，

U3D學習004——核心類和程式碼執行

1、U3D核心類 2、變數只有public變數才可以顯示在inspector面板中，[serializeField]可以使private和protected變數顯示在inspector面板中。 3、核心類的生命週期

Java快取Ehcache-核心類和方法介紹及程式碼例項

Ehcache中核心類和方法 EhCache裡面有一個CacheManager型別，它負責管理cache。Cache裡面儲存著Element物件，Element必須是key-value對。Cache是實際物理實現的，在記憶體中或者磁碟。這些元件的邏輯表示就是下面即將要討論

基於輪廓的三維骨架重建方法和核心程式碼

背景（為什麼要這麼做？）：目前獲取三維資料的方法很多，比如：雙目視覺技術，深度相機等等。但是存在一個問題：資料量巨大！如果要做線上檢測，那速度很可能達不到要求。總思路：用二維的資料來表示三維資料（資料量從n3降到n2

讀書筆記：機器學習實戰(2)——章3的決策樹程式碼和個人理解與註釋

首先是對於決策樹的個人理解：通過尋找最大資訊增益（或最小資訊熵）的分類特徵，從部分已知類別的資料中提取分類規則的一種分類方法。資訊熵：其中，log底數為2，額，好吧，圖片我從百度截的。。這裡只解釋到它是一種資訊的期望值，深入的請看維基百科

yolo v2 損失函式原始碼（訓練核心程式碼）解讀和其實現原理

前提說明： 1, 關於 yolo 和 yolo v2 的詳細解釋請移步至如下兩個連結，或者直接看論文（我自己有想寫 yolo 的教程，但思前想後下面兩個連結中的文章質量實在是太好了_(:з」∠)_） yolo: https://zhuanlan.

讀書筆記：機器學習實戰(5)——章6的支援向量機程式碼和個人理解與註釋

時隔好久，前幾章部落格是去年看的時候寫的，後來只看書沒有繼續寫，再後來忙著專案，連書都很少看了。然後是忙完專案後的空白期的瘋狂看書，看了很多資料結構演算法，設計模式，程式碼整潔，專案可重構方面的書。年後重新把《機器學習實戰》後面的章節讀完，現在開始整理筆記。

商機總結和註釋字段增加到300字節

applet -1 .com oppo 分享 1-1 src ges col APPLET:Opportunity Form Applet - ChildBC：OpportunityLocate the Table:S_OPTY_UTXColumn:PAYBACK_PERI

Hibernate中的五大核心類和接口

session 回滾開啟事務核心避免事務提交 jdbc 一級緩存 Hibernate中的五大核心類和接口 Configuration(類) ：加載配置文件hibernate.cfg.xml文件中的配置信息，從而得到： 1).hibernate的

Id class 變量的賦值規範大駝峰和小駝峰代碼的格式和註釋的類型

id classde 變量的賦值規範大駝峰和小駝峰代碼的格式和註釋的類型Id classde 變量的賦值規範大駝峰和小駝峰代碼的格式和註釋的類型其實我認為這是非常重要的，只要是個開發人員都會寫代碼，但是做到這些的卻不容易，現在公司看中的是合作能力、溝通能力、和編碼風格，這也是開發人員

核心DOM和html DOM的區別

技術分享 row 標簽 node splay out mov ... tex DOM分為三部分：（1）核心DOM：遍歷DOM樹、添加新節點、刪除節點、修改節點（2）HTML DOM：以一種簡便的方法訪問DOM樹（3）XML DOM：準用於操作XML文檔核心D

【CAN總線】CAN代碼相關問題和註釋（1） ------------4.6更新

配置註釋一次保護 tex 擴展控制 xca 比較前言：　　在看如何用FPGA實現can_controller ,本來想把代碼上傳上來的，結果沒成功。如果有意向研究的，可以自己去下載 pudn就有。can tb有點問題，我也只是在剛剛研究，如果有意向可以和我交流

【CAN總線】CAN代碼相關問題和註釋（2）

讀取數據文件觸發 == mod tpc term urn i++ 本節內容提要：根據SJA1000的初始化程序，了解CAN的初始化過程以及對象。本來是想整理的，後來發現一整篇都很有用就直接轉載了。不過我在想，如果是直接用verilog實現can 是否有另外的方法來對

python基礎之用戶交互和註釋

增加可讀性 ttr pre 代碼塊 lex 多少 exceptio nts 一、什麽是用戶交互用戶交互就是應用程序可以接收用戶的外部輸入，並將輸入的數據作為程序後續運行的參數。二、為什麽要有用戶交互比如一個人去銀行取錢，他跟銀行櫃員說要取多少錢，櫃員會把

瘋彩招商主管846981 關於玩PK10的心得和感悟！

瘋彩瘋彩主管瘋彩招商彩票娛樂平臺瘋彩平臺瘋彩招商主管846981關於PK10是否能夠賺錢，相信肯定有許多人保持懷疑；那是因為你們輸了錢，所以你們對PK10有所懷疑；可是PK10既然存在，自然也就會有輸贏，有輸必然會有贏，如果沒人贏，相信PK10早沒人玩了；可是你們有些人往往

DQN玩FlappyBird的核心程式碼和註釋

相關推薦