深度有趣 | 21 從FlappyBird到DQN

阿新 • • 發佈：2018-12-11

簡介

介紹強化學習（Reinforcement Learning，RL）的概念，並用DQN訓練一個會玩FlappyBird的模型

FlappyBird

如果沒有pygame則安裝

pip install pygame

執行flappy.py即可開始遊戲，如果出現按鍵無法控制的情況，用pythonw執行程式碼即可

pythonw flappy.py

FlappyBird遊戲截圖

原理

無監督學習沒有標籤，例如聚類；有監督學習有標籤，例如分類；而強化學習介於兩者之間，標籤是通過不斷嘗試積累的

RL包括幾個組成部分：

State（S）：環境的狀態，例如FlappyBird中的當前遊戲介面，可以用一張圖片來表示
Action（A）：每個S下可採取的行動集合，例如在FlappyBird中可選擇兩個A，“跳一下”或者“什麼都不做”

Reward（R）：在某個S下執行某個A之後得到的回報，例如在FlappyBird中，可以是成功跳過一根水管（正回報），撞到水管或者掉到地上（負回報）

這樣一來，遊戲的進行過程，無非是從一個初始S開始，執行A、得到R、進入下一個S，如此往復，直到進入一個終止S

$s_0,a_0,r_1,s_1,a_1,r_2,s_2,...,s_{n-1},a_{n-1},r_n,s_n$

定義一個函式，用來計算遊戲過程中回報的總和

$R =$

r1+r2+r3+...+rn R=r_1+r_2+r_3+...+r_n

R = r_{1} + r_{2} + r_{3} + . . . + r_{n}

以及從某個時刻開始之後的回報總和

$R_t=r_t+r_{t+1}+r_{t+2}+...+r_n$

但我們對未來每一步能獲取的回報並不是完全肯定的，所以不妨乘上一個0到1之間的衰減係數

$R_t=r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+...+\gamma^{n-t} r_n$

+γrt+1+γ2rt+2+...+γn−trn

這樣一來，可以得到相鄰兩步總回報之間的遞推關係

$R_t=r_t+\gamma R_{t+1}$

DQN是強化學習中的一種常用演算法，主要是引入了Q函式（Quality，價值函式），用於計算在某個S下執行某個A可以得到的最大總回報

$Q(s_t,a_t)=\max R_{t+1}$

有了Q函式之後，對於當前狀態S，只需要計算每一個A對應的Q值，然後選擇Q值最大的一個A，便是最優的行動策略（策略函式）

$\pi(s)=argmax_a Q(s,a)$

當Q函式收斂後，還可以得到Q函式的遞推公式

$Q(s_t,a_t)=r_t+\gamma \max Q(s_{t+1},a_{t+1})$

可以使用神經網路實現Q函式並訓練：

定義神經網路的結構並隨機初始化，輸入為S，輸出的個數和行動集合的大小一樣
每次以一定概率隨機選擇A，否則使用策略函式選擇最優的A，即隨機探索和有向策略相結合
維護一個記憶模組，用於積累遊戲過程中產生的資料
預熱期：不訓練，主要是為了讓記憶模組先積累一定資料
探索期：逐漸降低隨機概率，從隨機探索過渡到有向策略，並且每次從記憶模組中取出一些資料訓練模型
訓練期：固定隨機概率，進一步訓練模型，使得Q函式進一步收斂

實現

game中的程式碼對之前的flappy.py進行了簡化和修改，去掉了背景圖並固定角色和水管顏色，遊戲會自動開始，掛掉之後也會自動繼續，主要是便於模型自動進行和採集資料

載入庫

# -*- coding: utf-8 -*-

import tensorflow as tf
import numpy as np
import random
import cv2
import sys
sys.path.append('game/')
import wrapped_flappy_bird as fb
from collections import deque

定義一些引數

ACTIONS = 2
GAMMA = 0.99
OBSERVE = 10000
EXPLORE = 3000000
INITIAL_EPSILON = 0.1
FINAL_EPSILON = 0.0001
REPLAY_MEMORY = 50000
BATCH = 32
IMAGE_SIZE = 80

定義一些網路輸入和輔助函式，每一個S由連續的四幀遊戲截圖組成

S = tf.placeholder(dtype=tf.float32, shape=[None, IMAGE_SIZE, IMAGE_SIZE, 4], name='S')
A = tf.placeholder(dtype=tf.float32, shape=[None, ACTIONS], name='A')
Y = tf.placeholder(dtype=tf.float32, shape=[None], name='Y')
k_initializer = tf.truncated_normal_initializer(0, 0.01)
b_initializer = tf.constant_initializer(0.01)

def conv2d(inputs, kernel_size, filters, strides):
    return tf.layers.conv2d(inputs, kernel_size=kernel_size, filters=filters, strides=strides, padding='same', kernel_initializer=k_initializer, bias_initializer=b_initializer)

def max_pool(inputs):
    return tf.layers.max_pooling2d(inputs, pool_size=2, strides=2, padding='same')

def relu(inputs):
    return tf.nn.relu(inputs)

定義網路結構，典型的卷積、池化、全連線層結構

h0 = max_pool(relu(conv2d(S, 8, 32, 4)))
h0 = relu(conv2d(h0, 4, 64, 2))
h0 = relu(conv2d(h0, 3, 64, 1))
h0 = tf.contrib.layers.flatten(h0)
h0 = tf.layers.dense(h0, units=512, activation=tf.nn.relu, bias_initializer=b_initializer)

Q = tf.layers.dense(h0, units=ACTIONS, bias_initializer=b_initializer, name='Q')
Q_ = tf.reduce_sum(tf.multiply(Q, A), axis=1)
loss = tf.losses.mean_squared_error(Y, Q_)
optimizer = tf.train.AdamOptimizer(1e-6).minimize(loss)

用一個佇列實現記憶模組，開始遊戲，對於初始狀態選擇什麼都不做

game_state = fb.GameState()
D = deque()

do_nothing = np.zeros(ACTIONS)
do_nothing[0] = 1
img, reward, terminal = game_state.frame_step(do_nothing)
img = cv2.cvtColor(cv2.resize(img, (IMAGE_SIZE, IMAGE_SIZE)), cv2.COLOR_BGR2GRAY)
_, img = cv2.threshold(img, 1, 255, cv2.THRESH_BINARY)
S0 = np.stack((img, img, img, img), axis=2)

繼續進行遊戲並訓練模型

sess = tf.Session()
sess.run(tf.global_variables_initializer())

t = 0
success = 0
saver = tf.train.Saver()
epsilon = INITIAL_EPSILON
while True:
    if epsilon > FINAL_EPSILON and t > OBSERVE:
        epsilon = INITIAL_EPSILON - (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE * (t - OBSERVE)

    Qv = sess.run(Q, feed_dict={S: [S0]})[0]
    Av = np.zeros(ACTIONS)
    if np.random.random() <= epsilon:
        action_index = np.random.randint(ACTIONS)
    else:
        action_index = np.argmax(Qv) 
    Av[action_index] = 1

    img, reward, terminal = game_state.frame_step(Av)
    if reward == 1:
        success += 1
    img = cv2.cvtColor(cv2.resize(img, (IMAGE_SIZE, IMAGE_SIZE)), cv2.COLOR_BGR2GRAY)
    _, img = cv2.threshold(img, 1, 255, cv2.THRESH_BINARY)
    img = np.reshape(img, (IMAGE_SIZE, IMAGE_SIZE, 1))
    S1 = np.append(S0[:, :, 1:], img, axis=2)

    D.append((S0, Av, reward, S1, terminal))
    if len(D) > REPLAY_MEMORY:
        D.popleft()

    if t > OBSERVE:
        minibatch = random.sample(D, BATCH)
        S_batch = [d[0] for d in minibatch]
        A_batch = [d[1] for d in minibatch]
        R_batch = [d[2] for d in minibatch]
        S_batch_next = [d[3] for d in minibatch]
        T_batch = [d[4] for d in minibatch]

        Y_batch = []
        Q_batch_next = sess.run(Q, feed_dict={S: S_batch_next})
        for i in range(BATCH):
            if T_batch[i]:
                Y_batch.append(R_batch[i])
            else:
                Y_batch.append(R_batch[i] + GAMMA * np.max(Q_batch_next[i]))

        sess.run(optimizer, feed_dict={S: S_batch, A: A_batch, Y: Y_batch})

    S0 = S1
    t += 1

    if t > OBSERVE and t % 10000 == 0:
        saver.save(sess, './flappy_bird_dqn', global_step=t)

    if t <= OBSERVE:
        state = 'observe'
    elif t <= OBSERVE + EXPLORE:
        state = 'explore'
    else:
        state = 'train'
    print('Current Step %d Success %d State %s Epsilon %.6f Action %d Reward %f Q_MAX %f' % (t, success, state, epsilon, action_index, reward, np.max(Qv)))

執行dqn_flappy.py即可從零開始訓練模型，一開始角色各種亂跳，一根水管都跳不過去，但隨著訓練的進行，角色會通過學習獲得越來越穩定的表現

DQN模型執行結果

也可以直接使用以下程式碼執行訓練好的模型

# -*- coding: utf-8 -*-

import tensorflow as tf
import numpy as np
import cv2
import sys
sys.path.append('game/')
import wrapped_flappy_bird as fb

ACTIONS = 2
IMAGE_SIZE = 80

sess = tf.Session()
sess.run(tf.global_variables_initializer())

saver = tf.train.import_meta_graph('./flappy_bird_dqn-8500000.meta')
saver.restore(sess, tf.train.latest_checkpoint('./'))
graph = tf.get_default_graph()

S = graph.get_tensor_by_name('S:0')
Q = graph.get_tensor_by_name('Q/BiasAdd:0')

game_state = fb.GameState()

do_nothing = np.zeros(ACTIONS)
do_nothing[0] = 1
img, reward, terminal = game_state.frame_step(do_nothing)
img = cv2.cvtColor(cv2.resize(img, (IMAGE_SIZE, IMAGE_SIZE)), cv2.COLOR_BGR2GRAY)
_, img = cv2.threshold(img, 1, 255, cv2.THRESH_BINARY)
S0 = np.stack((img, img, img, img), axis=2)

while True:
    Qv = sess.run(Q, feed_dict={S: [S0]})[0]
    Av = np.zeros(ACTIONS) 
    Av[np.argmax(Qv)] = 1

    img, reward, terminal = game_state.frame_step(Av)
    img = cv2.cvtColor(cv2.resize(img, (IMAGE_SIZE, IMAGE_SIZE)), cv2.COLOR_BGR2GRAY)
    _, img = cv2.threshold(img, 1, 255, cv2.THRESH_BINARY)
    img = np.reshape(img, (IMAGE_SIZE, IMAGE_SIZE, 1))
    S0 = np.append(S0[:, :, 1:], img, axis=2)

參考

視訊講解課程

深度有趣 | 21 從FlappyBird到DQN

簡介介紹強化學習（Reinforcement Learning，RL）的概念，並用DQN訓練一個會玩FlappyBird的模型 FlappyBird 如果沒有pygame則安裝 pip install pygame 執行flappy.py即可開始遊戲，如果

深度學習基礎--從傅立葉分析角度解讀深度學習的泛化能力

從傅立葉分析角度解讀深度學習的泛化能力從論文《Training behavior of deep neural network in frequency domain》中可以得到以下結論：頻率原則可以粗糙地表述成：DNN 在擬合目標函式的過程中，有從低頻到高頻的先後順序。

LeetCode 給定一個 N 叉樹，找到其最大深度。最大深度是指從根節點到最遠葉子節點的最長路徑上的節點總數

/* // Definition for a Node. class Node { public: int val; vector<Node*> children; Node() {}

21. 從一道CTF靶機來學習mysql-udf提權

這次測試的靶機為 Raven: 2 這裡是CTF解題視訊地址：https://www.youtube.com/watch?v=KbUUn3SDqaU 此次靶機主要學習 PHPMailer 跟 mymql 的UDF提權。掃描網站目錄發現，還是wordpress搭建的，嘗試使用wp

深度有趣 | 04 影象風格遷移

簡介影象風格遷移是指，將一幅內容圖的內容，和一幅或多幅風格圖的風格融合在一起，從而生成一些有意思的圖片以下是將一些藝術作品的風格，遷移到一張內容圖之後的效果我們使用TensorFlow和Keras分別來實現影象風格遷移，主要用到深度學習中的卷積神經網路，

深度有趣 | 13 詞向量的訓練

簡介使用TensorFlow實現中文詞向量的訓練，並完成一些簡單的語義任務回顧在全棧課程中介紹過如何使用gensim訓練中文詞向量，即詞嵌入（Word Embedding）如果沒有gensim則安裝 pip install gensim 準備好語料，

深度有趣 | 16 令人拍案叫絕的WGAN

簡介在DCGAN的基礎上，介紹WGAN的原理和實現，並在LFW和CelebA兩個資料集上進一步實踐問題 GAN一直面臨以下問題和挑戰訓練困難，需要精心設計模型結構，並小心協調G和D的訓練程度 G和D的損失函式無法指示訓練過程，缺乏一個有意義的指標和生成圖

《深度學習 21天實戰Caffe》讀書筆記1

關於深度學習常見術語的通俗描述 “有監督”學習：上課時，我們跟著老師一步一步學習。 “無監督”學習：自主完成課後的作業。 “訓練資料集”：平時做的課後練習題。 “測試資料集”：考試時卷面的題目。關於訓練效果： “學霸”：訓練效果其他人好，對測試資料集的所有情況如

深度有趣 | 23 歌詞古詩自動生成

簡介使用RNN實現歌詞和古詩的自動生成 RNN多用於處理序列資料，通過學習資料上下文之間的關係，可以在給定若干個連續資料點的基礎上，預測下一個可能的資料點以下是最基礎的RNN公式，當然也可以使用LSTM（Long Short-Term Memory）或GRU

深度有趣 | 25 影象標題生成

簡介介紹基於注意力機制的影象標題生成模型的原理和實現原理輸入是一張圖片，輸出是一句對圖片進行描述的文字，這就是影象標題生成基本思路是先通過預訓練的影象分類模型，從某一個卷積層得到原始圖片的表示，或者稱為上下文contexts 例如從VGG19的conv5

深度有趣 | 28 自動語音識別

簡介介紹自動語音識別（Automatic Speech Recognition，ASR）的原理，並用WaveNet實現。原理 ASR的輸入是語音片段，輸出是對應的文字內容使用深度神經網路（Deep Neural Networks，DNN）實現ASR的一般流

《深度學習 21天實戰caffe》學習筆記

第二天深度學習的過往 2.1 傳統機器學習與深度學習方法傳統機器學習：人工設計特徵提取器–>求取原始資料的特徵向量–>分類器對輸入進行檢測和分類; 深度學習方法：不需要設計特徵提取器，實現端到端的學習。 2.2 表示學習到深度學習兩者關係：表示

深度有趣 | 19 pix2pix影象翻譯

簡介介紹基於CGAN的pix2pix模型，可用於實現多種配對影象翻譯任務原理配對影象翻譯包括很多應用場景，輸入和輸出都是圖片且尺寸相同街道標註，街道實景樓房標註，樓房實景黑白圖片，上色圖片衛星地圖，簡易地圖白天，夜晚邊緣，實物 pix2p

【深度學習】從fast.ai學到的十大技巧

那些允許新手在短短几周內實施世界級演算法的祕訣是什麼呢？在GPU驅動的喚醒中留下經驗豐富的深度學習從業者？請允許我用十個簡單的步驟告訴你。如果您已經在練習深度學習並希望快速瞭解fast.ai在課程中使用的強大技術，請繼續閱讀。如果你已經完成了fast.ai並想要回

如何基於spark做深度學習：從ML到keras、Elephas

http://blog.csdn.net/Richard_More/article/details/53215142 Elephas的網址：https://github.com/maxpumperla/elephas 分散式深層神經網路的Spark ML模型管線該筆

####好好好好好#####如何基於Spark做深度學習：從Mllib到keras，elephas

Spark ML model pipelines on Distributed Deep Neural NetsThis notebook describes how to build machine learning pipelines with Spark ML for

深度學習：從MLP到樸素的神經網路

文章目錄神經網路都幹了些什麼？分類的理解：從這個角度再看神經網路：神經網路實現：求∂L/∂w1,∂L/∂w2：實現程式碼：測試程式碼：神經網路都幹了些什麼？

深度有趣 | 26 Seq2Seq機器翻譯

簡介介紹如何使用Sequence to Sequence Learning（Seq2Seq）實現神經機器翻譯（Neural Machine Translation，NMT）原理之前我們通過序列標註模型實現了中文分詞，序列標註屬於Seq2Seq的一種這次

兩萬字深度長文！從原理到趨勢，解剖風口上的區塊鏈技術

前言：區塊鏈不是一項新技術，而是一個新的技術組合。其關鍵技術包括P2P動態組網、基於密碼學的共享

[深度學習大講堂]從NNVM看2016年深度學習框架發展趨勢

本文為微信公眾號[深度學習大講堂]特約稿，轉載請註明出處虛擬框架殺入從發現問題到解決問題半年前的這時候，暑假，我在SIAT MMLAB實習。看著同事一會兒跑Torch，一會兒跑MXNet，一會兒跑Theano。 SIAT的伺服器一般是不給sudo許可權的，我看著同事掙扎在編譯這一坨框架的

深度有趣 | 21 從FlappyBird到DQN

簡介

FlappyBird

原理

實現

參考

視訊講解課程

相關推薦