強化學習論文研讀（四）——Deep Reinforcement Learning with Double Q-Learning

阿新 • • 發佈：2021-02-17

技術標籤：論文研讀深度學習強化學習 python 演算法

double Q learning + DQN的合成演算法。

論文主要有5點貢獻：

一是DQN會對動作的價值過估計。

二是過估計是有害的。

三是double Q learning 可以減少過估計。通過評估網路和動作選擇網路解耦實現的。

四是提出了三層卷積+FC的Double DQN 演算法結構和引數更新公式。

五是證明了 Double DQN是有效的。

相比於DQN主要改進在一點：

看到裡邊的兩個Q中的θ是不一樣的。一個是target的net，一個是當前的網路，存在時間更新的前後順序，用於解耦合。

有價值的文章:

強化學習（十）Double DQN (DDQN)

理解:

配合nature中的target 網路使用，防止在估計局勢的使用使用一個網路，從而形成過估計。

Double DQN

DQN有一個顯著的問題，就是DQN估計的Q值往往會偏大。這是由於我們Q值是以下一個s'的Q值的最大值來估算的，但下一個state的Q值也是一個估算值，也依賴它的下一個state的Q值...，這就導致了Q值往往會有偏大的的情況出現。

們在同一個s'進行試探性出發，計算某個動作的Q值。然後和DQN的記過進行比較就可以得出上述結論。

這種欺上瞞下的做法，實在令人惱火。於是有人想到一個互相監察的想法。

這個思路也很直觀。如果只有一個Q網路，它不是經常吹牛嘛。那我就用兩個Q網路，因為兩個Q網路的引數有差別，所以對於同一個動作的評估也會有少許不同。我們選取評估出來較小的值來計算目標。這樣就能避免Q網路吹牛的情況發生了。

另外一種做法也需要用到兩個Q網路。Q1網路推薦能夠獲得最大Q值的動作；Q2網路計算這個動作在Q2網路中的Q值。

恰好，如果我們用上Fixed Q-targets，我們不就是有兩個Q網路了嗎？

所以你可以看到，這個優化在DQN上很容易實現。這就是doubleDQN和DQN的唯一的變化。

————Double DQN原理是什麼，怎樣實現？（附程式碼）

程式碼實現：

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import gym
import matplotlib.pyplot as plt
import copy
import os
import random
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"

# hyper-parameters
BATCH_SIZE = 128
LR = 0.01
GAMMA = 0.90
EPISILO = 0.9
MEMORY_CAPACITY = 2000
Q_NETWORK_ITERATION = 100

env = gym.make("CartPole-v0")
env = env.unwrapped
NUM_ACTIONS = env.action_space.n
NUM_STATES = env.observation_space.shape[0]
ENV_A_SHAPE = 0 if isinstance(env.action_space.sample(), int) else env.action_space.sample.shape

class Net(nn.Module):
    """docstring for Net"""
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(NUM_STATES, 50)
        self.fc1.weight.data.normal_(0,0.1)
        self.fc2 = nn.Linear(50,30)
        self.fc2.weight.data.normal_(0,0.1)
        self.out = nn.Linear(30,NUM_ACTIONS)
        self.out.weight.data.normal_(0,0.1)

    def forward(self,x):
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        x = F.relu(x)
        action_prob = self.out(x)
        return action_prob

class DQN():
    """docstring for DQN"""
    def __init__(self):
        super(DQN, self).__init__()
        self.eval_net, self.target_net = Net().cuda(), Net().cuda()

        self.learn_step_counter = 0
        self.memory_counter = 0
        self.memory = np.zeros((MEMORY_CAPACITY, NUM_STATES * 2 + 2))
        # why the NUM_STATE*2 +2
        # When we store the memory, we put the state, action, reward and next_state in the memory
        # here reward and action is a number, state is a ndarray
        self.optimizer = torch.optim.Adam(self.eval_net.parameters(), lr=LR)
        self.loss_func = nn.MSELoss()

    def choose_action(self, state):
        state = torch.unsqueeze(torch.FloatTensor(state), 0).cuda() # get a 1D array
        if np.random.randn() <= EPISILO:# greedy policy
            action_value = self.eval_net.forward(state)
            action = torch.max(action_value, 1)[1].cpu().data.numpy()
            action = action[0] if ENV_A_SHAPE == 0 else action.reshape(ENV_A_SHAPE)
        else: # random policy
            action = np.random.randint(0,NUM_ACTIONS)
            action = action if ENV_A_SHAPE ==0 else action.reshape(ENV_A_SHAPE)
        return action


    def store_transition(self, state, action, reward, next_state):
        transition = np.hstack((state, [action, reward], next_state))
        index = self.memory_counter % MEMORY_CAPACITY
        self.memory[index, :] = transition
        self.memory_counter += 1


    def learn(self):

        #update the parameters
        if self.learn_step_counter % Q_NETWORK_ITERATION ==0:
            self.target_net.load_state_dict(self.eval_net.state_dict())
        self.learn_step_counter+=1

        #sample batch from memory
        sample_index = np.random.choice(MEMORY_CAPACITY, BATCH_SIZE)
        batch_memory = self.memory[sample_index, :]
        batch_state = torch.FloatTensor(batch_memory[:, :NUM_STATES]).cuda()
        batch_action = torch.LongTensor(batch_memory[:, NUM_STATES:NUM_STATES+1].astype(int)).cuda()
        batch_reward = torch.FloatTensor(batch_memory[:, NUM_STATES+1:NUM_STATES+2]).cuda()
        batch_next_state = torch.FloatTensor(batch_memory[:,-NUM_STATES:]).cuda()

        #q_eval
        actions_value = self.eval_net.forward(batch_next_state)
        next_action = torch.unsqueeze(torch.max(actions_value, 1)[1], 1)
        eval_q = self.eval_net.forward(batch_state).gather(1, batch_action)
        next_q = self.target_net.forward(batch_next_state).gather(1, next_action)
        target_q = batch_reward + GAMMA * next_q
        loss = self.loss_func(eval_q, target_q)


        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()

def reward_func(env, x, x_dot, theta, theta_dot):
    r1 = (env.x_threshold - abs(x))/env.x_threshold - 0.5
    r2 = (env.theta_threshold_radians - abs(theta)) / env.theta_threshold_radians - 0.5
    reward = r1 + r2
    return reward

def main():

    dqn = DQN()
    episodes = 250
    print("Collecting Experience....")
    for i in range(episodes):
        state = env.reset()
        ep_reward = 0
        while True:
            env.render()
            action = dqn.choose_action(state)
            next_state, _, done, info = env.step(action)
            x, x_dot, theta, theta_dot = next_state
            reward = reward_func(env, x, x_dot, theta, theta_dot)

            dqn.store_transition(state, action, reward, next_state)
            ep_reward += reward

            if dqn.memory_counter >= MEMORY_CAPACITY:
                dqn.learn()
                if done:
                    print("episode: {} , the episode reward is ,{}".format(i, round(ep_reward, 3)))
            if done:
                break
            state = next_state


if __name__ == '__main__':
    main()

在實現中要注意，學習次數不能過小，也就是episodes 不能過小，否則如論如何都立不起來。

強化學習論文研讀（四）——Deep Reinforcement Learning with Double Q-Learning

技術標籤：論文研讀深度學習強化學習python演算法 double Q learning + DQN的合成演算法。

並行多工學習論文閱讀（四）：去偏lasso實現高效通訊

在分散式的環境中，已有的基於近端梯度的同步/非同步優化演算法需要多輪的通訊，時間開銷較大。這樣，如何實現機器間的有效通訊是我們必須要想辦法解決該問題。論文《distributed multitask learning》提出的演算法

Redis學習之路（四）之Redis叢集

Redis學習之路（四）之Redis叢集 Redis叢集 1、Redis Cluster簡介 Redis Cluster為Redis官方提供的一種分散式叢集解決方案。它支援線上節點增加和減少。叢集中的節點角色可能是主，也可能是從，但需要保證每個主

SpringCloud學習----陽哥（四）

一：Eureka註冊中心-------------p15 之前消費者比較少的時候，完全可以用前面講的例子restTemplate來完成消費到服務方的呼叫，但是當消費者比較多的時候。就需要Eureka。

從零開始學習 JD Chain（四）-使用穿透式檢索-Release

注意：要想使用穿透式檢索，必須首先部署好JDChain並且安裝啟動高階檢索應用。也就是首先要完成：“從零開始部署JDChain”和“從零開始安裝穿透式檢索”這兩篇文章的內容。

深度學習複習總覽（四）

深度模型優化與正則化：網路優化目的：經驗風險最小化。對於低維來說，目的是逃離區域性最優點；對於高維來說，則是逃離鞍點。梯度下降批量梯度下降、小批量梯度下降、隨機批量梯度下降。學習率流程：學

由淺入深學習 Android Binder（四）- ibinderForJavaObject 與 javaObjectForIBinder

技術標籤：【Android】androidbinderipc多程序程序概述前文已經解析了java層binder在native層的形式。

【超詳細】MySQL學習筆記彙總（四）

MySQL學習筆記彙總（四）五、進階3：排序查詢 select * from employees; select 查詢列表

Hive學習視訊心得（四）常用查詢函式

技術標籤：大資料——數倉工具Hivehive大資料資料倉庫hadoopmapreduce 文章目錄常用查詢函式1、空欄位賦值（NVL）2、CASE WHEN（相當於java的switch case）3、行轉列（聚合）4、列轉行5、視窗函式（開窗函式）

強化學習和ADP（上）

1 簡介每一個生物都與其環境相互作用，並利用這些相互作用來改善自身的活動，以生存和增長。我們稱基於與環境互動的動作修正為強化學習(RL)。這裡有很多型別的學習，包括監督學習，非監督學習等。強化學習是指一個

強化學習和ADP（下）

強化學習在連續時間系統問題上求解相比於離散時間系統而言更加的困難，因此發展受到了延遲。下面討論一下原因

程式設計日記：Java學習之路（四）

4.迴圈語句 4.1迴圈語句：當某個條件滿足時反覆執行一段程式碼塊，直到這個條件不滿足時跳出迴圈繼續執行後面的程式碼。

並行多工學習論文閱讀（一）：多工學習速覽

最近導師讓我做並行多工學習方面的工作，我開始著手閱讀這方面的論文並歸納一個大致的速覽。首先，我們看看什麼是多工學習，然後我們主要聚焦於基於正則化的多工學習方法（這也是目前學術界主要的並行物件），並在

JAVA學習過程記錄（四）

一：面向物件 Q：什麼是面向物件的開發方式？ A：採用面向物件的開發方式更符合人類的思維方式，人類就是以“物件”來認識世界的。所以面向物件更容易讓人接受。面向物件就是將現實世界分割成不同的單元，然後每一個

從機器學習學python（四） ——numpy矩陣基礎

從機器學習學python（四）——numpy矩陣基礎（原創內容，轉載請註明來源，謝謝）

【論文筆記（5）ECCV2020】Graph convolutional networks for learning with few clean and many noisy labels

Graph convolutional networks for learning with few clean and many noisy labels AbstractIntroductionRelated WrokProblem formulationCleaning with graph convolutional networksLearning a classi

OpenGL學習（四）-- 正面&背面剔除和深度測試

我的 OpenGL 專題學習目錄，希望和大家一起學習交流進步！ OpenGL學習（一）-- 術語瞭解

Docker容器學習（四）之Docker Compose

之前的文章中，我們使用docker run 命令來啟動一個容器，而作為真正的線上業務環境，我們服務肯定不止一個，也就說明容器肯定不止一個，而如果還是手動的一個個來啟動容器這未免會讓人頭皮發麻，幸好有Docker Com

深入學習Redis（四），基本型別【List】剖析

更多精彩文章，關注【ToBeTopJavaer】，更有數萬元精品vip資源免費等你來拿！！！

我是如何學習寫一個作業系統（四）：作業系統之系統呼叫

前言最近有點事情，馬上要開學了，所以學習的腳步就慢下來了。這一篇主要是來說作業系統的系統呼叫的，像C語言的printf深入到內部就是一個有關螢幕輸出的系統呼叫

強化學習論文研讀（四）——Deep Reinforcement Learning with Double Q-Learning

Double DQN

相關推薦