Reinforcement Learning (DQN) 中經驗池詳細解釋

阿新 • • 發佈：2020-12-17

一般DQN中的經驗池類，都類似於下面這段程式碼。

import random
from collections import namedtuple, deque

Transition = namedtuple('Transition', ('state', 'next_state', 'action', 'reward'))

# 經驗池類
class ReplayMemory(object):

    def __init__(self, capacity):
        self.capacity = capacity        # 容量
        self.memory = []
        self.position = 0

    # 將四元組壓入經驗池
    def push(self, *args):
        if len(self.memory) < self.capacity:
            self.memory.append(None)
        self.memory[self.position] = Transition(*args)
        self.position = (self.position + 1) % self.capacity

    # 從經驗池中隨機壓出一個四元組
    def sample(self, batch_size):
        transitions = random.sample(self.memory, batch_size)
        batch = Transition(*zip(*transitions))
        return batch

    def __len__(self):
        return len(self.memory)

對Python不太熟悉的我裡邊就有兩點比較迷惑，一個是namedtuple()方法，一個是sample方法的倒數第二行，為什麼要這樣處理。

第一點，namedtuple()是繼承自tuple的子類，namedtuple()方法能夠建立一個和tuple類似的物件，而且物件擁有可訪問的屬性。

第二點，也就是sample方法中的倒數第二行，這裡進行了一個轉換，將batch_size個四元組，轉換成，四個元祖，每個元祖一共有batch_size項，這裡放個程式解釋一下。

import random
from collections import namedtuple

if __name__ == '__main__':

    batch_size = 3
    Transition = namedtuple('Transition', ('state', 'next_state', 'action', 'reward'))

    a=Transition(state=1,next_state=2,action=3,reward=4)
    b=Transition(state=11,next_state=12,action=13,reward=14)
    c=Transition(state=21,next_state=22,action=23,reward=24)
    d=Transition(state=31,next_state=32,action=33,reward=34)
    e=Transition(state=41,next_state=42,action=43,reward=44)

    f=[a,b,c,d,e]

    # 從f中隨機抽取batch_size個數據
    t=random.sample(f,batch_size)

    print("隨機抽取的batch_size個四元祖是：")
    for i in range(batch_size):
        print(t[i])
    print()

    # 將t進行解壓操作
    print("將四元組進行解壓後是：")
    print(*zip(*t))
    print()

    # 將t進行解壓操作，再進行Transition轉換
    # 將batch_size個四元組，轉換成，四個元祖，每個元祖一共有batch_size項
    print("將四元組進行解壓後再進行Transition轉換後是：")
    batch=Transition(*zip(*t))
    print(batch)

輸出結果：

隨機抽取的batch_size個四元祖是：
Transition(state=21, next_state=22, action=23, reward=24)
Transition(state=11, next_state=12, action=13, reward=14)
Transition(state=41, next_state=42, action=43, reward=44)

將四元組進行解壓後是：
(21, 11, 41) (22, 12, 42) (23, 13, 43) (24, 14, 44)

將四元組進行解壓後再進行Transition轉換後是：
Transition(state=(21, 11, 41), next_state=(22, 12, 42), action=(23, 13, 43), reward=(24, 14, 44))

Reinforcement Learning (DQN) 中經驗池詳細解釋

技術標籤：python類大資料多型強化學習一般DQN中的經驗池類，都類似於下面這段程式碼。

python-opencv 影象捕捉多個不規則輪廓，與輪廓內接區域(圓/矩形)思路-持續更新編輯中(會附上詳細的思路解釋和圖片)

　　整體思路：　　1.原圖灰度化　　　　2.灰度圖擷取mask區域　　　　3.mask區域二值化　　

python中的all()函式和all()函式的區別(簡單理解+詳細解釋)

技術標籤：python筆記pythonallany 簡單理解： all()函式：全真為真，一假為假 any()函式：一真為真，全假為假

python中必要的名詞解釋

1.Django框架 Django是一個開放原始碼的Web應用框架，由Python寫成。它採用了MVC的框架模式，即模型（M）、檢視（V）和控制器（C）。相比其他Web框架，Django的優勢是：大而全，集成了ORM、模型繫結、模板引擎、快

Python中zip()函式的解釋和視覺化(例項詳解)

zip()的作用先看一下語法： zip(iter1 [,iter2 [...]]) —> zip object Python的內建help()模組提供了一個簡短但又有些令人困惑的解釋：

Mac下安裝配置Maven並在IDEA中配置的詳細教程

Mac下安裝配置Maven並在IDEA中配置下載Maven 下載地址注意看自己系統，mac/linux下載tar.gz，windows下載zip

vue中watch的詳細用法

在vue中，使用watch來響應資料的變化。watch的用法大致有三種。 1. 常用用法 <input type=\"text\" v-model=\"name\"/>

MySQL中EXPLAIN命令詳細解析

很多情況下我們需要知道某條SQL語句的效能，都會通過EXPLAIN命令來檢視查詢優化器是如何執行的。

nginx location配置詳細解釋

nginx location配置詳細解釋 server_name _; #不啟用域名指令-熱啟動 Nginx重新讀取配置的命令

kombu中 acquire函式中block引數的解釋

一直都想知道acquire中block引數的含義,今天查閱相關文件,如下別有一番洞天 Connection and Producer Pools

HikariCP連線池引數解釋

HikariCP連線池引數解釋 ## 資料庫配置 spring.datasource.type=com.zaxxer.hikari.HikariDataSource

leetcode 59 Spiral Matrix II 詳細解釋

leetcode 59 Spiral Matrix II 詳細解釋題目理解：給出一個正整數n, 以螺旋式的順序將1 ~ n2填充到方陣中。題目比較好理解，比較容易想到的方式就是直接根據座標填充。

GPIO口工作原理的超詳細解釋（附電路圖）

本文轉自：微信公眾號：電子工程專輯 STM32的GPIO介紹 STM32引腳說明 GPIO是通用輸入/輸出埠的簡稱，是STM32可控制的引腳。GPIO的引腳與外部硬體裝置連線，可實現與外部通訊、控制外部硬體或者採集外部硬體

詳細解釋垃圾回收器為什麼必須要停頓下？

美麗又短暫的假期居然這麼快就結束了，學習的小車輪繼續的滾起來吧垃圾回收器為什麼必須要停頓下？

python類(class)中引數self的解釋說明

python類(class)中引數self的簡單解釋 1.self只有在類的方法中才會有，其他函式或方法是不必帶self的。

資料庫的三正規化詳細解釋

1.定義三正規化是資料庫的規範化的內容，所謂的資料庫三正規化通俗的講就是設計資料庫表所應該遵守的一套規範，如果不遵守就會造成設計的資料庫不規範，出現數據庫欄位冗餘，資料的查詢，插入等操作等問題

C++之Lambda表示式詳細解釋

技術標籤：C++進階之戰c++lambda指標類 Lambda表示式 Lambda表示式格式 C++ 11 中的 Lambda 表示式用於定義並建立匿名的函式物件，以簡化程式設計工作。

ffmpeg引數中文詳細解釋

ffmpeg引數中文詳細解釋 a) 通用選項-L license-h 幫助-fromats 顯示可用的格式，編解碼的，協議的...-f fmt 強迫採用格式fmt-I filename 輸入檔案-y 覆蓋輸出檔案-t duration 設定紀錄時間 hh:mm:ss[.xxx]格式的記

linux中搭建phpmyadmin詳細流程

一.phpmyadmin部署流程 1.1介紹 phpMyAdmin是一個以PHP為基礎，以Web-Base方式架構在網站主機上的MySQL的資料庫管理工具，讓管理者可用Web介面管理MySQL資料庫。藉由此Web介面可以成為一個簡易方式輸入繁雜SQL語法的

supervisor中celery的詳細配置（僅供參考）

body { background: rgba(244, 244, 244, 1) } .title { width: 100%; background: rgba(92, 184, 92, 1); padding: 5px; font-size: 20px; margin: 5px }

Reinforcement Learning (DQN) 中經驗池詳細解釋

相關推薦