RIDE: REWARDING IMPACT-DRIVEN EXPLORATION FOR PROCEDURALLY-GENERATED ENVIRONMENTS

阿新 • • 發佈：2021-10-26

發表時間：2020（ICLR 2020）
文章要點：這篇文章提出了一個新的intrinsic reward機制，Rewarding Impact-Driven Exploration (RIDE)，鼓勵agent採取使得狀態表徵變化大的動作，相較於之前的方法，這個方式在procedurally-generated environments這類很難訪問同一個狀態多次的環境上效果更好（這裡作者提出了兩類sparse reward的環境，singleton和procedurally-generated。Singleton指環境每次都一樣，不會因為不同episode而有區別，比如Montezuma's Revenge每次出生點位一樣，關卡也一樣。procedurally-generated就是環境是逐漸生成的，並且每次生成都不一樣）。同時作者說這個方法的intrinsic reward不會隨著訓練過程而減少，並且這種根據狀態表徵的差異來設計intrinsic reward的方式更偏向於agent的動作對環境起作用的目標，從而不會overfitting到一些無關特徵上（our intrinsic reward does not diminish during the course of training and it rewards the agent substantially more for interacting with objects that it can control）。
具體的，作者首先學一個state representation

然後根據這個representation學一個forward dynamics model和inverse dynamics model。前向模型根據\(\phi_t\)

和\(a_t\)預測下一個\(\phi_(t+1)\),

訓練的損失函式為

後向模型根據\(\phi_t\)和\(\phi_(t+1)\)來預測agent採取了什麼動作

訓練的損失函式為交叉熵損失

有了這個之後，intrinsic reward就根據相鄰兩個狀態的表徵的差異給出

其中\(N_{ep}\)是訪問次數，如果狀態空間是高維空間，就用episodic pseudo-counts代替。然後整個訓練的目標函式為

第一個損失是RL的損失，第二個是前向網路的損失，第三個是後向網路的損失。
總結：很自然的一個想法，可能做出來就是效果好吧。不過這些方法離真正解決sparse reward問題還很遠啊。這類問題確實太難了，任重道遠，加油啊大家。
疑問：

之前有paper說intrinsic reward要diminish才能保證收斂漸進無偏，然後這篇文章又說不diminish的intrinsic reward才好，這。。。

RIDE: REWARDING IMPACT-DRIVEN EXPLORATION FOR PROCEDURALLY-GENERATED ENVIRONMENTS

發表時間：2020（ICLR 2020）文章要點：這篇文章提出了一個新的intrinsic reward機制，Rewarding Impact-Driven Exploration (RIDE)，鼓勵agent採取使得狀態表徵變化大的動作，相較於之前的方法，這個方式在proce

Smooth Exploration for Robotic Reinforcement Learning

鄭重宣告：原文參見標題，如有侵權，請聯絡作者，將會撤銷釋出！ (Arxiv 2021)

Consensus-Driven Propagation in Massive Unlabeled Data for Face Recognition 人臉聚類

看論文前可先看下作者自己在知乎的總結： https://zhuanlan.zhihu.com/p/51806059 這篇論文簡稱CDP，利用監督方式訓練一個度量模型判別圖片對判別進而實現人臉聚類，使用聚類的人臉來訓練人臉識別模型

2020-Data-Driven Cybersecurity Knowledge Graph Construction for Industrial Control System Security

關於工業控制系統安全的資料驅動網路安全知識圖構建一、摘要　　工業控制系統(ICS)涉及許多關鍵行業，一旦受到攻擊，將造成重大損失。然而，網路安全領域傳統的被動防禦方法難以有效地處理日益複雜的威脅；知識圖

Generated Knowledge Prompting for Commonsense Reasoning

地址：https://arxiv.org/abs/2110.08387 儘管大型語言模型能夠在預訓練期間捕獲大量知識，但它們通常受益於整合外部知識庫，尤其是在常識推理任務上。

In finance terms, what is risk? How does risk impact investor behavior and shape the expected return an investor might have for a particular security?

Barquero-2022-BeLFusion Latent Diffusion for Behavior-Driven Human Motion Prediction

# BeLFusion: Latent Diffusion for Behavior-Driven Human Motion Prediction #paper 1. paper-info 1.1 Metadata

Xcode11 iOS for MAC 遇到的問題

需要系統MacOS 10.15，Xcode11，OC程式碼和Swift程式碼專案都行。 MacOS 10.15之後，Xcode11 可以將iOS app秒變Mac app，對iOS開發者又將是一波潮流，MacOS的生態更加繁榮。Mac OS和iOS 系統還是有許多不同之處，有不

TokuDB · 引擎特性 · HybridDB for MySQL高壓縮引擎TokuDB 揭祕

原文出處：阿里雲RDS-資料庫核心組 HybridDB for MySQL（原名petadata）是面向線上事務（OLTP）和線上分析（OLAP）混合場景的關係型資料庫。HybridDB採用一份資料儲存來進行OLTP和OLAP處理，解決了以往需要把一份

Test-Driven Development(TDD) in Go

TDD，也就是測試驅動開發(Test-Driven development)，是一種“測試先行”的程式設計方法論，其基本流程圍繞著測試->編碼（重構）->測試的迴圈展開。TDD的概念已不新鮮，但似乎並沒有得到大範圍的推廣應用，或許

解決mysql登入錯誤：'Access denied for user 'root'@'localhost'

首先是不知道怎麼忽然mysql用命令列，workbench都登入不了，都提示\'Access denied for user \'root\'@\'localhost\'。

ubuntu18.0.4安裝mysql並解決ERROR 1698 (28000): Access denied for user ''root''@''localhost''

前言最近學習linux,然後將win換成了ubuntu。之前安裝的mysql也不能用了，現在將在ubuntu18.0.4上安裝mysql並將碰到的問題記錄如下：

navicat 8 for mysql建庫的方法

開發網站，往往需要用資料庫儲存資料。我們該如何建立資料庫與建立資料表呢？方法其實很簡單，下面就由小編教你如何用Navicat for MySql建立資料庫的操作流程。

Navicat For MySQL的簡單使用教程

1.前提是必須先安裝好MySQL資料庫（Mac下安裝MySQL資料庫見前一篇） 2.安裝Navicat

MySQL資料庫安裝和Navicat for MySQL配合使用教程

MySQL是一個關係型資料庫管理系統，由瑞典MySQL AB 公司開發，目前屬於 Oracle 旗下公司。

Navicat for MySql視覺化匯入CSV檔案

本文為大家分享了Navicat for MySql視覺化匯入CSV檔案的具體程式碼，供大家參考，具體內容如下

Navicat for SQLite匯入csv中文資料的方法

本文為大家分享了Navicat for SQLite匯入csv中文資料的具體方法，供大家參考，具體內容如下

MySQL出現Waiting for table metadata lock的原因方法

MySQL在進行alter table等DDL操作時，有時會出現Waiting for table metadata lock的等待場景。而且，一旦alter table TableA的操作停滯在Waiting for table metadata lock的狀態，後續對TableA的任何操作（包括讀）都

win10下MySQL 8.0登入Access denied for user‘root’@‘localhost’ (using password: YES)問題的解決方法

近些時間在開始學MySQL，安裝挺順利的，按照網上現成的教程就能安裝成功。

mysql事務select for update及資料的一致性處理講解

MySQL中的事務，預設是自動提交的，即autocommit = 1；但是這樣的話，在某些情形中就會出現問題：比如：

RIDE: REWARDING IMPACT-DRIVEN EXPLORATION FOR PROCEDURALLY-GENERATED ENVIRONMENTS

相關推薦