lec-1-Deep Reinforcement Learning, Decision Making, and Control

阿新 • • 發佈：2022-05-08

What is RL

基於學習的決策的數學形式
從經驗中學習決策和控制的方法

Why should we study this now

深度神經網路特徵方法
強化學習的提升
計算能力的提升

我們還需要解決哪些其他問題才能實現現實世界的順序決策?

1.如何學習

Learning from reward

基本的強化學習處理的是最大化獎勵，這並不是影響順序決策的唯一問題!

更高階的方法．

1.從示例example中學習獎勵函式(反向強化學習)
2.領域間的知識轉移(遷移學習、元學習)
3.學習預測並利用預測來行動

2.other forms of supervision

①Learning from demonstrations（從演示中學習）

直接複製觀察到的行為
從觀察到的行為推斷獎勵(反向強化學習)

②Learning from observing the world（從觀察世界中學習）

學會預測
無監督學習

③Learning from other tasks（從其他任務中學習）

轉移學習
元學習：學會學習

為什麼需要DRL

深度Deep可以處理複雜的感官輸入，也可以計算非常複雜的函式
強化學習RL可以選擇複雜的行為

DRL目前取得well的方面

在簡單、已知的規則所控制的領域獲得高度的熟練程度
在有足夠經驗的情況下，使用raw生圖輸入能夠學習簡單的技能
從模仿足夠多的人為專家行為中學習

挑戰

人類的學習速度非常快，而深度RL方法通常很慢

人類可以重複使用過去的知識，而深度學習中的遷移學習是一個有待解決的問題
不清楚獎勵功能是什麼
不清楚預測的作用是什麼

lec-1-Deep Reinforcement Learning, Decision Making, and Control

What is RL 基於學習的決策的數學形式從經驗中學習決策和控制的方法 Why should we study this now

TREEQN AND ATREEC: DIFFERENTIABLE TREE-STRUCTURED MODELS FOR DEEP REINFORCEMENT LEARNING

發表時間：2018（ICLR 2018）文章要點：這篇文章設計了特別的網路結構，將樹結構嵌入到神經網路中，實現了look-ahead tree的online planning，將model free和online planning結合起來，並提出了TreeQN和ATreeC演算法

論文記載： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks

強化學習論文記載論文名： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks （車輛網路交通訊號燈控制的深度強化學習）---年份：2018.3

強化學習論文研讀（四）——Deep Reinforcement Learning with Double Q-Learning

技術標籤：論文研讀深度學習強化學習python演算法 double Q learning + DQN的合成演算法。

讀論文--Characterizing Attacks on Deep Reinforcement Learning

paper：https://arxiv.org/abs/1907.09470 〇、摘要 DRL在各種應用中取得了巨大的成功，然而最近研究表明，機器學習模型很容易受到對抗性攻擊。一方面，可以通過給觀測值新增擾動，另一方面，也是更具實操性的攻擊方

REPAINT: Knowledge Transfer in Deep Reinforcement Learning

發表時間：2021（ICML 2021）文章要點：這篇文章提出了一個叫REPresentation And INstance Transfer (REPAINT)的演算法來做RL裡的知識遷移。主要方法就是representation transfer和instance transfer。這個repres

ON THE ROLE OF PLANNING IN MODEL-BASED DEEP REINFORCEMENT LEARNING

發表時間：2021（ICLR 2021）文章要點：這篇文章想要分析model-based reinforcement learning (MBRL)裡面各個部分的作用。文章以muzero為基礎，回答了三個問題

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

發表時間：2018（ICRA 2018）文章要點：這篇文章提出了一個叫model-based and model-free (Mb-Mf)的演算法，先用model based的方法訓一個policy，再用model free的方法來fine tune。具體的，先學一個model，然後用pl

Model-free Deep Reinforcement Learning for Urban Autonomous Driving

鄭重宣告：原文參見標題，如有侵權，請聯絡作者，將會撤銷釋出！ 2019 IEEE INTELLIGENT TRANSPORTATION SYSTEMS CONFERENCE (ITSC), (2019): 2765-2771

論文閱讀筆記《Deep Active Learning for Civil Infrastructure Defect Detection and Classification》

小樣本學習&元學習經典論文整理||持續更新核心思想本文提出一種基於主動學習的民用設施缺陷檢測方法，其思路主要是考慮到在樣本較少的情況下，訓練得到的網路可能不能很好的對各種型別的缺陷都進

Online and Offline Reinforcement Learning by Planning with a Learned Model

發表時間：2021 文章要點：文章接著muzero做的，當時muzero裡面提出了一個MuZero Reanalyze（Reanalyse）的方式，這篇文章提出的MuZero Unplugged演算法其實就是把MuZero Reanalyse用到offline RL裡面。作者想說的

Decoupling Value and Policy for Generalization in Reinforcement Learning

發表時間：2021（ICML2021）文章要點：這篇文章想說，通常在訓練PG這類演算法特別是影象作為輸入的任務的時候，主流的做法是policy和value用一個網路表徵，沒有分開。這會導致policy overfitting，因為學value比學

Game Theory and Multi-agent Reinforcement Learning筆記上

一、引言多智慧體強化學習的標準模型：多智慧體產生動作a1，a2.....an聯合作用於環境，環境返回當前的狀態st和獎勵rt。智慧體接受到系統的反饋st和ri，根據反饋資訊選擇下一步的策略。

論文解讀：COLING-2020(ccf-b)-Answer-driven Deep Question Generation based on Reinforcement Learning

目錄1，問題2，創新1 encoder1.1 Word encoder1.2 Graph Encoder2 Decoder2.1 應答感知初始化模組Answer-Aware Initialization Module2.2 語義豐富的融合注意力Semantic-Rich Fusion Attention2.3 複製機制和 Maxou

Risk-Aware and Multi-Objective Decision Making with Distributional Monte Carlo Tree Search

發表時間：2021 （AAMAS 2021 extended abstract）文章要點：這篇文章想說通常RL都是去最大化累計回報，這個值通常都是標量，標量反映出來的資訊肯定就沒有分佈多。這篇文章就在risk-aware and multi-objective的

Search on the Replay Buffer: Bridging Planning and Reinforcement Learning

發表時間：2019（NeurIPS 2019）文章要點：這篇文章結合planning和強化學習來解決複雜任務，主要思路是通過強化學習（Goal-conditioned RL）的方式構建一個圖結構（graph），圖裡的節點就包括起始位置，目標位置以

Reinforcement Learning, Spike-Time-Dependent Plasticity, and the BCM Rule

鄭重宣告：原文參見標題，如有侵權，請聯絡作者，將會撤銷釋出！ Neural Computation, (2007): 2245-2279

lec-4-Introduction to Reinforcement Learning

模仿學習imitation learning與RL的不同模仿學習中需要有專家指導的資訊 RL不需要訪問專家資訊

Federated Learning for Vision-and-Language Grounding Problems

轉載自此處文章背景這篇文章的背景是這樣的，首先我的每個客戶端輸入的都是影象，這些影象可以是不同型別的，作者在實驗中是用了兩個不同的資料集來表示這一點。其次是每個客戶端的任務也可以是不同的，比

Batch-Constrained deep Q- Learning(BCQ)

論文全稱：Off-Policy Deep Reinforcement Learning Without Exploration (Scott Fujimoto, David Meger, Doina Precup)

lec-1-Deep Reinforcement Learning, Decision Making, and Control

What is RL

Why should we study this now

我們還需要解決哪些其他問題才能實現現實世界的順序決策?

1.如何學習

Learning from reward

更高階的方法．

2.other forms of supervision

①Learning from demonstrations（從演示中學習）

②Learning from observing the world（從觀察世界中學習）

③Learning from other tasks（從其他任務中學習）

為什麼需要DRL

DRL目前取得well的方面

挑戰

相關推薦