2017-Learning to reinforcement learn

阿新 • • 發佈：2022-05-07

Key

元學習系統（監督+從屬）擴充套件於RL設定
LSTM用強化學習演算法進行訓練，可以使agent獲得一定的學習適應能力

解決的主要問題

DRL受限於特定的領域
DRL訓練需要大量的資料

作者參考了Hochreiter在2001年發表的Learning to Learn Using Gradient Descent論文的方法：（1）元學習系統由從屬系統和監督系統兩部分組成（2）迴圈網路可以在完全監督的環境下支援元學習

文章內容

Introduction

使用標準的深度RL技術來訓練遞迴神經網路，以使遞迴網路實現其自己的獨立RL過程
- 一個使用RL演算法訓練的系統，但它的遞迴動力學實現了另一個完全獨立的RL過程
- 在適當的情況下，二級學習的RL程式可以顯示出原始RL程式所缺乏的適應性和樣本效率
Methods
- 元學習結合神經網路（Hochreiter等人的相關方法）
- DEEP META-RL
  Meta-Learning的輸入變成RL設定
  - agent接收到的輸入指示了上一步的動作輸出和該動作所產生的獎勵（critical），而不是將目標輸出作為輔助輸入。
  - 同樣的獎勵資訊被平行地提供給一個DRL程式，該程式調整迴圈網路的權值。
    它的策略更新過程(包括該過程的有效學習率等特性)可能與調整網路權值所涉及的過程有顯著差異
- formalism
  - 一個適當結構的agent嵌入一個迴圈神經網路，通過與序列的互動來訓練MDP環境(也稱為任務)。
  - 在一個新的episode開始時，取樣一個新的MDP任務m ~ D和該任務的初始狀態，並重置agent的內部狀態(即，在其迴圈單位上的啟用模式)。然後，代理在此環境中針對一定數量的離散時間步長執行其動作選擇策略。在每一步t上，作為當前的整個歷史軌跡episode的的函式執行動作a。在當前發作期間，在MDP m中相互作用的agent的xtg(從episode開始，迴圈單元被重置)。訓練網路權重使所有步驟和片段的觀察獎勵總和最大化。
  - 訓練後，agent的策略是固定的(即權重是固定的，但由於環境的輸入和迴圈層的隱藏狀態，啟用是變化的)，並對一組mdp進行評估，這些mdp要麼來自相同的分佈D，要麼是對該分佈稍加修改(以測試代理的泛化能力)。內部狀態在任何新episode的評估開始時被重置。
  - 由於代理學習到的策略是依賴於歷史的(因為它使用了一個迴圈網路)，所以當暴露於任何新的MDP環境時，它能夠適應和部署一個策略，以優化該任務的回報
Experiments
- 研究問題
  - meta-RL是否符合完全成熟的RL，可以在exploration and exploitation tradeoff
  - meta-RL是否可以提高學習效率
- 實驗設定
  - 賭博機實驗
  - MARKOV DECISION PROBLEMS
Conclusion

Deep Meta-RL包含三個成分的組合:
(1)使用深度RL演算法訓練遞迴神經網路
(2)包括一系列相互關聯的任務的訓練集
(3)網路輸入，包括選擇的動作和在前一個時間點收到的獎勵
Meta-RL關鍵：產生了一種利用任務結構中的不變性的學習認知學習演算法

文章方法的優缺點

優點
- 元學習思想使得RL利用之前的經驗資訊
- 能夠快速適應新任務
缺點
- 基於上下文的，RL中在處理的時候需要一個完整episode
- 泛化性適用範圍是在眾多MDP具有某種相似性的時候

2017-Learning to reinforcement learn

Key 元學習系統（監督+從屬）擴充套件於RL設定 LSTM用強化學習演算法進行訓練，可以使agent獲得一定的學習適應能力

Learning to Combat Compounding-Error in Model-Based Reinforcement Learning

發表時間：2019（NeurIPS 2019 Deep Reinforcement Learning Workshop）文章要點：這篇文章想說model based方法裡面通常model都是imperfect的，就是這個model一般只在區域性是準確的，放到全域性上看誤差會越來越

lec-4-Introduction to Reinforcement Learning

模仿學習imitation learning與RL的不同模仿學習中需要有專家指導的資訊 RL不需要訪問專家資訊

[論文筆記 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data

[論文筆記 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data 摘要 Abstract貢獻 ContributionsModel Architecture(GP-based iterative learning)整個訓練過程分為兩個階段1. labeled

《AdaptSegNet：Learning to Adapt Structured Output Space for Semantic Segmentation》論文筆記

參考程式碼：AdaptSegNet 1. 概述導讀：這篇文章著力於解決模型未見過資料的適應性，一般來講模型對於與訓練集中資料類似的資料表現較好，但是對於未知場景的資料就表現較差了，這也是domain-adaptation需

論文筆記+模型實現TransNets: Learning to Transform for Recommendation

文章目錄摘要1. 介紹2. 提出的方法2.1 CNN處理文字 & 2.2 DeepCoNN模型2.3 DeepCoNN的一下侷限性2.4 TransNets模型2.5 TransNets模型的訓練2.6 設計決策和一些其他結構的選擇2.6.1 分步訓練 VS. 合併

Learning to Transfer Examples for Partial Domain Adaptation學習筆記

Learning to Transfer Examples for Partial Domain Adaptation學習筆記目錄Learning to Transfer Examples for Partial Domain Adaptation學習筆記tipAbstractIntroductionrelated workPartial Domain AdaptationE

細粒度相關 - Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks - 1 - 論文學習

Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks Abstract 我們為卷積神經網路引入了一個基於顯著性的扭曲（distortion）層，這有助於改善給定任務的輸入資料的空間取樣。我們

Why Learning to Code is So Damn Hard

程式設計大致可以分為四個階段第一階段(hand-holding honeymoon)：手把手關懷的蜜月期。能力和信心同步增長。初學者充滿了樂趣，很有成就感，能找到豐富的學習資料。第二階段(cliff of confusion)：充滿

顯著性目標檢測之Learning to Promote Saliency Detectors

Learning to Promote Saliency Detectors 舊文重發 https://github.com/lartpang/Machine-Deep-Learning 縮寫標註:

《Video Abnormal Event Detection by Learning to Complete Visual Cloze Tests》論文筆記

1. 摘要　　儘管深度神經網路(DNNs)在視訊異常檢測(VAD)方面取得了很大的進展，但現有的解決方案通常存在兩個問題：

《Cloze Test Helps: Effective Video Anomaly Detection via Learning to Complete Video Events》論文筆記

0. 摘要　　視訊異常檢測(VAD)作為視訊內容解釋的重要課題，通過深度神經網路(DNN)取得了豐碩的進展。然而，現有的方法通常遵循重建或幀預測程式。他們主要存在兩大問題：

Learning to Sample

Abstract 處理大型的點雲是一項很有挑戰性的任務，因此，我們將點雲取樣到一個合適的size去更方便的處理。

LEAP: Learning to Prescribe Effective and Safe Treatment Combinations for Multimorbidity

LEAP: Learning to Prescribe Effective and Safe Treatment Combinations for Multimorbidity Authors: Yutao Zhang, Robert Chen, Jie Tang, Walter F. Stewart, Jimeng Sun

L2M-GAN: Learning to Manipulate Latent Space Semantics for Facial Attribute Editing閱讀筆記

L2M-GAN: Learning to Manipulate Latent Space Semantics for Facial Attribute Editing 2021 CVPR　　L2M-GAN: Learning To Manipulate Latent Space Semantics for Facial Attribute Editing (thecvf.com)

《Learning to Incentivize Other Learning Agents》2020-NIPS

學會激勵其他學習智慧體總結：為了促進在一般和馬爾可夫遊戲中的多智慧體之間的合作，為每個智慧體配置一個獎勵函式用來直接向其他智慧體提供獎勵，並明確解釋接受該獎勵者自身行為會受到的影響。該獎勵函式會根據

【論文閱讀】End-to-End Model-Free Reinforcement Learning for Urban Driving Using Implicit Affordances

文章名：CVPR2020: End-to-End Model-Free Reinforcement Learning for Urban Driving Using Implicit Affordances

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

發表時間：2020（AAAI 2021）文章要點：這篇文章提出Propositional Logic Nets (PROLONETS)，通過建立決策樹的方式來初始化神經網路的結構和權重，從而將人類知識嵌入到神經網路中作為初始化warm start，然後進行強化

Introduction to Machine Learning

2019獨角獸企業重金招聘Python工程師標準>>> 1:Introduction To Machine Learning In data science, we\'re often trying to understand a process or system using observational data.

【論文筆記】Learn Spelling from Teachers: Transferring Knowledge from LM to Seq-to-Seq Speech Recognition

題目 Learn Spelling from Teachers: Transferring Knowledge from Language Models to Sequence-to-Sequence Speech Recognition

2017-Learning to reinforcement learn

Key

解決的主要問題

文章內容

Introduction

Methods

Experiments

Conclusion

文章方法的優缺點

相關推薦