Offline Evaluation of Online Reinforcement Learning Algorithms
發表時間:2016(AAAI2016)
文章要點:通常大家做offline評估的時候都是去評估一個訓好的fixed的策略,這篇文章就說我想在offline的setting 下去評估一個演算法好不好。根據這個出發點,大致思路是先根據收集的data去弄一個evaluator出來,然後RL演算法去和這個evaluator互動,互動的過程既是policy更新的過程,也是評估的過程。文章一共提出了三個演算法,第一個就是直接取樣動作,然後和evaluator互動並更新。第二個是用rejection sampling來修正估計,然後用接收的樣本來更新policy。第三個是在episode上做rejection sampling,而不是在單個樣本上。
總結:
疑問:其實我是不太明白這個paper的點在哪,不清楚這個evaluation能用到哪。而且實驗部分的比較是比哪個evaluation的方式更準嗎?但是好像也沒提在哪個RL演算法上比的,只說了evaluation的比較物件是model based approach。搞不懂呀,罷了罷了。
相關推薦
Offline Evaluation of Online Reinforcement Learning Algorithms
發表時間:2016(AAAI2016) 文章要點:通常大家做offline評估的時候都是去評估一個訓好的fixed的策略,這篇文章就說我想在offline的setting 下去評估一個演算法好不好。根據這個出發點,大致思路是先根據收集的d
Evaluating the Performance of Reinforcement Learning Algorithms
發表時間:2020(ICML 2020) 文章要點:文章指出RL復現難的原因在於評價指標不一致。作者提出評估指標應該滿足四點:1. Scientific,主要說你這個指標提供的資訊要告訴別人針對某個具體的問題或假設,得出了什麼結
Online and Offline Reinforcement Learning by Planning with a Learned Model
發表時間:2021 文章要點:文章接著muzero做的,當時muzero裡面提出了一個MuZero Reanalyze(Reanalyse)的方式,這篇文章提出的MuZero Unplugged演算法其實就是把MuZero Reanalyse用到offline RL裡面。作者想說的
HypoML: Visual Analysis for Hypothesis-based Evaluation of Machine Learning Models
論文傳送門 作者 香港科技大學 Qianwen WangHuamin Qu 牛津大學 William AlexanderJack PeggMin Chen
ON THE ROLE OF PLANNING IN MODEL-BASED DEEP REINFORCEMENT LEARNING
發表時間:2021(ICLR 2021) 文章要點:這篇文章想要分析model-based reinforcement learning (MBRL)裡面各個部分的作用。文章以muzero為基礎,回答了三個問題
windows伺服器新增磁碟後,提示The disk is offline because of policy set by an administrator的解決辦法
作業系統:Windows Server 2008 R2 Enterprise 事件:外部新增兩塊磁碟,擴充套件到E盤(動態分割槽)
【論文精讀】TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task
這篇文章是ACL2020上的文章,來德國研究中心的Christoph Alt。 文章主要研究的是Tacred的資料集合中的Dev和Test集的標註錯誤,並且做了標註錯誤型別的分組,做了對比試驗驗證這些不同的錯誤原因對四個對比模
Reinforcement Learning (DQN) 中經驗池詳細解釋
技術標籤:python類大資料多型強化學習 一般DQN中的經驗池類,都類似於下面這段程式碼。
論文記載: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks
強化學習論文記載 論文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 車輛網路交通訊號燈控制的深度強化學習 )---年份:2018.3
MFMARL(Mean Field Multi-Agent Reinforcement Learning)實現
Mean Field Multi-Agent Reinforcement Learning(MFMARL)是倫敦大學學院(UCL)計算機科學系教授汪軍提出的一個多智慧體強化學習演算法。主要致力於極大規模的多智慧體強化學習問題,解決大規模智慧體之間的互動及
Sample pipeline for text feature extraction and evaluation of sklearn
Sample pipeline for text feature extraction and evaluation https://scikit-learn.org/stable/auto_examples/model_selection/grid_search_text_feature_extraction.html#sphx-glr-auto-examples-model-selection
強化學習論文研讀(四)——Deep Reinforcement Learning with Double Q-Learning
技術標籤:論文研讀深度學習強化學習python演算法 double Q learning + DQN的合成演算法。
讀論文--Characterizing Attacks on Deep Reinforcement Learning
paper:https://arxiv.org/abs/1907.09470 〇、摘要 DRL在各種應用中取得了巨大的成功,然而最近研究表明,機器學習模型很容易受到對抗性攻擊。一方面,可以通過給觀測值新增擾動,另一方面,也是更具實操性的攻擊方
ABB AC 900F學習筆記81:8.4 Offline functions of the display unit-41
繼續學習 8.4 Offline functions of the display unit 顯示單元的離線功能 The following information refers to functions that can only be performed offline.For this reason, the controller must be in Boot
Detecting Rewards Deterioration in Episodic Reinforcement Learning
發表時間:2021(ICML 2021) 文章要點:文章想說,我們訓好一個policy之後,在真正用他的時候需要考慮安全性和可靠性(RL tasks is the safety and reliability of the system)。所以我們就需要一個方法來快速檢
Decoupling Value and Policy for Generalization in Reinforcement Learning
發表時間:2021(ICML2021) 文章要點:這篇文章想說,通常在訓練PG這類演算法特別是影象作為輸入的任務的時候,主流的做法是policy和value用一個網路表徵,沒有分開。這會導致policy overfitting,因為學value比學
Game Theory and Multi-agent Reinforcement Learning筆記 上
一、引言 多智慧體強化學習的標準模型: 多智慧體產生動作a1,a2.....an聯合作用於環境,環境返回當前的狀態st和獎勵rt。智慧體接受到系統的反饋st和ri,根據反饋資訊選擇下一步的策略。
Context-aware Dynamics Model for Generalization in Model-Based Reinforcement Learning
發表時間:2020(ICML 2020) 文章要點:這篇文章想說model based方法在data efficiency和planning方面都具有天然優勢,但是model的泛化性通常是個問題。這篇文章提出學一個context相關的latent vector,然後用mod
Explainable Reinforcement Learning Through a Causal Lens
發表時間:2019(AAAI 2020) 文章要點:這篇文章通過構建一個圖結構,來解釋為啥agent要做/不做某個動作。具體來說就是先把某個問題給抽象成一個圖結構,定義狀態動作回報等關鍵資訊的節點和邊,然後在訓練RL的時
Improving Generalization in Reinforcement Learning with Mixture Regularization
發表時間:2020(NeurIPS 2020) 文章要點:這篇文章提出了一個叫mixreg的方法來提高agent泛化性。大致方法就是說用多個環境訓練,並且對環境做插值,這樣學到的策略就會更平滑,泛化性就更好。具體的,我有兩個狀