MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION

阿新 • • 發佈：2022-02-12

發表時間：2018（ICLR 2018）
文章要點：這篇文章用ensemble的方式來度量model uncertainty，然後用來調整訓練，避免policy利用model訓練不充分（model bias）的地方進行學習，從而影響訓練效果（policy optimization tends to exploit regions where insufficient data is available to train the model, leading to catastrophic failures）。
具體的，就是訓練多個model，然後每次隨機選一個model來predict下一個狀態，避免policy在一個model上overfitting。以及用多個model來判斷更新的好壞，如果在小於70%的model上效果都不如之前的policy，就終止在model裡訓練，回到真實的環境裡面去收集資料，進行下一個迴圈。
總結：

也是比較早的一篇文章了，現在很多度量model uncertainty的方法都是各種ensemble。另外，文章提到預測state的差，而不是去直接預測下一個state，感覺以後可以試試。還有一些小trick，比如訓練model的時候分個驗證集來做early stopping，對state做normalization等等。
疑問：突然想到，有buffer的model free演算法是不是可以看做model based和model free的中間體。

MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION

發表時間：2018（ICLR 2018）文章要點：這篇文章用ensemble的方式來度量model uncertainty，然後用來調整訓練，避免policy利用model訓練不充分（model bias）的地方進行學習，從而影響訓練效果（policy optimizat

MOPO: Model-based Offline Policy Optimization

發表時間：2020（NeurIPS 2020）文章要點：目前主流的offline RL的方法都是model free的，這類方法通常需要將policy限制到data覆蓋的集合範圍裡（support），不能泛化到沒見過的狀態上。作者提出Model-based Offl

Proximal Policy Optimization (PPO)詳解

文章目錄 On-policy v.s. Off-policy將On-policy變為Off-policyPPO演算法/TRPO演算法PPO2總結

初識Proximal Policy Optimization (PPO)

什麼是PPO 是一種off-policy 的 policy gradient。 PPO enables multiple epochs of minibatch updates.

Flutter如何更便捷的json轉model

0x1 前言作為剛開始接觸flutter的iOS開發，json轉模型這部分一直是我非常頭疼的地方。現在網上能找到的方案一般有兩種

使用VSCode+PlantUML+C4-Model快速畫架構圖

使用VSCode+PlantUML+C4-Model快速畫架構圖關於C4-Model 最近在看C4-Model，它的理念很實用，架構圖要明確面向人群，根據面向人群的不同，產出四幅圖來描述一個系統或者一個架構。System Context --> Container

Influx Sql系列教程二：retention policy 儲存策略

retention policy這個東西相比較於傳統的關係型資料庫(比如mysql)而言，是一個比較新的東西，在將表之前，有必要來看一下儲存策略有什麼用，以及可以怎麼用

樹莓派（Raspberry Pi 4 Model B）編譯64位核心Kernel（64位系統）

樹莓派系統預設安裝的是ARM32位的系統，但是從樹莓派3開始是支援ARM64位系統的，官方既然不給64位系統，那隻好我們自己來編譯了。

Eureka 中的 region 和 Zone

背景像亞馬遜這種大型的跨境電商平臺，會有很多個機房。這時如果上線一個服務的話，我們希望一個機房內的服務優先呼叫同一個機房內的服務，當同一個機房的服務不可用的時候，再去呼叫其它機房的服務，以達到減少延時

Django2 連線MySQL及model測試例項分析

本文例項講述了Django2 連線MySQL及model測試。分享給大家供大家參考，具體如下：

pytorch檢視torch.Tensor和model是否在CUDA上的例項

今天訓練faster R-CNN時，發現之前跑的很好的程式（是指在執行程式過程中，顯示卡利用率能夠一直維持在70%以上），今天看的時候，顯示卡利用率很低，所以在想是不是我的訓練資料torch.Tensor或者模型model沒有載入到

django資料模型（Model）的欄位型別解析

欄位型別(Field types) 1、AutoField 它是一個根據 ID 自增長的 IntegerField 欄位。通常，你不必直接使用該欄位。如果你沒在別的欄位上指定主鍵，Django 就會自動新增主鍵欄位。

Python實現word2Vec model過程解析

這篇文章主要介紹了Python實現word2Vec model過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

解決django model修改新增欄位報錯的問題

關於django models中新增欄位的一個小節,記錄下 django的models中已經寫好了欄位,可是後面我又想在新增一些欄位,於是就在models中添加了欄位,發現報錯了

python自動生成model檔案過程詳解

生成方式 Python中想要自動生成 model檔案可以通過 sqlacodegen這個命令來生成對應的model檔案

Django框架model模型物件驗證實現方法分析

本文例項講述了Django框架model模型物件驗證實現方法。分享給大家供大家參考，具體如下：

flask/django 動態查詢表結構相同表名不同資料的Model實現方法

1.問題為了控制資料的增長，經常需要分表，資料庫中存在多張結構相同，表名相關的表，如：

Vue v-model元件封裝(類似彈窗元件)

v-model是vue的一個語法糖，限制在input和textarea等這些表單元素中，官網所給的例子也是僅限於表單元件

vue.js自定義元件實現v-model雙向資料繫結的示例程式碼

我們都清楚v-model其實就是vue的一個語法糖，用於在表單控制元件或者元件上建立雙向繫結。

pytorch 修改預訓練model例項

我就廢話不多說了，直接上程式碼吧！ class Net(nn.Module): def __init__(self,model): super(Net,self).__init__()