初識Proximal Policy Optimization (PPO)

阿新 • • 發佈：2021-12-22

什麼是PPO

是一種off-policy 的 policy gradient。
PPO enables multiple epochs of minibatch updates.

Importance Sampling

- 可以在q的distribution裡sample data，不用直接從p裡sample data。
- 但是得乘上一個weight，這個weight就是$\frac{p(x)}{q(x)}$
Issue：
- Mean一樣但是Variance不一定是一樣的。
- 當$\frac{p(x)}{q(x)}$比較大的時候，兩個的方差會差很多。
- 如果sample的次數不夠多，那麼Mean和Variance可能都會差很多。

On-policy to Off-policy

- 上面是On-policy，下面是Off-policy。
- 主要是要用紅框裡的weight去做修正。
  - trajectory分別在兩個distribution中出現的概率。
Gradient for Update：
- 實際上得到的A，應該是$\theta'$的，因為在$\theta'$中sample。
- $\frac{p_{\theta}(s_t)}{p_{\theta'}(s_t)}$：很難算，而且兩個應該要比較近似，所以刪去這一項。
- 利用上面那個式子可以得到似然函式。HOW?

Add Constraint

避免兩個distribution差太多，加constraint。

K-L Divergence: KL散度，量化兩種概率分佈之間差異的方式。
- $D_{KL}(p||q)=\sum_{i=1}^Np(x_i)\cdot log \frac{p(x_i)}{q(x_i)}$

TRPO and PPO

TRPO是PPO的前身。
- 用KL divergence作為一個penalty，而不是像TRPO那樣用constraint，希望減小KL散度，希望學出來的兩個不要太不一樣。
- TRPO和PPO只是KL散度放的地方不一樣。
- TRPO和PPO可能效果差不多，但是PPO在實操的時候更加容易。
這裡KL散度不是引數上的舉例，而是behavior上的距離。
- 給同個state的時候，output action distribution的差距。

PPO Algorithm

PPO1演算法

Adaptive KL Penalty Coefficient：KL Penalty是可以動態調整的，你自己先設定一個你能接受的KL最小值和最大值。
- KL大於最大值，就增加β。
- KL小於最小值，就減小β。

PPO2演算法

PPO1使用KL散度，PPO2就不用KL散度了。
Clip：

Pseudo Code

Reference

李巨集毅的2021春機器學習課程視訊
Proximal Policy Optimization Algorithms：http://arxiv.org/abs/1707.06347

初識Proximal Policy Optimization (PPO)

什麼是PPO 是一種off-policy 的 policy gradient。 PPO enables multiple epochs of minibatch updates.

Proximal Policy Optimization (PPO)詳解

文章目錄 On-policy v.s. Off-policy將On-policy變為Off-policyPPO演算法/TRPO演算法PPO2總結

MOPO: Model-based Offline Policy Optimization

發表時間：2020（NeurIPS 2020）文章要點：目前主流的offline RL的方法都是model free的，這類方法通常需要將policy限制到data覆蓋的集合範圍裡（support），不能泛化到沒見過的狀態上。作者提出Model-based Offl

MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION

發表時間：2018（ICLR 2018）文章要點：這篇文章用ensemble的方式來度量model uncertainty，然後用來調整訓練，避免policy利用model訓練不充分（model bias）的地方進行學習，從而影響訓練效果（policy optimizat

Hbase初識

簡介資料模型相關資料庫典型應用優勢劣勢 key-value Redis 快取快速查詢儲存資料缺乏結構化

GLSL初識

什麼是GLSL？ GLSL 全稱為 OpenGL Shading Language ，是用來在OpenGL中編寫著色器程式的語言。用GLSL編寫的著色器程式是在圖形卡的GPU （Graphic Processor Unit圖形處理單元）上執行的，代替了固定的

iOS MDM詳解（1）— 初識和深入

關於MDM分為以下幾個步驟操作來介紹： iOS MDM詳解（1）— 初識和深入 https://juejin.im/post/5da9113d5188250ca5554d31

iOS逆向學習之四（初識Mach-O）

什麼是Mach-O檔案？ Mach-O是Mach object的縮寫，是Mac\\iOS上用來儲存程式、庫的標準格式

初識MinBox Logging

I. MinBox Logging 是什麼？ 1. 採集端 & 服務端 MinBox Logging是由minbox-projects開源組織推出的一款零侵入分散式鏈路日誌元件，可用於微服務、RPC、單體應用使用。

C++ 深入淺出工廠模式（初識篇）

初識工廠模式我們先看工廠模式的介紹這種型別的設計模式屬於建立型模式，它提供了一種建立物件的最佳方式。

初識aiohttp非同步框架之服務端用法

typora-copy-images-to: ipic [TOC] 配置環境首先檢查你的python版本： $ python3 -V Python 3.6.3

從零開始的高併發（九）--- 初識dubbo

前言前情概要上一篇我們簡單實現了一個自己的RPC框架，主要依託我們上兩篇所提到的這個RPC的流程分析

初識BFF架構設計

BFF是（Backends For Frontends）單詞的縮寫，主要是用於服務前端的後臺應用程式，來解決多訪問終端業務耦合問題。

「Go學習筆記」1.初識Go

前言由於在公司廣泛使用Docker的大環境下，突然對它的程式語言（Go）瞭解下。並且感覺現在Go語言的應用也是越來越廣泛，很多網際網路大廠都在使用，目前利用業餘時間來學習下，主流還是Java，學明白以後可能考慮轉哦

RabbitMQ(一) -- 初識RabbitMQ

一：RabbitMQ簡介 RabbitMQ佇列基於AMQP協議使用Erlang語言開發實現，支援多客戶端型別如Java、Ruby、Go、PHP等。其餘比較流行的訊息佇列中介軟體，相對的還有RocketMQ、ActiveMQ、Kafka等等。後續需要測試RabbitMQ，

初識網路程式設計NIO實現多人聊天室

New I/O 回顧BIO程式設計模型服務端對於每個到達的客戶端都重新開啟一個執行緒專門處理它們之間的互動。

初識PHP會話

前言最近在學習Laravel 這套框架，發現對PHP的會話不是很瞭解，於是乎看了PHP官網手冊，也看了網的SESSION視訊教程，看完後總覺得缺點什麼，咦~，缺點在掘金上寫篇讀書筆記，嘮叨嘮叨，也可以檢驗一下自己學習的

Spring入門之初識IoC和AOP

Bean 配置配置好的bean可以直接通過spring的上下文獲取。而配置只用告訴spring，一個xml檔案的路徑，spring就會基於這個xml生成一個對應的context物件。

深入JVM核心之 —— 初識JVM

JVM的概念 jvm是Java Virtual Machine 的簡稱意味Java虛擬機器器，指通過軟體模擬的具有完整硬體系統功能的、執行在一個完全隔離環境中的完整計算機系統

Influx Sql系列教程二：retention policy 儲存策略

retention policy這個東西相比較於傳統的關係型資料庫(比如mysql)而言，是一個比較新的東西，在將表之前，有必要來看一下儲存策略有什麼用，以及可以怎麼用

初識Proximal Policy Optimization (PPO)

什麼是PPO

Importance Sampling

On-policy to Off-policy

Add Constraint

TRPO and PPO

PPO Algorithm

PPO1演算法

PPO2演算法

Pseudo Code

Reference

相關推薦