強化學習(David Silver)4：免模型學習

阿新 • • 發佈：2017-08-13

叠代 ack 方差自舉組合 a* 最小二乘求和效率

0、為什麽免模型學習？

PS：課程中叠代的值是值函數；周誌華老師的西瓜書中叠代的是狀態值函數；課程中叠代的是狀態-動作值函數

1、蒙特卡洛方法：直接通過采樣求和（v(s) = S(s)/n(s)，其中S(s) = S(s) + G(t)，G(t)=r(t+1)+r(t+2)+...）

1.1、蒙特卡洛增量計算方法(v(s) = v(s) + a*(G(t)))

2、TD算法 (v(s) =)

3、MC和TD的比較

1)TD在線實時學習；MC只能批量學習

2)TD不要完整的序列，不需要知道完整的結果；MC相反

3)TD計算工程中，用部分數據估計V，是有偏的；return(MC)公式是無偏的；return(MC)隨機性強，方差大；TD隨機性弱，方差小

4)MC對初始值不敏感；對於函數近似也會收斂；TD對初始值敏感，對函數近似未必收斂

5)TD效率高，收斂快；MC收斂性好

6)MC向著最小二乘收斂；TD向MDP收斂

7)TD探索馬爾科夫性，在馬爾科夫環境更有效；MC不探索馬爾科夫性，在非馬爾科夫環境更有效

4、DP/MC/TD的比較

1)自舉：MC不自舉；DP/TD自舉（自舉：不以真實的最終反饋為目標，而是以間接的中間結果為目標）

2)采樣：MC/TD采樣；DP不采樣

5、統一討論三種方法

從是否自舉和backup數考慮：

1)只使用sample backup值，自舉，是TD

2)只使用sample backup值，不自舉，是MC

3)使用full backup值，自舉，是DP

4)使用full backup值，不自舉，是窮舉搜索

6、TD(n)是TD和MC的融合：TD(0)是n=1，向前看一步；TD(無窮)是看到結束

7、TD(lambda)是TD(0)/TD(1)/TD(2)的加權組合；這樣TD算法會更加魯棒

8、TD(lambda)的後向算法和資格跡

強化學習(David Silver)4：免模型學習

叠代 ack 方差自舉組合 a* 最小二乘求和效率 0、為什麽免模型學習？ PS：課程中叠代的值是值函數；周誌華老師的西瓜書中叠代的是狀態值函數；課程中叠代的是狀態-動作值函數 1、蒙特卡洛方法：直接通過采樣求和（v(s) = S(s)/n(s)，其中S(s) =

強化學習(David Silver)4：免模型控制

sil 對比 rsa isod 頻率模型找到使用采樣 1、一般的策略叠代優化的方法 1)策略評估 2)策略改善 2、model free的策略叠代優化的方法基於v(s)的優化需要MDP，基於Q的優化不需要，所以策略是 1)使用Q函數策略評估 2)使用厄普西隆貪心策

強化學習(David Silver)6：值函數近似

最優解學習前向算法數據計算 action 算法什麽化學 0、為什麽有值函數近似狀態空間太大，基於DP/MC/TD的方法的離散值太多，存儲量太大，運行太慢 1、值函數近似有兩種方法一個是狀態值函數方法；一個是狀態動作值方法 2、值函數近似的三種類型類型1：輸

強化學習(David Silver)2：MDP(馬爾科夫決策過程)

war 觀察 turn 解法求解有關馬爾科夫函數使用 1、MP(馬爾科夫過程) 1.1、MDP介紹 1）MDP形式化地強化學習中的環境(此時假設環境完全可以觀察) 2) 幾乎所有強化學習問題都可以形式化為MDP(部分可觀察的環境也可以轉化為MDP????) 1.2

強化學習(David Silver)3：動態規劃

哈哈 avi 過程來源 con 隨機選擇進行解決 1、簡介 1.1、動態規劃動態規劃的性質:最優子結構；無後向性動態規劃假定MDP所有信息已知，解決的是planning問題，不是RL問題 1.2、兩類問題預測問題：給定策略，給出MDP/MRP和策略，計算策略值

【強化學習筆記】4.2 無模型的強化學習方法-蒙特卡羅演算法程式設計實現

本文給出基於蒙特卡洛的強化學習方法（隨機策略計算狀態值函式）和基於蒙特卡洛的強化學習方法（ε−greedy策略計算狀態行為值函式）兩種方法的程式設計實現。問題模型是迷宮問題。針對一個迷宮問題，設計基於蒙特卡洛的強化學習方法。迷宮圖示見下圖，其中紅色

【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣

異策略與重要性取樣因為異策略中的行動策略和目標策略不一樣，也就是說行動策略產生的資料分佈與目標策略的資料分佈存在偏差，即即行動策略的軌跡概率分佈和改善策略的軌跡概率分佈不一樣，因此在使用資料進行目標策略評估的時候需要考慮該影響，常用的方法是重要性取樣

mysql學習與提高4：mysql的兩種儲存引擎的索引儲存機制

目錄概要　 MyISAM索引實現 InnoDB索引實現總結概要　 Mysql的BTree索引使用的是B數中的B+Tree，但對於主要的兩種儲存引擎的實現方式是不同的。 MyISAM索引實現 MyISAM引擎使用B+Tree作為索引結構，葉節點的data域存放

ffmpeg入門學習——文件4：建立執行緒

指導4：建立執行緒 1、概要上一次我們使用SDL的函式來達到支援音訊播放的效果。每當SDL需要音訊時它會啟動一個執行緒來呼叫我們提供的回撥函式。現在我們對視訊進行同樣的處理。這樣會使程式更加模組化和跟容易協調工作 - 尤其是當我們想往程式碼裡面加入同步功能。那麼我們要從哪

深入學習Java虛擬機器：記憶體模型

在Java中，分配記憶體和回收記憶體都由JVM自動完成。內容：首先從作業系統層面簡單介紹實體記憶體的分配和Java執行的記憶體分配之間的關係，明白在Java中使用的記憶體與實體記憶體區別。Java如何使用從實體記憶體申請下來的記憶體，以及如何來劃分它們，如何分配和回收記憶

【Vue.js學習筆記】4：事件修飾符,鍵盤事件,鍵值修飾符

事件修飾符在Vue的官方文件中給出了引入v-on:的事件修飾符的理念是，不希望在方法中去處理DOM細節。事件冒泡事件在事件源上發生，處理事件的方法並未繫結在該事件源上，事件就要向外或者向內傳播（propagation），也稱事件冒泡。在JS裡，可以用事件物件的stopP

【TensorFlow學習筆記】4：認識Variable及其重用(共享),在scope上的初始化

學習《深度學習之TensorFlow》時的一些實踐。認識TF中的Variable TF通過name來標識變數(Variable)，這和呼叫者定義的程式裡的"變數名"無關。當不指定name時，由TF自己指定，當建立的變數的name已經存在時，TF會為其改名。變數的建立

【SciKit-Learn學習筆記】4：決策樹擬合泰坦尼克號資料集並提交到Kaggle

學習《scikit-learn機器學習》時的一些實踐。決策樹擬合泰坦尼克號資料集這裡用繪製引數-score曲線的方式去直觀看出模型引數對模型得分的影響，作者使用了GridSearchCV來自動做k-fold交叉驗證，並且能在多組模型引數中找到最優的一組和最優值（用平均s

DDD理論學習系列（4）-- 領域模型

1.引言我們還是先來拆詞理解，領域模型可以拆為“領域”和“模型”二詞。領域：按照我們之前的文章的理解，DDD中的領域是指軟體系統要解決的問題，如我們的辦公裝置公眾號線上商城就是為了解決電商問題，對應的就是電商領域。模型：百度百科解釋為對於某個實際問題或客觀事物、

【Spring學習筆記】4：三種做屬性連線的Annotation,指示初始化和銷燬方法的Annotation

屬性連線屬性連線是指配置DI的方式，之前學了可以在<bean ...></bean>裡面使用<constructor-arg .../>和<property .../> 元素做屬性連線。 Spring裡還可以

JQuery Mobile 學習筆記2-4：changePage()方法跳轉頁面

<!doctype html> <html> <head> <meta charset="utf-8"> <title>Murphy_JQueryMobile的changePage()方法跳轉頁面<

深度增強學習David Silver（一）——介紹

Lecture 01 對增強學習進行概述，並安排接下去的課程內容。增強學習和監督學習哪裡不同？ - 沒有監督值，只有獎勵值（reward signal） - 反饋延時，而不是馬上得到 - 智慧體的行動影響它接下來接收的資料增強學習是

【Maven學習筆記】4：在IDEA中使用Maven搭建SSM空專案

建立Maven webapp專案雛形勾選上從原形構建：同樣要提供groupId、artifactId、version這三個必備資訊：指明Maven目錄、配置檔案的位置、倉庫目錄(可從配置檔案讀取)：專案名稱、專案根目錄位置：點

Netty學習（2）：IO模型之NIO初探

NIO 概述前面說到 BIO 有著建立執行緒多，阻塞 CPU 等問題，因此為解決 BIO 的問題，NIO 作為同步非阻塞 IO模型，隨 JDK1.4 而出生了。在前面我們反覆說過4個概念：同步、非同步、阻塞、非阻塞。因此，我們就首先用最簡單的語言說一下他們的區別，這裡，我們心裡暫時有個概念即可，在後面的學

機器學習第6篇：線性模型概述

在迴歸分析中，線性模型的一般預測公式是：是預測值，讀作"y hat"，是特徵的線性組合，把向量w稱作 coef_（係數），公式是：把w0稱作intercept_（截距），這兩個屬性是線性模型的共有屬性。一，線性迴歸最基本的線性模型是線性迴歸，也稱作最小二乘法（OL

強化學習(David Silver)4：免模型學習

相關推薦