David Silver RL課程第1課（關於增強學習的介紹）

阿新 • • 發佈：2018-12-22

1.The difference of the reinforcement learning:(區別於傳統的監督/非監督學習）

no supervisor ,only a reward signal（小孩試錯的過程）
feedback is delayed,not instantaneous(錯誤的決定不會即時顯現災難，要經過幾個階段的驗證，反饋被延遲）
time really matters(sequential連續的，not i.i.d data)(獨立同分布已經被破壞掉了，agent根據環境影響來採取措施應對環境的變化）

2.增強學習可以用在各個領域利用獎勵機制便於優化決策，需要不同資料集的集合。例如在遊戲中通過不斷地學習試錯找到完美的策略。

3.Rewards

是一個標量的反饋訊號，用隨機變數表示。
轉換後的標量獎勵訊號要足夠多，並且有一定的優先順序（有衡量尺度）。
每一步決策都要找到對應的,時每一步的reward相加最後實現最大化

4.Goal:select actions to maximise total future reward

建立統一的框架，使用機器學習的方法，使用相同的形式應對不同的連續決策問題，提前考慮未來，最大化未來的獎勵

Actions may have long term consequences
Reward may be dalayed
It may be better to sacrifice（犧牲） immediate reward to gain more long-term reward

需要提前考慮未來，結果是長期性的。可能不是當下想要的結果，但是經過幾步以後，就變成我們想要的結果了，這就意味著現在需要放棄一些好的獎勵，而在不久的未來則會得到更高的獎勵，所以不要太貪心，需要目光長遠，例如長期投資問題或者飛機飛行油耗問題

5.資料流傳播方向：

agent負責take action,agent採取行動的每一步都是基於它當前所獲得的資訊。agent有兩個輸入，一個是觀察得到的外部資訊，另外一個就是獲得的獎勵，共同決定了下一步的措施。我們的目標就是找到位於大腦中的演算法。

在另一個方面，我們有一個外部環境。隨著時間不斷迴圈agent與environment之間的互動，agent每採取一步行動，agent就會得到來自外部世界觀測的輸入；agent採取行動之後，新的環境就產生了，產生對應的obsercation和reward，產生了下一個外部資訊以及對應的分數。我們不能控制環境，只能唯一地通過agent採取行動這個渠道來影響環境。

增強學習是基於觀察，獎勵，行動措施的時間序列。
這個時間序列代表著agent的經驗，這個經驗就是用於增強學習的資料。
因此增強學習的問題就是聚焦這個資料來源，即這個資料流。

6.History:The history is the sequence of observations,actions,rewards。

What happens next depends on the history:
The agent selects actions depends on the history.(建立對映）
The environment selects observations/rewards(環境根據history發生變化產生rewards)
但是history通常很巨大

7.State 對history簡要的總結，用state代替history

State is the information used to determine what happens next.
State is a function of the history.
state分為agent state和environment state

8.An information state(Markov state) contains all useful information from history.

Markov鏈（Markov性質）

A state is Markov if and only if

下一時刻的狀態與原來的state無關，僅和當下有關

Once the state is known,the history may be thrown away.
The state is a sufficient statistic of the future.
The environment stste is Markov.
The history is Markov（定義，可以儲存整個的history)

9.Full observability environment (全觀察環境）（課程大部分涉及到此種環境)

agent directly observes environment state(數字所表示的狀態）
agent state和environment state相同
This is a Markov decision process(MDP）

10.Partial observability:agent indirectly observes environment

eg: robot/poker playing agent
此時agent state和environment state不相同
This is a partially observable Markov decision process(POMDP)

11.建立代理

記住每一次的觀測，動作，獎勵 complete history:
Beliefs of environment state:(貝葉斯問題）
neural network: 線性組合方式將最近agent的狀態與最近的觀測結合起來，就能得到最新的狀態（迴圈神經網路）

12.An RL agent may include one or more of these components:

policy:agent's behaviour function(行為函式，狀態到行動的對映）
value function:how good is each state and/or action.(預期獎勵）
model:agent's representation of the environment(判斷環境的變化）

13.Policy

A policy is the agent's behaviour
It is a map from statre to action.
Deterministic policy:
Stochastic(隨機）policy: 隨即方式狀態對映到狀態

14.Value:未來獎勵的預測

Value function is a prediction of future reward.
Used to evaluate the goodness and badnenss of states.
And therefore to select between actions.
對於一種policy ，其中是下一階段的獎勵，其中增加一個小於1的權重值，這表明我們更關注當前的獎勵，即，作為折現值。

15.Model：並不是環境本身，不是必須要求的。

A model predicts what the environment will do next.
transition model:P predicts the next state(dynamics)
reward model:R predicts the next (immediate) reward.
狀態轉換模型：是根據當前的狀態和動作，環境所處的下一個狀態的概率。

預期獎勵是基於先前的以及當下的狀態的。

16.對增強學習分類根據agent是否包含這三個關鍵元素：

Value Based:No Policy(Implicit不清楚的)，即不需要明確的Policy；Value Function
Policy Based:Policy;No Value Function
Actor Critic:Policy;Value Function

17.根據model分類：

Model Free:Policy and/or Value Function;No Model
Model Based:Policy and/or Value FUnction;Model

David Silver RL課程第1課（關於增強學習的介紹）

1.The difference of the reinforcement learning:(區別於傳統的監督/非監督學習） no supervisor ,only a reward signal（小孩試錯的過程） feedback is delayed,n

Python學習-第1課（變數，字串，運算子，迴圈）

學習前準備~ 環境安裝：　　Anaconda3+PyCharm python文件 python概述：一、Hello world及註釋二、變數 1. 命名規則：變數命名可以包含數字，大小寫字母，下劃線數字不可以在開頭一般在pytho

快學Scala 第八課（嵌套類）

str new 外部 style 接收 rgs sca 外部類 logs 嵌套類： class Human { class Student{ val age = 10 } } object ClassDemo { def main(args: Arr

Java EE開發技術課程第六周（jsf、facelets）

AS 本地 5.1 腳本可擴展性 ava 使用成功響應 1、jsf（java sever faces）　　1.1 jsf的定義: 　　　　jsf是一種用於構建java web應用程序的框架。它提供了一種以組件為中心的用戶界面（UI）構建方法，從而簡化了Java服務器

機器學習筆記第1課：機器學習中的資料

資料在機器學習中起著重要的作用。在談論資料時，理解和使用正確的術語非常重要。你如何看待資料？想想電子表格吧，有列、行和單元格。從統計視角而言，機器學習的任務是在假設函式( f )的上下文中構建資料。這些假設函式由機器學習演算法通過學習建立。給定一些輸入變數( Input )，該函式回答

資深專家深度剖析Kubernetes API Server第1章（共3章）

歡迎來到深入學習Kubernetes API Server的系列文章，在本系列文章中我們將深入的探究Kubernetes API Server的相關實現。如果你對Kubernetes的內部實現機制比較感興趣或者正在進行Kubernetes專案的相關開發工作，那麼本系列文章能夠為你

jdbc篇第1課：jdbc的介紹和使用

我們已經學過mysql了，接下來我們要學學如何用java來操作mysql。 Java操作資料庫所使用的技術叫JDBC，看百度百科: JDBC（Java DataBase Connectivity,java資料庫連線）是一種用於執

Hadoop學習第六課（初識HDFS原理）

當然，上面舉得例子只是為了方便大家理解，比較專業的說法是：客戶端Client通過使用RPC向NameNode傳送寫檔案的請求，NameNode會檢視哪個DataNode空閒，比如下圖中第二個DataNode，NameNode把空閒的DataNode資訊返回給Client，Client接收到返回

學習淘淘商城第十三課（引用dubbo服務）

上節課我們一起學習瞭如何釋出一個dubbo服務，這節我們一起學習下web工程如何引用dubbo釋出的服務。首先我們在web工程也需要新增dubbo的依賴，由於我們在taotao-manager-service工程已經添加了dubbo的依

opencv視訊學習第五課（視訊播放控制）筆記整理

這次是學習怎麼建立一個控制檯的滾動條，並且使用它控制視訊的播放。為了測試一些東西，改編了視訊教程中的程式碼。#include "stdafx.h" #include "highgui.h" #include "cv.h" CvCapture* g_capture = NUL

David Silver深度強化學習第1課- intro-RL

David Silver深度強化學習第1課 intro-RL Agent（我們建立的演算法）演算法就是一個從history對映到action的過程，其中history：由於history包含了太多冗長的資訊，因此我們用state代替history。 S

（基礎篇）第1課：C#程序設計基礎——動起來的Label控件

創建文本編輯器 ble 知識項目 pac too cli 雙擊參考：學通C#的24堂課（羊皮卷系列） 1. Tool：VS2017(VS2008 VS2010 都可以) 2. 新建項目：C# -> Windows應用窗體程序 3. 在彈出的Form窗口中添加L

機器學習升級版（VII）——第1課機器學習與數學分析

矩陣分解變化回歸分析兩個例如處理 fff mage 我們參考：鄒博《機器學習升級版》 1. 機器學習概論 1. 什麽是機器學習定義：對於某給定的任務T，在合理的性能度量方案P的前提下，某計算機程序可以自主學習任務T的經驗E；隨著提供合適、

少兒創意學編程（Scratch基礎篇）：第1課——搖滾樂隊

apple 塊代碼中一 rendering mage 應該鋼琴發揮世界《少兒創意學編程（Scratch基礎篇）》，參考了英國公益組織發起的“code club（代碼俱樂部）”——少兒免費學編程活動。願為中國的少兒創意編程教育盡微薄之力，對國內的家長、信息教師和相關

Operations on word vectors-v2 吳恩達老師深度學習課程第五課第二週程式設計作業1

吳恩達老師深度學習課程第五課（RNN）第二週程式設計作業1，包含答案 Operations on word vectors Welcome to your first assignment of this week! Because word embe

標準日本語（初級）——第1課李さんは中國人です

# 単語中國人「ちゅうごくじん」：中國人中國「ちゅうごく」中國語「ちゅうごくご」日本人「にほんじん」：日本人日本「にほん」 &nbs

（第1課）ASP.NET網站開發——ASP.NET4.0概述

靜態網頁（HTML）在記事本中寫入如下程式碼，然後把檔名副檔名改成.html，雙擊執行即可看到瀏覽器頁面如下顯示。動態網頁（HTML表單） ASP.NET Web窗體下面摘選自《Web程式設計——ASP.NET網站開發》陳

第1課第4.4節_Android硬件訪問服務編寫HAL代碼

更新編寫 services 指定版本 open ext which module .sh 4 編寫HAL代碼源碼下載方法第一次: git clone https://github.com/weidongshan/SYS_0001_LEDDemo.git 更新: gi

第1課 - 學習C++的意義

用戶需求數據結構並不會過程發展歷史 ges 移植 lin 應用程序第1課 - 學習C++的意義 1. 對C++的一些誤解 ××× 　　（1）操作系統和驅動都是用C寫的，學好C就夠了。 (驅動和操作系統開發屬於極少部分的人) 　　（2

scrum第1課作業，知易行難

經理模式討論方案 bsp 項目組不變技能綜合素質 1. 這一年你做了些什麽事？去年輾轉5、6個項目，大多是小型項目；基本都是5人以下的小組完成。開發模式千年不變的瀑布式。 2. 哪些事讓你印象深刻？回顧前幾年的工作，做的基本都是同一類工作，這麽多年基本沒有