【RL】1.概論與基礎

阿新 • • 發佈：2020-10-21

因為個人原因，沒能抽出時間將筆記電子化。計劃過幾日實現電子化。

課程內容

在這裡插入圖片描述

問題

強化學習的基本結構是什麼？

答：agent與env互動，env生成state，agent觀測state為observation，決定action。見課程內容的圖1。

強化學習相對於監督學習為什麼訓練會更加困難？（強化學習的特徵）

答：[^1]

強化學習處理的多是序列資料，其很難像監督學習的樣本一樣滿足IID（獨立同分布）條件。
強化學習有獎勵的延遲（Delay Reward），即在Agent的action作用在Environment中時，Environment對於Agent的State的獎勵的延遲（Delayed Reward），使得反饋不及時。
相比於監督學習有正確的label，可以通過其修正自己的預測，強化學習相當於一個“試錯”的過程，其完全根據Environment的“反饋”更新對自己最有利的Action。

強化學習的基本特徵有哪些？

答：

強化學習輸入資料的是時序性的
強化學習未能得到即時反饋，有獎勵的延遲（Delay Reward）
exploration vs exploitation
之前的決策會影響環境

近幾年強化學習發展迅速的原因？

答：深度學習的突破，並應用於強化學習中作為特徵提取器（自動提取特徵）。

狀態和觀測有什麼關係？

答：狀態（state）是對世界的完整描述，不會隱藏世界的資訊。觀測（observation）是對狀態的部分描述，可能會遺漏一些資訊。

對於一個強化學習 Agent，它由什麼組成？

答：policy,value,model.

根據強化學習 Agent 的不同，我們可以將其分為哪幾類？

答：可見課程內容中的三個⚪相交圖。

基於策略迭代和基於價值迭代的強化學習方法有什麼區別?

答：策略迭代其實更符合我們人的決策，而價值迭代則更易進行訓練，價值迭代是策略迭代的升級。

有模型（model-based）學習和免模型（model-free）學習有什麼區別？

答：model-based是與虛擬環境的互動學習，model-free是在現實環境中的互動學習。

強化學習的通俗理解

答：通過agent與env的互動，學習到policy，而policy的學習牽涉到value function/q function的最優化。

【RL】1.概論與基礎

因為個人原因，沒能抽出時間將筆記電子化。計劃過幾日實現電子化。課程內容

【vue】1-vue簡介與基礎

【目錄】 vue簡介一漸進式JavaScript 二 Vue介紹三 Vue特點四三大主流框架五快速使用

【模擬】Carla介紹與基本使用 [1] (附程式碼基礎版)

0. 參考與前言主要介紹無人駕駛的模擬環境CARLA，開源社群維護，以下為相關參考連結：

【強化學習入門】 task1 概括與基礎

強化學習入門 task1 概括與基礎 1. 1 什麼是強化學習1.2 強化學習應用1.3 強化學習發展的原因1.4 獎勵函式1.5 強化學習組成成分1.6 實踐

【Volta】自動化測試-python基礎1-檔案操作及OS模組

1、檔案讀寫（1）、開啟檔案 open() with語句，在處理檔案過程中不管是否發生異常，都能保證with語句執行完畢後關閉檔案

【NOI2005】聰聰與可可題解（最短路+期望DP）

前言：學長講的太神了；自己還能推出來DP式子，挺開心。 --------------------------

【Pandas】1.資料讀取

Pandas 1.資料讀取進行資料分析最麻煩的就是資料獲取，然後一旦獲得了資料，我們就可以很愉快的開始玩耍這些資料。Pandas的IO tools提供了很多的資料來源的型別，但實際上，對於我這個初學者可能用的最多可能就是e

【typescript】 FirstOne 概論、學習路線、搭建 webstorm 開發環境、預覽

目錄點這裡 ts0715 倉庫 git 程式碼概論 TypeScript 是由微軟開發的一款開源的程式語言

【Zookeeper】01 概述 & 基礎部署

背景：隨著網際網路技術的發展，企業對計算機系統的計算，儲存能力要求越來越高，各大IT企業都在追求高併發，海量儲存的極致，

【Redis】Redis開篇與如何安裝單機版Redis，這次我會了！！

寫在前面很早之前，就有不少小夥伴微信留言說：冰河，你能不能寫一個Redis專欄啊，我最近在學習Redis，看書看不下去，學習視訊又覺得視訊太長了，還是看你的文章比較給力！哈哈，原來我寫的文章能夠讓小夥伴們有這

【總結】1.陣列

一.陣列 1.稀疏陣列當一個數組大部分元素為0，或者為同一個值的陣列時，可以用稀疏陣列來儲存該陣列

【Java】普通矩陣與稀疏矩陣的互相轉化，稀疏矩陣的物理儲存

1 import java.io.*; 2 3 /** 4* @author ZhiYi Li 5* @create 2020/8/24 10:47 6* 普通矩陣轉稀疏矩陣，稀疏矩陣轉普通矩陣，稀疏矩陣的物理儲存

【Flutter】分離View與Model的方法

問題我們在做Flutter開發的時候主要會在State中加入很多自己的業務邏輯，例如網路請求，資料處理等等，如果你的業務邏輯比較複雜的話會面對著一個越來越膨脹的State。

【RL】強化學習的基本思想

在機器學習中，有監督學習和無監督學習的特點是基於已有的資料，去學習資料的分佈或蘊含的其他重要資訊。強化學習與上述這二者最顯著的不同在於，首先它不是基於已有的資料進行學習，而是針對一個環境進行學

【RL】Actor-Critic

強化學習的演算法分為基於價值與基於策略兩大類，這兩大類在思想上是完全不同的。基於價值的演算法目標是擬合隱藏在環境中的價值函式，而基於策略的演算法則是不斷地優化策略。所有強化學習的演算法，基本的

【RL】Vanilla Policy Gradient（VPG）

policy gradient的基本思想，是把總的獎勵表示為策略的函式，然後對這個函式做優化。在這一章中，我們將詳細地講解這個函式具體的形式是怎麼樣的、如何求出策略梯度，理解policy gradient這個演算法的基本框

【C#】【筆記】訊息佇列與windows服務demo

1、寫訊息佇列服務類MQServerT : ServiceBase using System; using System.Collections.Generic; using System.ComponentModel;

【QCustomPlot】1.1 - Qt .qch幫助文件匯入使用

上一篇說過，QCustomPlot下載後的檔案中是有幫助文件的。在 documentation 資料夾下，qcustomplot.qch，就是這麼個鬼東東。

【操作】SQL Server超基礎入門教程

博主用的軟體是SQL Server Express 2019 1、sql server 安裝完成後如何啟動 2、SQL Server身份認證方式登入失敗的解決方案

【JavaWeb】HTML&CSS 基礎

HTML&CSS 基礎 HTML 基礎 HTML 標籤 HTML標題：HTML 標題（Heading）是通過 h1 - h6 等標籤進行定義的。