[Reinforcement Learning] 強化學習介紹

阿新 • • 發佈：2018-10-27

nes function ssi 屬於發展當前 nts view 方式

隨著AlphaGo和AlphaZero的出現，強化學習相關算法在這幾年引起了學術界和工業界的重視。最近也翻了很多強化學習的資料，有時間了還是得自己動腦筋整理一下。

強化學習定義

先借用維基百科上對強化學習的標準定義：

強化學習（Reinforcement Learning，簡稱RL）是機器學習中的一個領域，強調如何基於環境而行動，以取得最大化的預期利益。

從本質上看，強化學習是一個通用的問題解決框架，其核心思想是 Trial & Error。

強化學習可以用一個閉環示意圖來表示：

技術分享圖片

強化學習四元素

策略（Policy）：環境的感知狀態到行動的映射方式。
反饋（Reward）：環境對智能體行動的反饋。

價值函數（Value Function）：評估狀態的價值函數，狀態的價值即從當前狀態開始，期望在未來獲得的獎賞。
環境模型（Model）：模擬環境的行為。

強化學習的特點

起源於動物學習心理學的試錯法（trial-and-error），因此符合行為心理學。
尋求探索（exploration）和采用（exploitation）之間的權衡：強化學習一面要采用（exploitation）已經發現的有效行動，另一方面也要探索（exploration）那些沒有被認可的行動，已找到更好的解決方案。
考慮整個問題而不是子問題。
通用AI解決方案。

強化學習 vs. 機器學習

機器學習是人工智能的一個分支，在近30多年已發展為一門多領域交叉學科，而強化學習是機器學習的一個子領域。強化學習與機器學習之間的關系可以通過下圖來形式化的描述：

技術分享圖片

註：上圖中Machine Learning分支應該包含進化算法（Evolutionary Algorithms）。

強化學習與其他機器學習的不同：

強化學習更加專註於在線規劃，需要在探索（explore 未知領域）和采用（exploit 現有知識）之間找到平衡。
強化學習不需要監督者，只需要獲取環境的反饋。
反饋是延遲的，不是立即生成的。
時間在強化學習中很重要，其數據為序列數據，並不滿足獨立同分布假設（i.i.d）。

強化學習 vs. 監督學習

強化學習與監督學習可以參考下圖：

技術分享圖片

兩者的目標都是學習一個model，而區別在於：

監督學習：

Open loop
Learning from labeled data

Passive data

強化學習：

Closed loop
Learning from decayed reward
Explore environment

強化學習 vs. 進化算法

進化算法（Evolutionary Algorithms，簡稱EA）是通過生物進化優勝略汰，適者生存的啟發而發展的一類算法，通過種群不斷地叠代達到優化的目標。進化算法屬於仿生類算法的一種，仿生類算法還包括粒子群算法（PSO）、人工免疫算法以及如日中天的神經網絡算法等。

進化算法最大的優點在於整個優化過程是gradients-free的，其思想可以通過下圖表示：

技術分享圖片

RL和EA雖然都屬於優化問題的求解框架，而且兩者都需要大量的算力，但是兩者有著本質上的區別。

Sutton在其強化學習介紹一書中也重點談到了RL與EA的區別，這裏簡單談幾點：

RL通過與環境交互來進行學習，而EA通過種群叠代來進行學習；
RL通過最大化累計回報來解決序列問題，而EAs通過最大化適應函數（Fitness Function）來尋求單步最優；
RL對於state過於依賴，而EA在agent不能準確感知環境的狀態類問題上也能適用。

近期隨著RL的研究熱潮不斷推進，很多研究也嘗試通過將EA和RL結合解決優化問題，比如OpenAI通過使用進化策略來優化RL，獲得了突破性的進展[3]。

強化學習分類

強化學習分類比較多樣：

按照環境是否已知可以分為Model-based & Model-free；
按照學習方式可以分為On-Policy & Off-Policy；
按照學習目標可以分為Value-based & Policy-based。

下圖為根據環境是否已知進行細分的示意圖：

技術分享圖片

強化學習相關推薦資料

Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto：介紹強化學習很全面的一本書籍，相關的電子書及源碼見這裏。
David Silver在UCL的強化學習視頻教程：介紹強化學習的視頻教程，基本與Sutton的書籍可以配套學習，Silver來自於Google Deepmind，視頻和課件可以從Silver的主頁獲取，中文字幕版視頻YouTube鏈接點這裏。
強化學習在阿裏的技術演進與業務創新：介紹強化學習在阿裏巴巴的落地，可以拓展強化學習應用的業務思路，電子版見這裏，密碼：yh48。
Tutorial: Deep Reinforcement Learning：同樣來自於Sliver的一個課件，主要針對RL與DL的結合進行介紹，電子版見這裏，密碼：9mrp。
莫煩PYTHON強化學習視頻教程：可以通過簡短的視頻概括地了解強化學習相關內容，適合於入門的同學，視頻見這裏。
OpenAI Gym：Gym is a toolkit for developing and comparing reinforcement learning algorithms，Gym包含了很多的控制遊戲（比如過山車、二級立桿、Atari遊戲等），並提供了非常好的接口可以學習，鏈接見這裏。
Lil‘Log：介紹DL和RL的一個優質博客，RL相關包括RL介紹、Policy Gradients算法介紹及Deep RL結合Tensorflow和Gym的源碼實現，主頁鏈接見這裏。

Reference

[1] 維基百科-強化學習
[2] Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018
[3] Evolution Strategies as a Scalable Alternative to Reinforcement Learning

[Reinforcement Learning] 強化學習介紹

nes function ssi 屬於發展當前 nts view 方式隨著AlphaGo和AlphaZero的出現，強化學習相關算法在這幾年引起了學術界和工業界的重視。最近也翻了很多強化學習的資料，有時間了還是得自己動腦筋整理一下。強化學習定義先借用維基百科上對強

Reinforcement Learning強化學習系列之五：值近似方法Value Approximation

引言前面說到了強化學習中的蒙特卡洛方法(MC)以及時序差分(TD)的方法，這些方法針對的基本是離散的資料，而一些連續的狀態則很難表示，對於這種情況，通常在強化學習裡有2中方法，一種是針對value function的方法，也就是本文中提到的值近似(value

Reinforcement Learning強化學習系列之一：model-based learning

前言在機器學習和深度學習坑裡呆了有一些時日了，在阿里實習過程中，也感覺到了工業界和學術界的一些迥異，比如強化學習在工業界用的非常廣泛，而自己之前沒有怎麼接觸過強化學習的一些知識，所以感覺還是要好好的補一補更新一下自己的知識庫，以免被AI時代拋棄。強化

Reinforcement Learning強化學習系列之二：MC prediction

引言這幾個月一直在忙找工作和畢業論文的事情，部落格擱置了一段時間，現在稍微有點空閒時間，又啃起了強化學習的東西，今天主要介紹的是強化學習的免模型學習free-model learning中的最基礎的部分蒙特卡洛方法（Monte Carlo），並以21點遊戲作

強化學習（Reinforcement Learning）背景介紹

強化學習前世今生如今機器學習發展的如此迅猛，各類演算法層出不群，特別是深度神經網路的發展，為非常經典的強化學習帶來了新的思路，雖然強化學習一直在發展中，但在2013年這個關鍵點，DeepMind大神David Sliver使用了神經網路逼近函式值後，開始了新的方向，又一發不可收

強化學習導論(Reinforcement Learning: An Introduction)讀書筆記(一)：強化學習介紹

因為課題轉到深度強化學習方面，因此開始研究強化學習的內容，同時在讀這方面的書，並將Reinforcement Learning: An Introduction（Richard S. Sutton and Andrew G.Barto）第二版作為主要的學習資料，

模型彙總18 強化學習（Reinforcement Learning）基礎介紹

1、背景介紹學習和推理是人類智慧最重要的體現，為了使計算機也能夠像人一樣學習和決策，機器學習技術應運而生。機器學習利用計算機來模擬和實現人類學習和解決問題的過程，計算機系統通過不斷自我改進和學習，自動獲取知識並作出相應的決策、判斷或分析。機器學習是人工智慧的一個重要的

DQN（Deep Q-learning）入門教程（一）之強化學習介紹

## 什麼是強化學習？強化學習（Reinforcement learning，簡稱RL）是和監督學習，非監督學習並列的第三種機器學習方法，如下圖示： ![](https://img2020.cnblogs.com/blog/1439869/202005/1439869-20200524021301122

強化學習介紹（Introduction to RL）

一、簡介機器學習有三大分支，監督學習、無監督學習和強化學習，強化學習是系統從環境學習以使得獎勵最大的機器學習。人工智慧中稱之為強化學習，在控制論中被稱之為動態規劃，兩者在概念上是等價的。也被翻譯為增強學習。二、概念 1.不同於機器學習的其它兩個分支：它不是無

Reinforcement Learning 增強學習

20180830 參考：https://www.nowcoder.com/courses/190 Reinforcement Learning（處理迴歸問題）核心部分：包括了類似人、動物、機器人或者深度網路這樣的自動代理。目標：通過最大化數值回報來學習如何在不確定的環境中駕

強化學習介紹（RL）

一、簡介機器學習有三大分支，監督學習、無監督學習和強化學習，強化學習是系統從環境學習以使得獎勵最大的機器學習。**人工智慧中稱之為強化學習，在控制論中被稱之為動態規劃，兩者在概念上是等價的。**也被翻譯為增強學習。二、概念不同於機器學習的其它兩個分支：

1 強化學習（Reinforcement Learning, RL）初步介紹

當前的機器學習演算法可以分為3種：有監督的學習（Supervised Learning）、無監督的學習（Unsupervised Learning）和強化學習（Reinforcement Learning），結構圖如下所示：其他許多機器學習演算法中學習器

強化學習學習筆記——介紹強化學習(reinforcement learning)

眾所周知，當AlphaGO戰勝了世界圍棋冠軍李世石之後，整個工業界都為之振奮，越來越多的學者意識到強化學習在人工智慧領域是一個非常令人exciting的。在此我就分享一下本人的強化學習學習筆記。強化學習基本概念機器學習可以分為三類，分別是 super

CS294-112 深度強化學習秋季學期（伯克利）NO.19 Guest lecture: Igor Mordatch (Optimization and Reinforcement Learning in Multi-Agent Settings)

nbsp setting TP for agent image learn ctu Go

[Reinforcement Learning] 強化學習介紹

強化學習定義

強化學習四元素

強化學習的特點

強化學習 vs. 機器學習

強化學習 vs. 監督學習

強化學習 vs. 進化算法

強化學習分類

強化學習相關推薦資料

Reference

[Reinforcement Learning] 強化學習介紹

Reinforcement Learning強化學習系列之五：值近似方法Value Approximation

Reinforcement Learning強化學習系列之一：model-based learning

Reinforcement Learning強化學習系列之二：MC prediction

強化學習（Reinforcement Learning）背景介紹

強化學習導論(Reinforcement Learning: An Introduction)讀書筆記(一)：強化學習介紹

模型彙總18 強化學習（Reinforcement Learning）基礎介紹

DQN（Deep Q-learning）入門教程（一）之強化學習介紹

強化學習介紹（Introduction to RL）

Reinforcement Learning 增強學習

強化學習介紹（RL）

1 強化學習（Reinforcement Learning, RL）初步介紹

強化學習學習筆記——介紹強化學習(reinforcement learning)

CS294-112 深度強化學習秋季學期（伯克利）NO.19 Guest lecture: Igor Mordatch (Optimization and Reinforcement Learning in Multi-Agent Settings)

強化學習（Reinforcement Learning）知識整理

從馬爾科夫決策過程到強化學習（From Markov Decision Process to Reinforcement Learning）

深度強化學習 Deep Reinforcement Learning 學習整理

深度強化學習cs294 Lecture3&Lecture4: Introduction to Reinforcement Learning

Reinforcement Learning 的那點事——強化學習（一）

強化學習（Reinforcement Learning）