強化學習第二版（翻譯）第二版前言

阿新 • • 發佈：2019-02-16

（由百度翻譯修改而來，儘量保證邏輯通順，建議以原文為主）

自本書第一版出版以來的二十年裡，人工智慧取得了巨大的進步，這在很大程度上得益於機器學習的進步，包括強化學習的進步。雖然現有的令人印象深刻的計算能力是這些進步的主要原因，但理論和演算法的新發展也推動了這些力量的發展。面對這一進步，我們的1998本書的第二版早就應該出現了，我們終於在2013開始了這個專案。我們的第二版的目標與我們的第一個目標是相同的：提供一個清晰和簡單的強化學習的關鍵思想和演算法，讓所有相關學科的讀者都能理解。該版本仍然是一個導論，我們仍然專注於核心，線上學習演算法。這個版本引入了一些在過去幾年中變得重要的新話題，不僅如此為了更好的理解，我們擴大了主題的覆蓋範圍。但我們並沒有試圖對這一領域進行全面的報道，該領域在許多不同的方向發生了巨大變化，許多活躍的研究者做出了傑出的貢獻。我們很抱歉其中的一部分都漏掉了。

正如在第一版中，我們選擇不產生一個嚴格的正規的強化學習，或者用最一般的術語來表述它。然而，在第一版後，我們對一些主題的深入理解需要更多的數學來解釋；我們更多在黑盒中使用數學方法而跳過不數學的部分。我們還使用了與前一版中使用的稍微不同的符號。在教學中，我們發現新的符號有助於解決混淆的一些常見問題。它強調隨機變數之間的差異，用大寫字母表示變數，用小寫表示其例項。例如，狀態，行動，和收益在時間t下分別表示為，S_t，A_t 和R_t，而他們可能的值可能表示為s,a,r。同時, 我們用小寫字母表示價值函式（ value functions (e.g., v_π) ）且用大寫表示他們的 tabular estimates

(e.g., Q_t(s,a))。近似價值函式（（Approximate value functions）是隨機引數下的確定性函式，從而也用小寫字母表示（例如，v^(s,w_t)≈v_π(s),（太複雜了打不出來，看書）)。向量，如權重向量w_t（原θ_t）和特徵向量x_t（原φ_t），是粗體小寫的即使他們是隨機變數。大寫粗體為矩陣。在第一個版本我們用了特殊的符號P^a_ss′和R^a_ss'，方便對應轉移概率和預期收益（reward，到底是什麼意思）。該符號的一個缺點是，它仍然沒有充分描述收益的動態變化，只給出他們的期望。另一個弱點是下標和上標過剩。在本版中我們使用p(s′,r|s,a)這樣的顯示錶示體現已知當前狀態和動作下個狀態和收益的聯合概率。所有符號的變化彙總在第十五頁的表中。

第二版大幅度擴充，其頂級組織已被修改。在第一章介紹之後，第二版分為三個新部分。第一部分（第2章-第8章）儘可能多地學習強化學習without going beyond the tabular case（tabular case是什麼意思？） for which exact solutions can be found。我們覆蓋了tabular case的學習和規劃方法，以及它們在N步方法和動態的統一。這部分出現了許多第二版的新增演算法，包括UCB, Expected Sarsa, Double learning, tree-backup, Q(σ), RTDP, and MCTS。先做tabular case，儘可能地使其核心思想在最簡單的環境中展開。書的第二部分（第9章至第13章）致力於把思想擴充套件到函式逼近（function approximation）。它加入了有關artificial neural networks, the fourier basis, LSTD, kernel-based methods, Gradient-TD and Emphatic-TD methods, average-reward methods, true online TD(λ), and policy-gradient methods的新的內容。第二版大大擴充套件了對off-policy learning手段，首次出現在第5章至第7章tabular case中，在第11章和第12章中進行了函式近似。另一個變化是，第二版講n步自舉的前向策略（在第七章中被更充分說明）從關注適合度軌跡的後項策略（現在在12章獨立說明）中分離。本書第三部分就強化學習和心理學（14章）以及神經網路（15章）的關係增加了新的章節，以及最新的案例研究包括 Atari game playing, Watson, and AlphaGo (16章)。儘管如此，出於需要，我們只包括了現在的一小部分工作。我們的選擇反映了我們對低成本的無模型方法的長遠興趣，這些方法可以很好地擴充套件到大型應用程式。最後一章討論了強化學習對未來社會的影響。無論如何，第二版比第一版長60%。

這本書的目的是作為一個或兩個學期的課本。一個學期的課程應覆蓋前十章以形成良好的核心，它可以從其他章節中新增材料，獲從其他課本新增材料如Bertsekas and Tsitsiklis (1996), Weiring and van Otterlo (2012), and Szepesv ́ari (2010),獲根據口味挑選別的作品。根據學生的背景，一些線上監督學習的附加材料可能會有所幫助。The ideas of options and option models are a natural addition (Sutton, Precup and Singh, 1999).（不明白）。一個兩學期的課程可以涵蓋所有章節和補充材料。這本書還可以作為機器學習、人工智慧或神經網路的更廣泛課程的一部分。在這種情況下，可以只覆蓋材料的一個子集。我們建議對第1章作簡要概述，第2章至第2.4節，第3章，然後根據時間和興趣選擇其餘章節的章節。第6章是本書最重要的部分。以機器學習或神經網路為中心的課程應包括第9章和第10章，而側重於人工智慧或計劃的課程應包括第8章。在本書中，章節有難度，這本書的其餘部分不必要的標記有∗。這些可以在第一讀時省略，以後不會產生問題。一些運動也有∗表明他們更先進和理解本章的基本材料不是必需的。

大多數章節以“Bibliographical and Historical Remarks”結尾，我們在此讚許了章節中一些想法的來源，提供進一步的閱讀材料和正在進行的研究，並介紹相關的歷史背景。儘管我們試圖使這些章節具有權威性和完整性，但毫無疑問，我們仍然有所缺漏。為此，我們再次表示歉意，我們歡迎修訂和擴充套件納入本書的電子版。

和第一個版本一樣，這個版本向A. Harry Klopf致敬。正是他關於大腦和人工智慧的思想，使我們開始了強化學習的漫長旅程。Harry是一位隸屬於Avionics Directorate of the Air Force Office of Scientific Research (AFOSR) at Wright-Patterson Air Force Base, Ohio的資深科學家，對於神經網路和機器學習有濃厚興趣。他反對過分用equilibrium-seeking processes, including homeostasis and error-correcting pattern classification methods，去解釋自然智慧，且將其作為機器智慧的基礎。他指出，試圖最大化的系統（無論它是什麼）與尋求平衡系統有著質的不同，他認為最大化系統是理解自然智慧和人工智慧的關鍵。Harry從AFOSR處獲得資金推進了相關專案。該專案……

（。。。。後面都是貢獻和感謝，看不動了）

強化學習第二版（翻譯）第二版前言

（由百度翻譯修改而來，儘量保證邏輯通順，建議以原文為主）自本書第一版出版以來的二十年裡，人工智慧取得了巨大的進步，這在很大程度上得益於機器學習的進步，包括強化學習的進步。雖然現有的令人印象深刻的計算能力是這些進步的主要原因，但理論和演算法的新發展也推動了這些力量的發展

（翻譯）第二十三回 JavaFX2.0 超連結Hyperlink

Example 17-4 Loading Remote Web Pages import javafx.application.Application; import javafx.event.ActionEvent; import javafx.event.EventHandler; import ja

CS294-112 深度強化學習秋季學期（伯克利）NO.4 Policy gradients introduction

alt blue fun tor 深度 ase gree equal bubuko gree

CS294-112 深度強化學習秋季學期（伯克利）NO.5 Actor-critic introduction

line batch cto online fit tro function 技術分享 rap in most AC algorithms, we actually just fit valu

CS294-112 深度強化學習秋季學期（伯克利）NO.6 Value functions introduction NO.7 Advanced Q learning

ted 分享圖片 enc cti solution function part related ons -------------------------------------------------------------------------------

CS294-112 深度強化學習秋季學期（伯克利）NO.9 Learning policies by imitating optimal controllers

image TP 分享圖片 BE http com bubuko cos .com

CS294-112 深度強化學習秋季學期（伯克利）NO.19 Guest lecture: Igor Mordatch (Optimization and Reinforcement Learning in Multi-Agent Settings)

nbsp setting TP for agent image learn ctu Go

David Silver強化學習公開課（一）：馬爾科夫決策過程

在強化學習中，馬爾科夫決策過程（Markov decision process, MDP）是對完全可觀測的環境進行描述的，也就是說觀測到的狀態內容完整地決定了決策的需要的特徵。幾乎所有的強化學習問題都可以轉化為MDP。本講是理解強化學習問題的理論基礎。馬爾科夫過程 M

David Silver強化學習公開課（四）：不基於模型的預測

簡介 Introduction 通過先前的講解，我們明白瞭如何從理論上解決一個已知的MDP：通過動態規劃來評估一個給定的策略，並且得到最優價值函式，根據最優價值函式來確定最優策略；也可以直接進行不基於任何策略的狀態價值迭代得到最優價值函式和最優策略。從本講開始將花連續兩

強化學習基礎闡述（一）

像西瓜書中說的一樣，強化學習任務通常用馬爾可夫決策過程（MDP）來描述：假設機器處於環境E中，狀態空間為X，其中每個狀態x∈X是機器感知到的環境的描述，然後機器能採取的動作構成了動作空間A。若某個動作a∈A作用在當前狀態x上，則潛在的轉移函式P將使得環境從當前狀態按某種概率轉移到另一個狀態。

CC3220學習筆記---UART（翻譯）

當RTSEN為1時，軟體無法通過 UARTCTL暫存器的request-to-send (RTS)位更改 U1RTS輸出值，並且RTS位狀態將被忽略。 6.2.3.1.2 軟體流控制（Modem Status Interrupts）兩個裝置間的軟體流控制需要使用中斷來指示UART狀態。可使用UA

David Silver強化學習課程筆記（五）

第五課：模型無關的控制本文主要介紹模型無關的控制，包括同策略方法（On-Policy，也譯作“在策略”）和異策略（Off-Policy，也譯作“離策略”）方法，由於是模型無關，因此本文聊的是學習（learning），而不是規劃（planning）。

David Silver強化學習課程筆記（三）

第三課：動態規劃課程標題本來是“Planning by Dynamic Programming”，應該翻譯為”利用動態規劃方法進行規劃“，但是感覺有點長，所以就使用”動態規劃“作為標題，大家理解就好...... 先說下這節課講的主要內容，主要有：

David Silver強化學習課程筆記（一）

大家好，我是微念。國慶這些天大致學習了一下David Silver的強化學習課程，感覺挺受用的，大家可以去百度雲盤（無字幕版本）下載視訊，或者去B站搜尋觀看（有字幕版本），課程課件下載地址為David Silver課程課件。

David Silver強化學習課程筆記（八）（下）

第八課（下）：基於Simulation的搜尋方法在《第八課（上）：學習與規劃的結合》中，我們講到了Model-Based RL方法，在該方法中，我們首先擬合得到一個模型，然後可以利用各種規劃方法進行規劃，或者，可以引申出Sample-Based Plann

deep learning tutorial 翻譯（theano學習指南4（翻譯）- 卷積神經網路）

from theano.tensor.nnet import conv rng = numpy.random.RandomState(23455) # instantiate 4D tensor for input input = T.tensor4(name='input') # initializ

(重磅)深度強化學習系列之（7）-----強化學習《獎勵函式》的設計和設定（reward shaping）

概述前面已經講了好幾篇關於強化學習的概述、演算法(DPG->DDPG),也包括對環境OpenAI gym的安裝，baseline演算法的執行和填坑，雖然講了這麼多，演算法也能夠正常執行還取得不錯的效果，但是一直以來忽略了一個非常重要的話題，那就是強化學

TensorFlow 機器學習祕籍中文第二版（初稿）

TensorFlow 入門介紹 TensorFlow 如何工作宣告變數和張量使用佔位符和變數使用矩陣宣告操作符實現

中國mooc北京理工大學機器學習第二周（一）：分類

kmeans 方法輸入 nump arr mod 理工大學 each orm 一、K近鄰方法（KNeighborsClassifier）使用方法同kmeans方法，先構造分類器，再進行擬合。區別是Kmeans聚類是無監督學習，KNN是監督學習，因此需要劃分出訓練集和測試

HTML學習筆記基礎表格第二節（原創）

utf 空心圓無序列表 har ble 學習 oot order 有序 <!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title

強化學習第二版（翻譯）第二版前言

相關推薦