1. 程式人生 > >強化學習第二版(翻譯)第二版前言

強化學習第二版(翻譯)第二版前言

(由百度翻譯修改而來,儘量保證邏輯通順,建議以原文為主)

    自本書第一版出版以來的二十年裡,人工智慧取得了巨大的進步,這在很大程度上得益於機器學習的進步,包括強化學習的進步。雖然現有的令人印象深刻的計算能力是這些進步的主要原因,但理論和演算法的新發展也推動了這些力量的發展。面對這一進步,我們的1998本書的第二版早就應該出現了,我們終於在2013開始了這個專案。我們的第二版的目標與我們的第一個目標是相同的:提供一個清晰和簡單的強化學習的關鍵思想和演算法,讓所有相關學科的讀者都能理解。該版本仍然是一個導論,我們仍然專注於核心,線上學習演算法。這個版本引入了一些在過去幾年中變得重要的新話題,不僅如此為了更好的理解,我們擴大了主題的覆蓋範圍。但我們並沒有試圖對這一領域進行全面的報道,該領域在許多不同的方向發生了巨大變化,許多活躍的研究者做出了傑出的貢獻。我們很抱歉其中的一部分都漏掉了。

    正如在第一版中,我們選擇不產生一個嚴格的正規的強化學習,或者用最一般的術語來表述它。然而,在第一版後,我們對一些主題的深入理解需要更多的數學來解釋;我們更多在黑盒中使用數學方法而跳過不數學的部分。我們還使用了與前一版中使用的稍微不同的符號。在教學中,我們發現新的符號有助於解決混淆的一些常見問題。它強調隨機變數之間的差異,用大寫字母表示變數,用小寫表示其例項。例如,狀態,行動,和收益在時間t下分別表示為,S_t,A_t 和R_t,而他們可能的值可能表示為s,a,r。同時, 我們用小寫字母表示價值函式( value functions (e.g., v_π) )且用大寫表示他們的 tabular estimates

(e.g., Q_t(s,a))。近似價值函式((Approximate value functions)是隨機引數下的確定性函式,從而也用小寫字母表示(例如,v^(s,w_t)≈v_π(s),(太複雜了打不出來,看書))。向量,如權重向量w_t(原θ_t)和特徵向量x_t(原φ_t),是粗體小寫的即使他們是隨機變數。大寫粗體為矩陣。在第一個版本我們用了特殊的符號P^a_ss′和R^a_ss',方便對應轉移概率和預期收益(reward,到底是什麼意思)。該符號的一個缺點是,它仍然沒有充分描述收益的動態變化,只給出他們的期望。另一個弱點是下標和上標過剩。在本版中我們使用p(s′,r|s,a)這樣的顯示錶示體現已知當前狀態和動作下個狀態和收益的聯合概率。所有符號的變化彙總在第十五頁的表中。

    第二版大幅度擴充,其頂級組織已被修改。在第一章介紹之後,第二版分為三個新部分。第一部分(第2章-第8章)儘可能多地學習強化學習without going beyond the tabular case(tabular case是什麼意思?) for which exact solutions can be found。我們覆蓋了tabular case的學習和規劃方法,以及它們在N步方法和動態的統一。這部分出現了許多第二版的新增演算法,包括UCB, Expected Sarsa, Double learning, tree-backup, Q(σ), RTDP, and MCTS。先做tabular case,儘可能地使其核心思想在最簡單的環境中展開。書的第二部分(第9章至第13章)致力於把思想擴充套件到函式逼近(function approximation)。它加入了有關artificial neural networks, the fourier basis, LSTD, kernel-based methods, Gradient-TD and Emphatic-TD methods, average-reward methods, true online TD(λ), and policy-gradient methods的新的內容。第二版大大擴充套件了對off-policy learning手段,首次出現在第5章至第7章tabular case中,在第11章和第12章中進行了函式近似。另一個變化是,第二版講n步自舉的前向策略(在第七章中被更充分說明)從關注適合度軌跡的後項策略(現在在12章獨立說明)中分離。本書第三部分就強化學習和心理學(14章)以及神經網路(15章)的關係增加了新的章節,以及最新的案例研究包括 Atari game playing, Watson, and AlphaGo (16章)。儘管如此,出於需要,我們只包括了現在的一小部分工作。我們的選擇反映了我們對低成本的無模型方法的長遠興趣,這些方法可以很好地擴充套件到大型應用程式。最後一章討論了強化學習對未來社會的影響。無論如何,第二版比第一版長60%。

    這本書的目的是作為一個或兩個學期的課本。一個學期的課程應覆蓋前十章以形成良好的核心,它可以從其他章節中新增材料,獲從其他課本新增材料如Bertsekas and Tsitsiklis (1996), Weiring and van Otterlo (2012), and Szepesv ́ari (2010),獲根據口味挑選別的作品。根據學生的背景,一些線上監督學習的附加材料可能會有所幫助。The ideas of options and option models are a natural addition (Sutton, Precup and Singh, 1999).(不明白)。一個兩學期的課程可以涵蓋所有章節和補充材料。這本書還可以作為機器學習、人工智慧或神經網路的更廣泛課程的一部分。在這種情況下,可以只覆蓋材料的一個子集。我們建議對第1章作簡要概述,第2章至第2.4節,第3章,然後根據時間和興趣選擇其餘章節的章節。第6章是本書最重要的部分。以機器學習或神經網路為中心的課程應包括第9章和第10章,而側重於人工智慧或計劃的課程應包括第8章。在本書中,章節有難度,這本書的其餘部分不必要的標記有∗。這些可以在第一讀時省略,以後不會產生問題。一些運動也有∗表明他們更先進和理解本章的基本材料不是必需的。

    大多數章節以“Bibliographical and Historical Remarks”結尾,我們在此讚許了章節中一些想法的來源,提供進一步的閱讀材料和正在進行的研究,並介紹相關的歷史背景。儘管我們試圖使這些章節具有權威性和完整性,但毫無疑問,我們仍然有所缺漏。為此,我們再次表示歉意,我們歡迎修訂和擴充套件納入本書的電子版。

    和第一個版本一樣,這個版本向A. Harry Klopf致敬。正是他關於大腦和人工智慧的思想,使我們開始了強化學習的漫長旅程。Harry是一位隸屬於Avionics Directorate of the Air Force Office of Scientific Research (AFOSR) at Wright-Patterson Air Force Base, Ohio的資深科學家,對於神經網路和機器學習有濃厚興趣。他反對過分用equilibrium-seeking processes, including homeostasis and error-correcting pattern classification methods,去解釋自然智慧,且將其作為機器智慧的基礎。他指出,試圖最大化的系統(無論它是什麼)與尋求平衡系統有著質的不同,他認為最大化系統是理解自然智慧和人工智慧的關鍵。Harry從AFOSR處獲得資金推進了相關專案。該專案……

(。。。。後面都是貢獻和感謝,看不動了)