1. 程式人生 > >強化學習綜述

強化學習綜述

作者:Michael L. Littman等

摘要

這篇文章從電腦科學的角度對強化學習這一領域進行了研究,並且儘量寫的讓熟悉機器學習的相關研究者能夠較為容易的讀懂。我們研究了強化學習這一領域歷史上的基礎,也廣泛總結了當今研究的主流選擇。強化學習是關於智慧體通過與動態環境進行不斷互動,從而在“嘗試-錯誤”過程中學習正確行為的問題。這篇文章與心理學上的研究有一定的關係,但更值得注意的是,這裡的強化與心理學上的強化是很不一樣的。這篇文章主要討論強化學習,包括探索與利用的權衡、通過馬爾科夫決策理論(Markove decision theory)建立該領域的基礎、通過延遲獎勵進行學習、構建經驗模型加速學習、標準化與結構化、處理隱藏狀態等。文章結尾對幾個已經實現了的強化學習系統的的綜述以及目前可用的模型進行了評估。

1 引言

強化學習最早可以追溯到早期控制論以及統計、心理學、神經科學、電腦科學等學科的一些研究。在最近的五到十年中,強化學習在機器學習和人工智慧研究者中得到了大量的關注,它描繪了一種在不進行具體指導的情況下通過對智慧體進行獎勵與懲罰而完成任務的程式設計方式。但是完成這一想法有著巨大的計算困難。
這篇文章從電腦科學的角度對強化學習的研究歷史和當前研究狀況進行了綜述。我們以較大的視角對強化學習這一領域進行了回顧,並對特定幾個方法進行了詳細的描述。當然,無法涉及該領域中所有出現過的重要方法,在有限的篇幅中難以做到。
強化學習是智慧體通過與動態的環境進行“嘗試-錯誤”式的互動而學習自己應該具有什麼樣的行為的問題。這裡的描述與心理學有點相似,但是“強化”這一概念是很不一樣的。強化學習中的“強化”應當理解為一類問題,而不是一系列的技巧。
主要存在兩種解決強化學習問題的策略。第一種是搜尋行為空間來找到在環境中表現最好的行為序列。這種方法在一般的演算法和程式以及一些新的研究中都有用到(Schmidhuber,1996)。第二種是使用統計學和動態規劃的方法建立不同環境狀態(states)下采取不同動作(actions)的效用(utility)。這篇文章急乎乎只涉及第二種方法,因為這種方法利用了強化學習的特殊結構,而且是一般的最優化方法難以達到的。現在不清楚哪一類方法在什麼樣的場景下更有效。
這一節剩下部分主要建立符號說明並描述基本的強化學習模型。第二節介紹探索與利用之間的權衡以及解決最基本的我們想要最大化當前獎勵的問題。第三節考慮更一般的問題,對於一些重要的獎勵,可以在延遲到動作執行之後。第四節考慮經典的延遲獎勵下強化學習的無模型演算法:適應性啟發評論者(adaptive heuristic critic)、

TD(λ)Q-learning。第五節