Reinforcement Learning An Introduction~Elements of Reinforcement Learning
1.3 強化學習的要素
除了智慧體和環境之外,我們還可以識別強化學習系統的四個主要子元素:策略,獎勵訊號,價值函式,以及可選的環境模型。
策略定義為可以學習的智慧體在給定時間的行為方式。粗略地說,策略是從感知的環境狀態到在這些狀態下要採取的動作的對映。它對應於心理學中所謂的一組刺激響應或關聯規則。在某些情況下,策略可以是簡單的函式或查詢表,而在其他情況下,它可能涉及廣泛的計算,例如搜尋過程。該策略是強化學習智慧體的核心,因為它本身足以確定行為動作。一般而言,策略可以是隨機的。
獎勵訊號定義了強化學習問題中的目標。 在每個時間步,環境向強化學習智慧體傳送一個稱為獎勵值的數字。智慧體的唯一目標是最大化其長期收到的總獎勵。因此,獎勵訊號定義了智慧體的好事和壞事。在生物系統中,我們可能會認為獎勵類似於快樂或痛苦的經歷。 它們是智慧體所面臨問題的直接的和可定義的特徵。獎勵訊號是改變策略的主要依據;如果通過策略選擇的操作之後獲得的是低獎勵,則可以更改策略,以在將來選擇該情況下的某些其他操作。通常,獎勵訊號可以是環境狀態和所採取的動作的隨機函式。
獎勵訊號表示直接意義上的好處,而價值函式指定從長遠來看有什麼好處。粗略地說,一個狀態的價值是一個智慧體從該狀態開始到未來積累的獎勵總額的期望。雖然獎勵決定了環境狀態的直接的內在的可取性,但狀態值函式表明了考慮到接下來可能的狀態以及這些狀態下可獲得的獎勵之後的總獎勵的期望值。例如,一個狀態可能總是產生比較低的即時獎勵,但仍然具有很高的價值,因為其他狀態經常會產生高回報。或者情況恰恰相反,本狀態產生較高的及時獎勵,但是接下來的狀態產生較低的獎勵值。拿人類進行比喻,獎勵有點像心情,你心情好的話就快樂,心情差的時候就低落。而價值則使我們對自己處於特定環境狀態下的高興或不滿具有更精確和有遠見的判斷。
獎勵在某種意義上是主要的,而作為獎勵預測的價值是次要的。沒有獎勵就沒有價值,估算價值的唯一目的就是獲得更多回報。然而,在制定和評估決策時,我們最關心的是價值觀。 行動選擇基於價值判斷。 我們尋求的行動會帶來最高價值而非最高回報的狀態,因為從長遠來看,這些行動會為我們帶來最大的回報。不幸的是,確定價值要比確定獎勵要困難得多。獎勵基本上由環境直接給出,但價值必須根據智慧體在其整個生命週期中所做的觀察序列來估計和重新估計。實際上,在我們考慮的幾乎所有的強化學習演算法中,最重要的部分是有效估計價值的方法。價值估計的核心作用可以說是過去六十年來有關強化學習的最重要的事情。
強化學習系統的第四個也是最後一個要素是環境模型。它可以模仿環境的行為,或者更一般地說,可以推斷出環境的行為方式。例如,給定狀態和動作,模型可以預測結果的下一狀態和下一個獎勵。模型用於計劃,我們指的是在實際經歷之前,通過考慮未來可能的情況來決定行動方案的任何方式。解決使用模型和計劃的強化學習問題的方法,稱為基於模型的方法,而不是簡單的無模型方法,後者明確地將試錯學習者視為計劃的對立面。在第8章中,我們探索了強化學習系統,它們通過反覆試驗來學習,學習環境模型,並使用模型進行規劃。現代強化學習涵蓋了從低級別,反覆試驗學習到高級別,嚴謹規劃的範圍。