1. 程式人生 > >Reinforcement Learning An Introduction~Examples

Reinforcement Learning An Introduction~Examples

1.2 例子

理解強化學習的一個好方法是考慮一些指導其發展的示例和可能的應用。

  • 大師級國際象棋選手採取行動。通過考慮可能的落子和反擊這種計劃來做出選擇,以及對特定位置和落子的可取性採取果斷的直接的判斷。
  • 自適應控制器實時調整煉油廠操作的引數。控制器在此基礎上優化產量/成本/質量權衡指定的邊際成本,而不是嚴格遵守最初工程師建議的設定點。
  • 一隻瞪羚小牛出生後幾分鐘就掙扎著。 半小時後呢?它以每小時20英里的速度奔跑。
  • 移動機器人決定是否應該進入新房間以尋找和收集更多垃圾或開始嘗試找回其電池充電站的路。根據電池的當前充電水平和速度做出決定,它很容易就能找到過去的充電器位置。
  • 菲爾準備他的早餐。仔細檢查,即使這個看似平凡的活動也揭示了一個複雜的條件行為網和互鎖目標關係:走到櫥櫃,開啟它,選擇一個麥片盒,然後伸手去拿,抓住並取回盒子。再通過其他一系列複雜的,調整的,互動的,必須的行為來獲得碗,勺子和牛奶壺。每個步驟都涉及一系列眼球運動,以獲取資訊到達大腦並指導和協調肢體動作。菲爾對於如何攜帶物品,或者在獲得其他物品之前將它們中的一些運送到餐桌上是否更好的,在不停地進行快速判斷。每個步驟都以目標為指導,例如抓勺子或到達冰箱,並且服務於其他目標,例如一旦準備好穀物並且最終可以獲得營養,那麼菲爾拿起勺子就吃。無論他是否意識到這一點,菲爾都在獲取有關他身體狀況的資訊,這些資訊決定了他的營養需求,飢餓程度和食物偏好。

       這些示例共享的功能非常基本,很容易被忽略。 所有涉及主動決策的智慧體與其環境之間的相互作用,智慧體在其中尋求實現目標,儘管其環境存在不確定性。允許智慧體的行為影響未來的環境狀態(例如,下一個國際象棋位置,煉油廠的水庫水平,機器人的下一個位置以及其電池的未來充電水平),從而影響那些以後提供給智慧體可用的選項和機會。 正確的選擇需要考慮到行動的間接延遲後果,因此可能需要預見或規劃。

       同時,在所有這些例子中,行動的影響無法完全預測; 因此,智慧體必須經常監控其環境並做出適當的反應。例如,菲爾必須觀察他倒入穀物碗中的牛奶以防止溢位。所有這些例子都涉及明確的目標,即智慧體可以根據其直接感知的內容來判斷其目標的進展。國際象棋選手知道他是否獲勝,煉油廠控制員知道生產了多少石油,瞪羚小牛知道它奔跑時何時落下,移動機器人知道它的電池何時耗盡,菲爾知道他是否正在享用他的早餐。

      在所有這些示例中,智慧體可以使用其經驗來改善其表現。隨著時間的推移。國際象棋選手改進了他用來評估位置的直覺,從而改善了他的發揮; 瞪羚小牛提高了它的奔跑效率; 菲爾學會精簡他的早餐。智慧體在開始時為任務帶來的知識,無論是從以前的相關任務經驗,還是通過設計或演變構建到任務中,對於有用或易於學習的內容都是有影響的。但是,對於調整行為以利用任務的特定功能來說,與環境的互動至關重要。