1. 程式人生 > 實用技巧 >【RL】1.概論與基礎

【RL】1.概論與基礎

因為個人原因,沒能抽出時間將筆記電子化。計劃過幾日實現電子化。

課程內容

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述

問題

  1. 強化學習的基本結構是什麼?

答:agent與env互動,env生成state,agent觀測state為observation,決定action。見課程內容的圖1。

  1. 強化學習相對於監督學習為什麼訓練會更加困難?(強化學習的特徵)

答:[^1]

  • 強化學習處理的多是序列資料,其很難像監督學習的樣本一樣滿足IID(獨立同分布)條件。

  • 強化學習有獎勵的延遲(Delay Reward),即在Agent的action作用在Environment中時,Environment對於Agent的State的獎勵的延遲(Delayed Reward),使得反饋不及時。

  • 相比於監督學習有正確的label,可以通過其修正自己的預測,強化學習相當於一個“試錯”的過程,其完全根據Environment的“反饋”更新對自己最有利的Action。

  1. 強化學習的基本特徵有哪些?

答:

  • 強化學習輸入資料的是時序性的
  • 強化學習未能得到即時反饋,有獎勵的延遲(Delay Reward)
  • exploration vs exploitation
  • 之前的決策會影響環境
  1. 近幾年強化學習發展迅速的原因?

答:深度學習的突破,並應用於強化學習中作為特徵提取器(自動提取特徵)。

  1. 狀態和觀測有什麼關係?

答:狀態(state)是對世界的完整描述,不會隱藏世界的資訊。觀測(observation)是對狀態的部分描述,可能會遺漏一些資訊。

  1. 對於一個強化學習 Agent,它由什麼組成?

答:policy,value,model.

  1. 根據強化學習 Agent 的不同,我們可以將其分為哪幾類?

答:可見課程內容中的三個⚪相交圖

  1. 基於策略迭代和基於價值迭代的強化學習方法有什麼區別?

答:策略迭代其實更符合我們人的決策,而價值迭代則更易進行訓練,價值迭代是策略迭代的升級。

  1. 有模型(model-based)學習和免模型(model-free)學習有什麼區別?

答:model-based是與虛擬環境的互動學習,model-free是在現實環境中的互動學習。

  1. 強化學習的通俗理解

答:通過agent與env的互動,學習到policy,而policy的學習牽涉到value function/q function的最優化。

[^1]參考