【RL】1.概論與基礎
阿新 • • 發佈:2020-10-21
因為個人原因,沒能抽出時間將筆記電子化。計劃過幾日實現電子化。
課程內容
問題
- 強化學習的基本結構是什麼?
答:agent與env互動,env生成state,agent觀測state為observation,決定action。見課程內容的圖1。
- 強化學習相對於監督學習為什麼訓練會更加困難?(強化學習的特徵)
答:[^1]
-
強化學習處理的多是序列資料,其很難像監督學習的樣本一樣滿足IID(獨立同分布)條件。
-
強化學習有獎勵的延遲(Delay Reward),即在Agent的action作用在Environment中時,Environment對於Agent的State的獎勵的延遲(Delayed Reward),使得反饋不及時。
-
相比於監督學習有正確的label,可以通過其修正自己的預測,強化學習相當於一個“試錯”的過程,其完全根據Environment的“反饋”更新對自己最有利的Action。
- 強化學習的基本特徵有哪些?
答:
- 強化學習輸入資料的是時序性的
- 強化學習未能得到即時反饋,有獎勵的延遲(Delay Reward)
- exploration vs exploitation
- 之前的決策會影響環境
- 近幾年強化學習發展迅速的原因?
答:深度學習的突破,並應用於強化學習中作為特徵提取器(自動提取特徵)。
- 狀態和觀測有什麼關係?
答:狀態(state)是對世界的完整描述,不會隱藏世界的資訊。觀測(observation)是對狀態的部分描述,可能會遺漏一些資訊。
- 對於一個強化學習 Agent,它由什麼組成?
答:policy,value,model.
- 根據強化學習 Agent 的不同,我們可以將其分為哪幾類?
答:可見課程內容中的三個⚪相交圖。
- 基於策略迭代和基於價值迭代的強化學習方法有什麼區別?
答:策略迭代其實更符合我們人的決策,而價值迭代則更易進行訓練,價值迭代是策略迭代的升級。
- 有模型(model-based)學習和免模型(model-free)學習有什麼區別?
答:model-based是與虛擬環境的互動學習,model-free是在現實環境中的互動學習。
- 強化學習的通俗理解
答:通過agent與env的互動,學習到policy,而policy的學習牽涉到value function/q function的最優化。
[^1]參考