FPGA機器學習之stanford機器學習第十六堂
阿新 • • 發佈:2019-01-22
Reinforcement Learning
強化學習。這裡舉例子是自主飛行的飛機。控制飛機,如果自主寫程式的話,會很難,所以需要它自學習。
最好用的地方,就是下棋。不過,怎麼半監督學習演算法。只有下棋的結果,贏和輸,其實也算是監督了。
所以它就會自主的去贏更多的棋,來學習。
一直採取行動。就是整個過程一直都在訓練著。
就是在行為過程中,不斷的給獎勵和批評。來優化更好的方案。
MDP如何工作的。
選擇動作A0,執行新的狀態A1,取決於以前的概率。情況。
這個是獲得的獎勵總和最大。r大於0,小於1.
這樣它就不會不斷執行a0,a1,做正確的事情,使得獎勵最大化。
加1的位置就是我們要走到的地方。就是棋局贏了的 意思。
後面就是的政策價值函式圖。
用盡所有的策略。得出最大值。
值迭代演算法。
其實那裡的.8是0.8的縮略寫法。
政策迭代
對於狀態很多的,傾向使用迭代方法求解。
不知道狀態轉移概率。
本人能力有限,但是我努力的學習,發展,現在寫的可能有點亂套,總有一天我會成為高手的。