1. 程式人生 > >FPGA機器學習之stanford機器學習第二十堂

FPGA機器學習之stanford機器學習第二十堂

 

線性二次相關問題。選擇動作。

POMDP引數又多了2個。

  o是觀察分佈。

隨機策略???

狀態和行為的對映,π(s,a)

制定一個可能的行為分佈。

π,策略。

 

a1,a2是兩個行為,加速度。

1,兩個的內積。s是位置,theta引數。

2,目標,最大化預期回報。

取樣,然後最大化收益,然後更新。

非常像梯度上升,

寫了四個步驟。這幾個步驟,看不懂就不截圖了。

預期回報是梯度方向。加強優化是梯度方向。

PEGASUS策略搜尋。

1獎勵,2是動作,行向轉移的是狀態。

飛機的執行用的是這個pegasus方法完成的。

pegasus演算法的結果。

MDP模型,偏差估計。

60分鐘開始講了很多的例子。機器學習應用。

微笑我能力有限,但是我努力的理解。他們都成了專家,我好想才理解了一點點,在學習,在瞭解。stanford就到此為止