1. 程式人生 > >FPGA機器學習之stanford機器學習第十八堂

FPGA機器學習之stanford機器學習第十八堂

              

MDP的幾個參量。

這個就比較熟悉了。獎勵最大化函式。

獎勵函式改變,並不會有太多影響。


s狀態,a行為。獎勵機制。


1是當前回報,2未來總回報。

左邊的圈是加1,後邊的圈加10,下面是機器人

的行為,為什麼沒有向10方向,是因為沒有足夠的時間參量。(比如飛機飛行,燃料決定時間參量)

LQR,

線性二次方法則。同樣的五個參量。

wt,噪聲項,不是很重要。非平穩動態。


S為線性函式。然後s0就是策略了。最後一個公式是最小均方誤差。然後來求引數。

現在是f非線性模型。

橫軸輸入,豎向輸出。圖是線性化的過程。那個是切線。

當你用一個線性化一個非線性系統,主要是因為一般情況下,離的近,所以可以近似。

倒立擺的情況一般都是資料接近0的情況,因為0才是中心軸嘛。所以線性化,不會有太多問題。

Vt最佳決策。T是轉置。最後一個式子獎勵最大化求法。

最佳行為。狀態的線性函式。最佳策略是線性函式。LS就是線性函式。

微笑我能力有限,但是我努力讓自己多學一點。這是我的學習筆記,方便複習