1. 程式人生 > 實用技巧 >強化學習(一)

強化學習(一)

提示:文章寫完後,目錄可以自動生成,如何生成可參考右邊的幫助文件

文章目錄


前言

7月份和老師溝通後,確定了基本的研究方向:智慧控制,具體一點就是強化學習在無人機、飛行器、航天器控制方面的應用,然後踏上了機器學習的心酸路程。10月份,終於結束了第一階段的學習。

這個系列縫合了李巨集毅老師、莫煩老師、劉建平老師等的知識,在此感謝這三位老師並強烈推薦這三位老師的教學視訊或部落格。


一、強化學習是什麼?

強化學習是和監督學習、非監督學習並列的第三種機器學習方法。

強化學習的學習思路和人比較類似,是在實踐中學習,比如學習走路,如果摔倒了,那麼我們大腦後面會給一個負面的獎勵值,說明走的姿勢不好。然後我們從摔倒狀態中爬起來,如果後面正常走了一步,那麼大腦會給一個正面的獎勵值,我們會知道這是一個好的走路姿勢。

上面的大腦代表我們演算法執行個體,智慧體(Agent),下面的地球代表環境(environment)Agent選擇一個合適的動作(Action) AtA_t後,環境的狀態(State)會發生改變,環境狀態變為St+1S_(t+1),同時我們得到了我們採取動作AtA_t的延時獎勵(Reward)