強化學習(一)
阿新 • • 發佈:2020-10-17
提示:文章寫完後,目錄可以自動生成,如何生成可參考右邊的幫助文件
文章目錄
前言
7月份和老師溝通後,確定了基本的研究方向:智慧控制,具體一點就是強化學習在無人機、飛行器、航天器控制方面的應用,然後踏上了機器學習的心酸路程。10月份,終於結束了第一階段的學習。
這個系列縫合了李巨集毅老師、莫煩老師、劉建平老師等的知識,在此感謝這三位老師並強烈推薦這三位老師的教學視訊或部落格。
一、強化學習是什麼?
強化學習是和監督學習、非監督學習並列的第三種機器學習方法。
強化學習的學習思路和人比較類似,是在實踐中學習,比如學習走路,如果摔倒了,那麼我們大腦後面會給一個負面的獎勵值,說明走的姿勢不好。然後我們從摔倒狀態中爬起來,如果後面正常走了一步,那麼大腦會給一個正面的獎勵值,我們會知道這是一個好的走路姿勢。
上面的大腦代表我們演算法執行個體,智慧體(Agent),下面的地球代表環境(environment)。Agent選擇一個合適的動作(Action) AtA_t後,環境的狀態(State)會發生改變,環境狀態變為St+1S_(t+1),同時我們得到了我們採取動作AtA_t的延時獎勵(Reward)