1. 程式人生 > >增強學習(三)——Q-Learning

增強學習(三)——Q-Learning

假設智慧體處於狀態2,那麼,它從狀態2能夠直接到達狀態3,因為狀態2和狀態3相連。然而,智慧體從狀態2不能直接到達狀態1,因為在房間2和房間1之間沒有直接相通的門,也即沒有箭頭存在。從狀態3,智慧體要麼到達狀態1,要麼到達狀態4,抑或著返回到狀態2。如果智慧體處於狀態4,那麼它有3種可能的動作,即到達狀態0,、5或3。如果智慧體在狀態1,它能夠到達狀態5或者狀態3。從狀態0,它只能到達狀態4。