1. 程式人生 > >深度強化訓練:從畫素點發出的Pong

深度強化訓練:從畫素點發出的Pong

這是一篇報道Reinforcement Learnning(RL)的部落格。RL是很熱門的!

你可能已經注意到,電腦現在可以自動學習玩ATARI遊戲(從原始的 pixelsi遊戲中!),他們模擬的四足動物擊敗了世界冠軍,學習了跑步和跳躍。而且機器人正在學習如何執行復雜的操作任務,而這些複雜的操作是違反了明確的程式的。在RL研究框架下,所有這些進步都是在過去的一年中對RL產生了興趣。我通過Richard Sutton的書,閱讀大衛·西爾弗的課程,看John舒爾曼的講座,在Javascript中寫了一個RL Library。整個夏天,一直圍繞DeepRL小組的DeepMind工作, OpenAI對的設計/發展,一個新的RL基準toolkit展開研究。所以我在這funwagon中至少專研了一年,直到現在還沒有抽出時間來寫。為什麼RL是一個大問題?它是關於什麼的?它是如何發展的呢?並且它可能會發展到什麼境界你?

在wild中RL的例子。從左到右:玩ATARI的深度學習網;在阿塔裡的學習網路中;AlphaGO;伯克利堆疊機器人Leaos ;模擬四足跳躍的外形的動物。

很有趣的是,在RL的最近進展的本質上,我想要考慮四個不同的因素來阻止AI。

1、計算(最明顯的是:摩爾定律、GPUs、 ASICs)

2、資料(在一個nice的形式中,不是在網際網路上的某個地方。如:ImageNet)

3、演算法(研究和想法。如:backprop、CNN、LSTM)

4、基礎設施(軟體under you-Linux,TCP/IP,Git,ROS,PR2,AWS,AMT,Tensorflow,etc.)

與計算機視覺的發展相似,RL的進展並沒有像你想象的那麼多。