1. 程式人生 > >【強化學習】入門和資料

【強化學習】入門和資料

去年的alpha go到 alpha go zero 在到Alpha Zero, deeepmaid真的是不斷在刷分,追趕不及。核心還是深度學習+強化學習。感覺深度學習的發展已經逐漸進入冷卻期。NIPS的文章數量雖然排在第二名,但是除非出現非常創新性的演算法,例如Le Cun 老爺子的Capsule Net啥的,當然。。個人觀點。深度學習這把火一起燒起來的還有強化學習。畢竟能讓機器自己學習,在控制、遊戲中應用中很多。最近在整理資料,看到這部分,所以動手實踐下,做個入門。

環境搭建

搭建指南可以參見這裡點選,作者基本羅列的常用框架和工具的安裝和簡單使用,包括

  • MuJoCo 學生可以免費使用一年,gym-演算法評估,
  • rllib-類似gym但是提供了一些演算法實現,
  • DeepMind Lab 3D迷宮學習環境,
  • OpenAI Baselines 高質量強化學習演算法實現
  • PySC2,TORCS StarCraft II和賽車實驗環境

這裡記個坑:DeepMind的開源在這裡是主流了,專案都是用的Bazel,這個東西樓主沒用過。於是根據doc安裝,其中有句話說 “you can update bazel by using - sudo apt upgrade bazel”, 想都沒想直接執行了這個命令,結果把整個系統都更新了。。可怕。坑人的教程,下次記得帶腦。。

資料整理(歡迎補充)

環境安裝教程

課程

書籍

Github