【強化學習】入門和資料
阿新 • • 發佈:2019-02-17
去年的alpha go到 alpha go zero 在到Alpha Zero, deeepmaid真的是不斷在刷分,追趕不及。核心還是深度學習+強化學習。感覺深度學習的發展已經逐漸進入冷卻期。NIPS的文章數量雖然排在第二名,但是除非出現非常創新性的演算法,例如Le Cun 老爺子的Capsule Net啥的,當然。。個人觀點。深度學習這把火一起燒起來的還有強化學習。畢竟能讓機器自己學習,在控制、遊戲中應用中很多。最近在整理資料,看到這部分,所以動手實踐下,做個入門。
環境搭建
搭建指南可以參見這裡點選,作者基本羅列的常用框架和工具的安裝和簡單使用,包括
- MuJoCo 學生可以免費使用一年,gym-演算法評估,
- rllib-類似gym但是提供了一些演算法實現,
- DeepMind Lab 3D迷宮學習環境,
- OpenAI Baselines 高質量強化學習演算法實現
- PySC2,TORCS StarCraft II和賽車實驗環境
這裡記個坑:DeepMind的開源在這裡是主流了,專案都是用的Bazel,這個東西樓主沒用過。於是根據doc安裝,其中有句話說 “you can update bazel by using - sudo apt upgrade bazel”, 想都沒想直接執行了這個命令,結果把整個系統都更新了。。可怕。坑人的教程,下次記得帶腦。。