【強化學習】入門和資料

阿新 • • 發佈：2019-02-17

去年的alpha go到 alpha go zero 在到Alpha Zero， deeepmaid真的是不斷在刷分，追趕不及。核心還是深度學習+強化學習。感覺深度學習的發展已經逐漸進入冷卻期。NIPS的文章數量雖然排在第二名，但是除非出現非常創新性的演算法，例如Le Cun 老爺子的Capsule Net啥的，當然。。個人觀點。深度學習這把火一起燒起來的還有強化學習。畢竟能讓機器自己學習，在控制、遊戲中應用中很多。最近在整理資料，看到這部分，所以動手實踐下，做個入門。

環境搭建

搭建指南可以參見這裡點選，作者基本羅列的常用框架和工具的安裝和簡單使用，包括

MuJoCo 學生可以免費使用一年,gym-演算法評估,

rllib-類似gym但是提供了一些演算法實現,
DeepMind Lab 3D迷宮學習環境,
OpenAI Baselines 高質量強化學習演算法實現
PySC2,TORCS StarCraft II和賽車實驗環境

這裡記個坑：DeepMind的開源在這裡是主流了，專案都是用的Bazel，這個東西樓主沒用過。於是根據doc安裝，其中有句話說 “you can update bazel by using - sudo apt upgrade bazel”, 想都沒想直接執行了這個命令，結果把整個系統都更新了。。可怕。坑人的教程，下次記得帶腦。。

資料整理(歡迎補充）

環境安裝教程

課程

書籍

Github

【強化學習】入門和資料

去年的alpha go到 alpha go zero 在到Alpha Zero， deeepmaid真的是不斷在刷分，追趕不及。核心還是深度學習+強化學習。感覺深度學習的發展已經逐漸進入冷卻期。N

【強化學習】MOVE37-Introduction（導論）

本課作為導論，大致普及了一下機器學習和強化學習的概念和用途。其次，捎帶介紹了一下最常見的監督學習和非監督學習。對機器學習稍有了解的同學們，對這兩個概念應該不陌生。如果對此毫無概念的同學們，可以看我下面的簡單說明。機器學習（Machine Learning) 首先，我們要明白，所謂的機器學習就是試圖找出

【深度學習】MXNet基本資料結構NDArray常用操作

文章目錄概述示例概述在MXNet深度學習框架中，NDArray是儲存和變換資料的主要工具，和NumPy中的ndarray有異曲同工之妙。在下面的示例中，主要展示了： NDarray的建立；

【強化學習】python 實現 q-learning 例二

問題情境一個2*2的迷宮，一個入口，一個出口，還有一個陷阱。如圖這是一個二維的問題，不過我們可以把這個降維，變為一維的問題。 0.相關引數 epsilon = 0.9 # 貪婪度 greedy alpha = 0.1 # 學習率 gamma = 0.8 #

【強化學習】python 實現 q-learning 例三

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10139738.html 例一的程式碼是函式式編寫的，這裡用面向物件的方式重新擼了一遍。好處是，更便於理解環境(Env)、個體(Agent)之間的關係。有緣看到的朋友，自己慢慢體會吧。 0.效果

【強化學習】python 實現 q-learning 例四（例二改寫）

陷阱 data img 入口 turn pda state save isod 將例二改寫成面向對象模式，並加了環境！不過更新環境的過程中，用到了清屏命令，play()的時候，會有點問題。learn()的時候可以勉強看到:P 0.效果圖 1.完整代碼相對於例一，

【強化學習】python 實現 q-learning 迷宮通用模板

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10145797.html 0.說明這裡提供了二維迷宮問題的一個比較通用的模板，拿到後需要修改的地方非常少。對於任意的二維迷宮的 class Agent，只需修改三個地方：MAZE_

【強化學習】python 實現 saras lambda 例一

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10147265.html 將例一用saras lambda演算法重新擼了一遍，沒有參照任何其他人的程式碼。僅僅根據虛擬碼，就擼出來了。感覺已真正理解了saras lambda演算法。記錄如下 0.

【轉】【強化學習】Deep Q Network(DQN)演算法詳解

原文地址：https://blog.csdn.net/qq_30615903/article/details/80744083 DQN（Deep Q-Learning）是將深度學習deeplearning與強化學習reinforcementlearning相結合，實現了從

【強化學習】用pandas 與 numpy 分別實現 q-learning, saras, saras(lambda)演算法

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10159331.html 特別感謝：本文的三幅圖皆來自莫凡的教程 https://morvanzhou.github.io/ pandas是基於numpy的，但是兩者之間的操作有區別

【unix學習】程序和檔案備份壓縮打包

程序 nice value -20 – 19之間表示程序的優先順序，nice值越小，代表優先順序越高，執行越早。當設定優先順序的nice值時，最低只能是0，當小於0時報錯了。 [s14516@gdufs]$nice -n -20 fi

【tensorflow 學習】 name_scope和variable_scope的區別

在tensorflow中,有兩個scope, 一個是name_scope一個是variable_scope,這兩個scope到底有什麼區別呢? 三個例子先看第一個程式: with tf.name_scope("hello") as name_scope: a

【C++學習】變數和儲存區

儲存區一般分為以下五種：棧區：由編譯器在需要的時候進行分配，不需要的時候會自動清空，棧區一般比較小，對於較大的陣列不應該放入棧區。堆區：由new分配的空間，他們的釋放由程式中的語句進行操

【面試心得】演算法和資料結構：查詢和排序

演算法和資料結構在面試中備受面試官的青睞，其中排序和查詢是面試中考察演算法的重點。在準備面試的時候，我們應該重點掌握二分查詢、快速排序和歸併排序，做到能隨時正確、完整地寫出程式碼。查詢和排序都是在程式設計中常用到的演算法。關於查詢演算法應該掌握：順序查詢、二分查詢、雜

【C#學習】繼承和多型

建構函式和解構函式的呼叫順序建構函式和解構函式的呼叫順序相反，建構函式從基類到派生類依次呼叫，解構函式反過來。抽象類和抽象方法抽象方法必須包含在抽象類中，也就是說，一旦一個類包含抽象方法，就應該被宣告為抽象類。抽象類用 abstract 修飾，無法用new 來例項化。但可以用抽象類的引用

【Redis學習】：set資料型別詳解

set資料結構常用命令新增/刪除元素 sadd key values[value1 value2 ...] 向set中新增資料，如果該key的值已有不會重複新增。 srem

【Redis學習】：list資料型別詳解

list資料結構在redis中，list資料結構是按照插入順序的字串連結串列，和資料結構中的普通連結串列一樣，我們可以在其頭部（left）和尾部（right）新增新的元素。在插入時，如果該鍵並不

【強化學習】階段總結

馬爾可夫決策過程 MDP 基於模型的動態規劃方法（Model-Based，DP）策略搜尋策略迭代值迭代無模型的強化學習方法（Model-Free）蒙特卡洛方法（MC）：效率不高，但是能夠展現 model-free 類演算法的特

【強化學習】強化學習的一些基礎理念【一】

目錄Reinforcement Learning的關係RewardAgentenvironmentActionsObservationsRL的應用領域 Reinforcement Learning的關係強化學習的關係圖，如下: 一共有五個核心概念: 兩個實體:Agent,Environment 三個互動

【知識學習】如何零基礎入門資料分析

隨著資料分析相關領域變得火爆，最近越來越多的被問到：資料分析如何從頭學起？其中很多提問者都是商科背景，之前沒有相關經驗和基礎。我在讀Buisness Analytics碩士之前是商科背景，由於個人興趣愛好，從大三開始到現在即將碩士畢業，始終沒有停下自學的腳步。Coursera和EDX等平臺上大概上過20多

【強化學習】入門和資料

環境搭建

資料整理(歡迎補充）

環境安裝教程

課程

書籍

Github

相關推薦