Deepmind的星際爭霸2強化學習教程（1）：建立環境與訓練模型

阿新 • • 發佈：2022-05-02

去年，DeepMind開源將星際爭霸II的強化學習環境公之於眾，很多人都為之興奮。

https://deepmind.com/blog/deepmind-and-blizzard-release-starcraft-ii-ai-research-environment/

我是暴雪遊戲的忠實粉絲，尤其是星際爭霸2，所以我把強化學習環境看成是一個學習的好機會，而且也有很多樂趣。我這篇文章將利用星際爭霸2寫一份建立環境和訓練一些模型的入門教程。

前提

IntelliJ (或者PyCharm)
Python3
星際爭霸2 (甚至啟動包也在工作)
GIT

本教程是基於Mac環境的。

在文章中，我們將執行訓練指令碼，以使用深度Q-Network來解決CollectMineralShards的迷你遊戲。

當我們執行訓練指令碼時，你可以在如下視訊中看到訓練結果。

https://m.youtube.com/watch?v=xpdQYnnxAko&ebc=ANyPxKpYz12v2bTrItOMkx_0vJfOp7RM9Eh2d2JedrlgTQSx2jKElQYgkorgvlAFdWmaXCEeFJ7oNG3qyrSfq1CA0_mcpBdf4Q

教程大綱

1)安裝pysc2

2)Star & Fork pysc2-examples

3)克隆pysc2-examples庫

4)下載迷你遊戲星際爭霸2地圖

5)安裝Tensorflow，基線庫

6)使用IntelliJ(或PyCharm)開啟專案

7)執行訓練指令碼

8)執行預先訓練的模型

現在開始。

1）安裝pysc2

首先，我們將安裝pysc2庫。你可以在終端上輸入命令。(因為我們使用的是python3，所以你必須輸入pip3)

pip3 install pysc2

然後pysc2安裝完畢。

2)Star & Fork pysc2-examples

接下來，開啟右邊的Github連結。https://github.com/chris-chris/pysc2-examples

這是最重要的一步！

3)克隆pysc2-examples庫

讓我們克隆這個專案。你可以使用下面這個簡單的命令克隆儲存庫。

git clone https://github.com/chris-chris/pysc2-examples

然後，你將在計算機上看到“pysc2-examples”目錄。

4)下載迷你遊戲星際爭霸2地圖

在執行訓練指令碼之前，我們必須下載迷你遊戲地圖。並將這些地圖儲存到StarCraft II/Maps目錄中。

下載迷你遊戲地圖：https://github.com/deepmind/pysc2/releases/download/v1.0/mini_games.zip

我是Mac使用者，下面是我的星際爭霸2地圖的位置

/Applications/StarCraft II/Maps/mini_games

如果你是一個Windows使用者，可以在StarCraft II/Maps/mini_games目錄中儲存地圖。

對於Linux使用者，在 ~/StarCraft II/Maps/mini_games目錄中儲存地圖。

5)安裝Tensorflow，基線庫

我們需要更多的庫！比如Google Tensorflow和OpenAI基線庫。你可以通過鍵入下面的命令來安裝這些庫。

pip3 install tensorflow

pip3 install baselines

我使用OpenAI的基線庫實現了增強模型。因為OpenAI的基線庫依賴於Tensorflow，所以我們需要安裝Tensorflow。

我認為OpenAI的基線是Deep Q-Network的最好的實現，這也是我使用它的原因！

我希望閱讀本文的大多數讀者已經安裝了Tensorflow庫:)

6)使用IntelliJ(或PyCharm)開啟專案

通過鍵入下面的命令，訓練將開始。

python3 train_mineral_shards.py

我強烈建議你在IDE(整合開發環境)中開發你的強化學習。這是因為我將使用除錯模式來解釋細節環境變數:)我現在在IntelliJ上執行這個專案。

執行IntelliJ或PyCharm，並且開啟我們克隆的專案資料夾。

然後設定Project Structure.

選擇[File > Project Structure]選單.

在Module SDK上選擇Python3 SDK。如果你找不到SDK，請單擊[New...]按鈕並新增你的python3二進位制檔案。

7)執行訓練指令碼

然後，讓我們執行訓練指令碼。右鍵單擊train_mineral_shards.py，然後選擇[Run 'train_mineral_shards']選單。

然後在執行星際爭霸2的時候，你會看到控制檯上的日誌。

這是控制檯日誌的簡要說明。

steps:我們傳送給海軍陸戰隊（marines）的命令的數量。
episodes: 我們玩的遊戲的集數。
mean 100 episode reward:上100集的平均獎勵。
mean 100 episode min…:上100集的平均礦物。
% time spent exploring:探索(探索和開發)的百分比。

目前，我設定了執行2000萬步的訓練指令碼。(它花費了很多時間，所以如果你想在你的筆記本上執行，我建議你將訓練步驟設定為50萬步)。

8)執行預先訓練的模型

我編寫了程式，在所有訓練步驟之後將訓練過的模型儲存到mineral_shards.pkl檔案中。

act.save("mineral_shards.pkl")

如果你想使用這種預先訓練的模型，你可以執行enjoy指令碼。右鍵單擊 enjoy_mineral_shards.py，然後選擇[Run ‘enjoy_mineral_shards’]選單。

然後你就可以看到預先訓練的CollectMineralShards地圖。

結論

在本文中，我介紹了設定環境和對模型進行訓練的方式。

未來的教程

瞭解Deep Q-Network演算法
瞭解星際爭霸2的環境(觀察和行動)
在星際爭霸2的迷你遊戲中，開發Deep Q-Network

Deepmind的星際爭霸2強化學習教程（1）：建立環境與訓練模型

去年，DeepMind開源將星際爭霸II的強化學習環境公之於眾，很多人都為之興奮。

強化學習實戰（1）：gridworld

參考：https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中給出了一個簡單的例子:Gridworld, 以幫助我們理解finite MDPs,

python入門學習教程（1）-python自帶 IDLE寫程式碼

IDLE是python軟體包自帶的一個整合開發環境，初學者可以利用它方便的建立、執行、測試和除錯python程式。

TensorFlow強化學習入門（1）——雙臂賭博機

簡介強化學習不僅僅賦予了我們教會人工agent如何行動的能力，還使得agent可以通過我們提供的互動式環境進行學習。通過結合深度神經網路習得的複雜表示和RL agent的目標驅動型學習，計算機取得了很多令人驚歎的成績：

TensorFlow強化學習入門（3）——構建模擬環境來進行強化學習

在上一篇文章中，我演示瞭如何設計一個基於策略的強化學習agent來解決CartPole任務。在本文中，我們將從另一個角度重新審視這個問題——如何構建模擬環境來提升agent在當前環境下的效能。

深入學習Redis（1）：Redis記憶體模型

前言Redis是目前最火爆的記憶體資料庫之一，通過在記憶體中讀寫資料，大大提高了讀寫速度，可以說Redis是實現網站高併發不可或缺的一部分。

ROS學習筆記（二）：建立工作空間和功能包

技術標籤：ROS學習筆記 1.工作空間（Workspace）是一個存放工程開發相關檔案的資料夾。

寒假python學習記錄（1）：pyhon簡單例項

技術標籤：python 目錄一、計算圓的面積和周長二、輸入年份月數計算天數三、輸入一串字串判斷其中各種型別的個數四、實現簡單的計算器

OpenXml SDK學習筆記（1）：Word的基本結構

能寫多少篇我就不確定了，可能就這一篇就太監了，也有可能會寫不少。 OpenXml SDK 相信很多人都不陌生，這個就是管Office一家的文件格式，Word, Excel, PowerPoint等都用到這個。並且，這個格式主要是給Word 2007以

CANoe學習筆記（二）：建立第一個事件觸發幀

內容：建立一個事件觸發幀；包含幾個不同無條件幀；事件觸發幀的觸發；事先準備：

angr_ctf——從0學習angr（一）：angr簡介與核心概念

我在學習angr時，先是閱讀了開發者釋出在IEEE上的論文IEEE Xplore Full-Text PDF:該文章講述了自動化漏洞挖掘的背景和方法，並對angr的架構和核心模組進行了介紹，非常經典值得一讀。

卷積神經網路相關（1）：卷積神經網路模型的引數量Params和計算量FLOPs簡單程式碼

文章目錄概述一、利用torchstat　　1.1 方法　　1.2 程式碼　　1.3 輸出二、利用ptflops　　2.1 方法　　2.2 程式碼　　2.3 輸出三、利用thop　　3.1 方法　　3.2 程式碼　　3.3 輸出概述　　Params：是指網路模型中

某教程學習筆記（一）：08、MSSQL資料庫漏洞

你永遠不知道，愛你愛到發瘋的人，給你發過長篇大論的人，突然安靜下來，不再打擾你，他心裡經歷了怎樣的傷痛。。。

深度強化學習-筆記（一）

深度強化學習概述什麼是強化學習？強化學習討論的問題是一個智慧體(agent) 怎麼在一個複雜不確定的環境(environment)裡面去極大化它能獲得的獎勵。Agent 在環境裡面獲取到狀態state，也是對整個environm

javaSE學習筆記（五）：類與物件（2）——成員變數和成員方法

成員變數成員變數是指在類中定義的變數，成員變數被分為類變數和例項變數兩種，定義成員變數時沒有用static修飾的就是例項變數，用static修飾的就是類變數。

基於淺層神經網路（全連線網路）的強化學習演算法（Reinforce）在訓練過程中出現梯度衰退（degenerate）的現象

首先給出一個程式碼地址： https://gitee.com/devilmaycry812839668/CartPole-PolicyNetwork 強化學習中的策略網路演算法。《TensorFlow實戰》一書中強化學習部分的策略網路演算法，模擬環境為gym的CartPole，本專案

jpa學習教程（一）---原生自定義sql的寫法

在spring boot中寫入jpa。程式碼如下： @Repository public interface LikeAppMenuViewJpaRepo extends JpaRepository<LikeAppMenuViewEntity, String> {

TensorFlow強化學習入門（0）——Q-Learning的查詢表實現和神經網路實現

我們將學習如何處理OpenAI FrozenLake問題，當然我們的問題不像圖片中那樣逼真

TensorFlow強化學習入門（1.5）——上下文賭博機

注意：本文為該系類文章中（1）和（2）之間的過渡在上一篇文章中我們簡要介紹了強化學習並構建了一個簡單的agent來解決多臂賭博機問題。在多臂賭博機問題中agent不需要考慮所處環境的狀態，只要通過學習確定那一個行

TensorFlow強化學習入門（4）——深度Q網路（DQN）及其擴充套件

一個聰明的遊戲agent可以學會避開危險的陷阱本文中我們將一起建立一個深度Q網路（DQN）。它基於我們系列文章中（0）的單層Q網路，如果你是強化學習的初學者，我推薦你到文末跳轉到（0）開始閱讀。儘管簡單的Q網路已

Deepmind的星際爭霸2強化學習教程（1）：建立環境與訓練模型

前提

教程大綱

結論

相關推薦