使用PyTorch實現簡單的AlphaZero的演算法（3）：神經網路架構和自學習

阿新 • • 發佈：2022-11-29

神經網路架構和訓練、自學習、棋盤對稱性、Playout Cap Randomization，結果視覺化

從我們之前的文章中，介紹了蒙特卡洛樹搜尋 (MCTS) 的工作原理以及如何使用它來獲得給定棋盤狀態的輸出策略。我們也理解神經網路在 MCTS 中的兩個主要作用；通過神經網路的策略輸出來指導探索，並使用其價值輸出代替傳統的蒙特卡洛rollout演算法。

在這一部分中，我們將從這個神經網路的架構開始，檢查它的不同層、輸入和輸出。然後瞭解如何使用自我對弈訓練網路和研究用於訓練神經網路的損失函式。本文還將仔細研究訓練的細節，包括特定於 Chain Reaction 遊戲的資料增強技術和稱為 Playout Cap Randomization 的方法提高訓練效率。最後我們將視覺化檢視我們的工作成果。

神經網路架構

神經網路模型的輸入形狀為MxNx7，其中M和N分別為Chain Reaction遊戲的行數和列數。圖形中的數字“7”表示有7個通道，每個通道以二進位制資料的形式儲存的某些特定資訊，如下面所示:

下面的圖片展示了神經網路的架構。

我們的神經網路結構是一個resnet結構-它有conv2d, batchnorm2d和relu層，dropout層和兩個任務頭。

完整文章：

https://avoid.overfit.cn/post/d2e6352cf0104473ba896d198f8277bc

使用PyTorch實現簡單的AlphaZero的演算法（3）：神經網路架構和自學習

神經網路架構

使用PyTorch實現簡單的AlphaZero的演算法（3）：神經網路架構和自學習

Robotframework（3）：使用pycharm編寫和執行RF指令碼

WebGPU圖形程式設計（3）：構建三角形圖元<學習引自徐博士教程>

搭建深度學習框架（五）：神經網路框架的安裝和使用

python人臉識別專案之學習筆記（四）：神經網路

Redis專題（3）：鎖的基本概念到Redis分散式鎖實現

c# 實現點陣圖演算法（BitMap）

vue 實現個簡易版（3）

JS實現簡單的todoList（記事本）效果

Godot學習筆記（7）—— 簡單2D專案（3）

經典演演算法（1）：氣泡排序及其優化

小白學 Python（3）：基礎資料型別（下）

前端科普系列（3）：CommonJS 不是前端卻革命了前端

老司機帶你玩轉面試（3）：Redis 高可用之主從模式

資料結構與演算法（十三）：赫夫曼樹

DDR3新版（3）：DDR3自動讀寫控制器

雙劍合璧Nacos結合Sentinel實現流量安全控制（二）：客戶端接入控制檯

從零搭建Spring Boot腳手架（3）：整合mybatis

機器學習演算法（六）：基於決策樹的分類預測

初識ABP vNext（3）：vue對接ABP基本思路

使用PyTorch實現簡單的AlphaZero的演算法（3）：神經網路架構和自學習

神經網路架構

相關推薦