【強化學習】MCTS: 蒙特卡洛樹搜尋

阿新 • • 發佈：2020-10-18

Monte-Carle 樹搜尋是一種前向搜尋(Forward Search)
用的是基於取樣的模型

在這裡插入圖片描述

可以先看一下下文中的一個例子，mini-max搜尋是一種傳統的博弈樹演算法，在國際象棋中獲得了比較好的應用。

但是需要遍歷整個遊戲樹，對於棋格數多許多的圍棋，構建完整的遊戲樹代價是十分昂貴的。

28 天自制你的 AlphaGo (6) : 蒙特卡洛樹搜尋（MCTS）基礎

在這裡插入圖片描述

選擇 Selection：從根節點 R 開始，遞迴選擇最優的子節點（後面會解釋）直到達到葉子節點 L。
擴充套件 Expansion：如果 L 不是一個終止節點（也就是，不會導致博弈遊戲終止）那麼就建立一個或者更多的字子節點，選擇其中一個 C。

模擬 Simulation：從 C 開始執行一個模擬的輸出，直到博弈遊戲結束。
反向傳播 Backpropagation：用模擬的結果輸出更新當前行動序列。

在這裡插入圖片描述

反向傳播
反向傳播是從葉結點(simulation 開始的那個節點)到根結點。在這條路徑上所有的節點統計資訊都會被計算更新。

在這裡插入圖片描述

在這裡插入圖片描述

可以看蒙特卡羅樹搜尋 Monte Carlo Tree Search_John Levine的例子來對應上述的流程圖：

第一輪迭代：
在這裡插入圖片描述
第二輪迭代：

第三輪迭代：
在這裡插入圖片描述

MCTS的終止

取決於你什麼時候想讓他停止，比如說你可以設定一個時間，比如五秒後停止計算。

一般來說最佳走法就是具有最高訪問次數的節點，這點可能稍微有點反直覺。這樣評估的原因是因為蒙特卡洛樹搜尋演算法的核心就是，越優秀的節點，越有可能走，反過來就是，走得越多的節點，越優秀。

在這裡插入圖片描述

參考資料：
【詳細原理】蒙特卡洛樹搜尋入門教程！
Monte Carlo Tree Search – beginners guide

蒙特卡洛樹搜尋最通俗入門指南
 28 天自制你的 AlphaGo (6) : 蒙特卡洛樹搜尋（MCTS）基礎
 蒙特卡洛樹搜尋 MCTS 入門
 機器學習 alphaGo — monte carlo search tree（1）

【強化學習】MCTS: 蒙特卡洛樹搜尋

Monte-Carle 樹搜尋是一種前向搜尋(Forward Search)用的是基於取樣的模型可以先看一下下文中的一個例子，mini-max搜尋是一種傳統的博弈樹演算法，在國際象棋中獲得了比較好的應用。

【強化學習】Q-Learning 案例分析

技術標籤：強化學習強化學習q-learning案例路徑尋優前期知識可檢視：【強化學習】相關基本概念【強化學習】 Q-Learning

【機器學習】：決策樹之CART迴歸樹

在決策樹演算法當中，cart迴歸樹是決策樹的一種，它用來做迴歸的策略十分常見。可能還會在後續的GBDT模型當中所運用到，用來作為我們分裂節點的一個標準，我們來了解了解。

【機器學習】決策樹-01

心得體會： #3-1構造決策樹 #計算夏農熵 from math import log def calcShannonEnt(dataSet): numEntries=len(dataSet)

【強化學習入門】 task1 概括與基礎

強化學習入門 task1 概括與基礎 1. 1 什麼是強化學習1.2 強化學習應用1.3 強化學習發展的原因1.4 獎勵函式1.5 強化學習組成成分1.6 實踐

【Leetcode 230】js 二叉搜尋樹的第k小的元素

技術標籤：資料結構與演算法資料結構二叉樹演算法leetcodejavascript 二叉搜尋樹的第k小的元素

【WPF學習】第六十六章支援視覺化狀態

原文:【WPF學習】第六十六章支援視覺化狀態　　上一章介紹的ColorPicker控制元件，是控制元件設計的最好示例。因為其行為和視覺化外觀是精心分離的，所以其他設計人員可開發動態改變其外觀的新模板。

【WPF學習】第五十七章使用程式碼建立故事板

　　在“【WPF學習】第五十章故事板”中討論瞭如何使用程式碼建立簡單動畫，以及如何使用XAML標記構建更復雜的故事板——具有多個動畫以及播放控制功能。但有時採用更復雜的故事板例程，並在程

【Selenium學習】WebDriverApi介面和二次開發

WebDriverApi介面詳解瀏覽器操作 1 driver.back()# 後退 2 driver.forward()# 前進 3 driver.refresh()# 重新整理

【WPF學習】第四十六章效果

　　WPF提供了可應用於任何元素的視覺化效果。效果的目標是提供一種簡單的宣告式方法，從而改進文字、影象、按鈕以及其他控制元件的外觀。不是編寫自己的繪圖程式碼，而是使用某個繼承自Effect的類(位於System.Windo

【WPF學習】第六十七章建立自定義面板

原文:【WPF學習】第六十七章建立自定義面板　　前面兩個章節分別介紹了兩個自定義控制元件:自定義的ColorPicker和FlipPanel控制元件。接下來介紹派生自定義面板以及構建自定義繪圖控制元件。

【Windows學習】常用命令

常用系統命令 1.檢視系統的資訊 msinfo32（可能不是每個系統都有） 2.檢視系統網絡卡補丁等資訊

【Python學習】python paramiko CryptographyDeprecationWarning

import paramiko client = paramiko.SSHClient() client.connect(serverIp, port=serverPort, username=serverUser)

【機器學習】數值分析（1）—— 任意方程求根

任意方程求根簡介方程和函式是代數數學中最為重要的內容之一，從初中直到大學，我們都在研究著方程與函式，甚至我們將圖形代數化，從而發展出了代數幾何、解析幾何的內容。而在方程與函式中，我們研究其性質最多的

【leetcode-102】二叉樹的層序遍歷

102-二叉樹的層序遍歷給你一個二叉樹，請你返回其按層序遍歷得到的節點值。（即逐層地，從左到右訪問所有節點）。

【機器學習】#4-6

多變數線性迴歸(Linear Regression with Multiple Variables) 4.1多維特徵多維特徵就是有多個特徵，比如房價模型中增加房子的樓層數等等，模型的特徵為\\(\\left( {x_{1}},{x_{2}},...,{x_{n}} \\right)\\)

【深度學習】歸一化方法

為什麼要做歸一化？神經網路學習的本質就是學習資料的分佈。如果沒有對資料進行歸一化處理，那麼每一批次訓練的資料的分佈就有可能不一樣。從大的方面來講，神經網路需要在多個分佈中找到一個合適的平衡點；從小的方

強化學習 3—— 使用蒙特卡洛取樣法（MC）解決無模型預測與控制問題

一、問題引入回顧上篇強化學習 2 —— 用動態規劃求解 MDP我們使用策略迭代和價值迭代來求解MDP問題

【Windows學習】bat指令碼

1 @echo off 2 title Run Edr Usecases 3 color 0a 4 5 ::pip install -i http://mirrors.sangfor.org/pypi/web/simple --trusted-host mirrors.sangfor.org cryptography==2.2.2

【Jmeter學習】Jmeter分散式測試

1|0為什麼要做分散式 Jmeter 本身的侷限性一臺壓力機的 Jmeter 預設最大支援 1000 左右的併發使用者數（執行緒數），再大的話，容易造成卡頓、無響應等情況，這是受限於 Jmeter 其本身的機制和硬體配置（記憶體、

【強化學習】MCTS: 蒙特卡洛樹搜尋

相關推薦