蒙特卡洛樹搜尋 MCTS
源地址0.
https://yq.aliyun.com/articles/4116?spm=5176.100240.searchblog.8.Se7myC
http://www.jianshu.com/users/696dc6c6f01c/latest_articles
什麼是 MCTS?
全稱 Monte Carlo Tree Search,是一種人工智慧問題中做出最優決策的方法,一般是在組合博弈中的行動(move)規劃形式。它結合了隨機模擬的一般性和樹搜尋的準確性。
MCTS 受到快速關注主要是由計算機圍棋程式的成功以及其潛在的在眾多難題上的應用所致。超越博弈遊戲本身,MCTS 理論上可以被用在以 {狀態 state,行動 action} 對定義和用模擬進行預測輸出結果的任何領域。
基本演算法
基本的 MCTS 演算法非常簡單:根據模擬的輸出結果,按照節點構造搜尋樹。其過程可以分為下面的若干步:
搜尋樹的構建過程
- 選擇 Selection:從根節點 R 開始,遞迴選擇最優的子節點(後面會解釋)直到達到葉子節點 L。
- 擴充套件 Expansion:如果 L 不是一個終止節點(也就是,不會導致博弈遊戲終止)那麼就建立一個或者更多的字子節點,選擇其中一個 C。
- 模擬 Simulation:從 C 開始執行一個模擬的輸出,直到博弈遊戲結束。
- 反向傳播 Backpropagation:用模擬的結果輸出更新當前行動序列。
參看Tutorial 瞭解關於這個過程更多的資訊。
每個節點並需包含兩個重要的資訊:一個是根據模擬結果估計的值和該節點已經被訪問的次數。
按照最為簡單和最節約記憶體的實現,MCTS 將在每個迭代過程中增加一個子節點。不過,要注意其實根據不同的應用這裡也可以在每個迭代過程中增加超過一個子節點。
節點選擇
Bandits 和 UCB
在樹向下遍歷時的節點選擇通過選擇最大化某個量來實現,這其實類似於 Multiarmed bandit problem,其中的參與者必須選擇一個 slot machine(bandit)來最大化每一輪的估計的收益。我們可以使用 Upper Confidence Bounds(UCB)公式常常被用來計算這個:
其中 v_i 是節點估計的值,n_i 是節點被訪問的次數,而 N 則是其父節點已經被訪問的總次數。C 是可調整引數。
Exploitation 和 Exploration
UCB 公式對已知收益的 exploitation 和鼓勵接觸那些相對未曾訪問的節點的 exploration 進行平衡。收益估計基於隨機模擬,所以節點必須被訪問若干次來缺包估計變得更加可信;MCTS 估計會在搜尋的開始不大可靠,而最終會在給定充分的時間後收斂到更加可靠的估計上,在無限時間下能夠達到最優估計。
MCTS 和 UCT
Kocsis 和 Szepervari 在 2006 年首先構建了一個完備的 MCTS 演算法,通過擴充套件 UCB 到 minimax 樹搜尋,並將其命名為 Upper Confidence Bounds for Trees(UCT)方法。這其實是用在當前眾多 MCTS 實現中的演算法版本。
UCT 可以被描述為 MCTS 的一個特例:UCT = MCTS + UCB。
優點
MCTS 提供了比傳統樹搜尋更好的方法。
Aheuristic
MCTS 不要求任何關於給定的領域策略或者具體實踐知識來做出合理的決策。這個演算法可以在沒有任何關於博弈遊戲除基本規則外的知識的情況下進行有效工作;這意味著一個簡單的 MCTS 實現可以重用在很多的博弈遊戲中,只需要進行微小的調整,所以這也使得 MCTS 是對於一般的博弈遊戲的很好的方法。
Asymmetric
MCTS 執行一種非對稱的樹的適應搜尋空間拓撲結構的增長。這個演算法會更頻繁地訪問更加有趣的節點,並聚焦其搜尋時間在更加相關的樹的部分。
非對稱的增長
這使得 MCTS 更加適合那些有著更大的分支因子的博弈遊戲,比如說 19X19 的圍棋。這麼大的組合空間會給標準的基於深度或者寬度的搜尋方法帶來問題,所以 MCTS 的適應性說明它(最終)可以找到那些更加優化的行動,並將搜尋的工作聚焦在這些部分。
任何時間
演算法可以在任何時間終止,並返回當前最有的估計。當前構造出來的搜尋樹可以被丟棄或者供後續重用。
簡潔
演算法實現非常方便(參見 Code)
缺點
MCTS 有很少的缺點,不過這些缺點也可能是非常關鍵的影響因素。
行為能力
MCTS 演算法,根據其基本形式,在某些甚至不是很大的博弈遊戲中在可承受的時間內也不能夠找到最好的行動方式。這基本上是由於組合步的空間的全部大小所致,關鍵節點並不能夠訪問足夠多的次數來給出合理的估計。
速度
MCTS 搜尋可能需要足夠多的迭代才能收斂到一個很好的解上,這也是更加一般的難以優化的應用上的問題。例如,最佳的圍棋程式可能需要百萬次的交戰和領域最佳和強化才能得到專家級的行動方案,而最有的 GGP 實現對更加複雜的博弈遊戲可能也就只要每秒鐘數十次(領域無關的)交戰。對可承受的行動時間,這樣的 GGP 可能很少有時間訪問到每個合理的行動,所以這樣的情形也不大可能出現表現非常好的搜尋。
幸運的是,演算法的效能可以通過一些技術顯著提升。
提升
很多種 MCTS 強化的技術已經出現了。這些基本上可以歸納為領域知識或者領域獨立兩大類。
領域知識
特定博弈遊戲的領域知識可以用在樹上來過濾掉不合理的行動或者在模擬過程中產生重要的對局(更接近人類對手的表現)。這意味著交戰結果將會更加的現實而不是隨機的模擬,所以節點只需要少量的迭代就能給出一個現實的收益值。
領域知識可以產生巨大的效能提升,但在速度和一般性上也會有一定的損失。
領域獨立
領域獨立強化能夠應用到所有的問題領域中。這些一般用在樹種(如 AMAF),還有一些用在模擬(如 在交戰時傾向於勝利的行動)。領域獨立強化並不和特定的領域繫結,具有一般性,這也是當前研究的重心所在。
背景和歷史
1928:John von Neumann 的 minimax 定理給出了關於對手樹搜尋的方法,這形成了電腦科學和人工智慧的從誕生至今的決策制定基礎。
1940s:Monte Carlo 方法形成,作為一種通過隨機取樣解決不太適合樹搜尋解決的弱良定義問題的方法。
2006:Rémi Coulomb 和其他研究者組合了上面兩種想法給出了一個新的圍棋程式中行動規劃的觀點——MCTS。Kocsis 和 Szepesvári 將此觀點形式化進 UCT 演算法。
研究興趣
從 MCTS 誕生後幾年內,就有超過 150 篇與 MCTS 相關的研究論文釋出,平均下來是每兩週一篇新的文章。這些文章中包含了大概 50 個推薦的變體、強化和優化,這和傳統樹搜尋自其 1928 年誕生開始的加強的數量也差不太多。
這個新的研究領域當前是 AI 中非常熱的研究話題,有很多的開放的研究問題有待發掘和解決。