增強學習 | AlphaGo背後的秘密
“敢於嘗試,才有突破”
2017年5月27日,當今世界排名第一的中國棋手柯潔與AlphaGo 2.0的三局對戰落敗。該事件標誌著最新的人工智能技術在圍棋競技領域超越了人類智能,借此機會,介紹一下AlphaGo背後的秘密——增強學習技術。
增強學習(Reinforcement Learning),也稱強化學習,是一種在過程中學習提高機器智能的框架。該框架通常可用馬爾可夫決策過程(Markov Decision Process)概念來描述,即假設存在智能體(Agent)在約束環境下執行某動作(Action),動作的執行會改變智能體狀態(State),其結果會帶來獎賞或懲罰。基於此,智能體通過探索最優策略(Policy)或是最大化長期回報(Reward),進而選擇最優的執行動作序列。
增強學習應用的核心是建立智能體模型,包括幾個核心概念:
- 狀態:智能體內在屬性的定量描述
- 動作:使智能體狀態遷移的行為
- 策略:狀態和動作的映射轉移函數,例如狀態轉移概率等
- 回報:評價智能體執行某動作好壞的價值函數
- 環境:與智能體交互的模型,例如建立的馬爾可夫決策模型等
根據問題不同,智能體常常使用一個或多個上述概念進行建模,進而可將增強學習粗略分為基於策略的增強學習、基於值(回報)的增強學習,以及基於模型的增強學習。
基於智能體模型,增強學習以“狀態”作為輸入,通過可能的“動作”與環境進行交互,以“回報”作為動作的評價,利用該過程中累積的“嘗試”數據進行訓練,從而學習得到最優的策略函數。
相比於經典的有監督學習方法,增強學習無需標註數據,某種意義上可以看作“延遲標註數據”的監督學習方法。增強學習更關註於在線決策
相對於經典的近似動態規劃方法,增強學習無需顯式的建立馬爾可夫決策數學模型,更適合求解計算狀態空間更加復雜的問題,即人類操作層次的任務,例如遊戲AI、無人駕駛、機器人等。
然而,對於語音識別、NLP、計算機視覺等一些很難定義長期回報的應用,增強學習便難以適用。另一方面,智能體建模常常過於抽象,因此一些增強學習的應用距離實際相差還較大。
回到開頭,戰勝柯潔的Alpha Go使用的便是最新的深度增強學習技術,即在上述介紹的增強學習概念基礎上使用深度神經網絡描述值函數、策略或者模型。從這項超越現今人類智能的技術上,我們或許可以得到如下啟發:
- 基於深層卷積神經網絡判斷圍棋棋盤的形勢,無需數據特征工程,同時能處理巨大的狀態空間;
- 歷史棋手對弈數據有限,但可通過自我博弈顯著提升人工智能但策略能力;
- 增強學習技術並不是萬能的,它更適合遊戲規則確定的應用。
最後,小蝦米還將文章內容總結成了更直觀的思維導圖,需要的朋友,請在數據小蝦米公眾號後臺回復“增強學習”,即可獲取下載地址。
數據科學武林風起雲湧,
隨數據小蝦米共闖江湖~
增強學習 | AlphaGo背後的秘密