1. 程式人生 > >【強化學習鍊金術】李飛飛高徒範麟熙解析強化學習在遊戲和現實中的應用

【強化學習鍊金術】李飛飛高徒範麟熙解析強化學習在遊戲和現實中的應用

《強化學習鍊金術》Introduction第三講。

在這一課裡,Jim Fan會跟各位鍊金術師們聊一聊遊戲中的強化學習以及強化學習在現實生活中的應用。

一、遊戲與強化學習的淵源

遊戲是大家都喜歡的東西,而有一個群體尤甚:他們叫【程式設計師】2_06.png?wx_lazy=1。所以在人工智慧的發展歷史中,遊戲扮演著不可或缺的角色。

不方便看視訊的朋友們,請下拉閱讀圖文smiley_63.png?wx_lazy=1

6f3065e06d224ea23dea51b88b0615176eb1f51b

39f4b37567b126a2e50c9dab8da58b289b891718

IBM研究員Arthur Samuel,是世界上第一個把強化學習應用在一個主流的棋盤遊戲上的人。他當時寫了一個跳棋的引擎,但其實他的引擎並不是世界上最強的。在1989年到2007年之間,加拿大阿爾伯坦大學的團隊,做了一個跳棋的人工智慧 —— Chinook。把Chinook喻為跳棋之神毫不為過,因為它在真正意義上破解了跳棋。換言之,就是不論你用什麼策略,Chinook永遠不會輸。這是可以在數學上被驗證的。

根據Chinook的分析,在跳棋中不論你是先手或是後手,只要有一個完美的策略,永遠雙方都會打成平手。也就是說,跳棋被證明是一個真正意義上的零和博弈。

5aef02f0a24b2db322039a9832a41bb308c64876

下一位出場的,也是IBM的研究員 Gerald Tesauro。他最著名的成就,就是寫了一個能夠超越人類Backgammon世界冠軍的人工智慧。Backgammon是一個有一定隨機性的擲骰子的概率遊戲。Tesauro的引擎叫做TD-Gammon,TD就是剛才說到的時間差學習。

在這邊要宣告一下,為什麼我們不提IBM的Deep Blue,即當年擊敗國際象棋世界冠軍卡斯帕羅夫的深藍國際象棋引擎。其實Deep Blue幾乎沒有用到任何機器學習,更別提強化學習。Deep Blue是一個規則系統,它的團隊當時請了很多國際象棋大師過來幫他們手寫那些象棋的規則或者策略,所以它並不是一個學習系統。

原文連結