【強化學習鍊金術】李飛飛高徒範麟熙解析強化學習在遊戲和現實中的應用

阿新 • • 發佈：2019-02-19

《強化學習鍊金術》Introduction第三講。

在這一課裡，Jim Fan會跟各位鍊金術師們聊一聊遊戲中的強化學習以及強化學習在現實生活中的應用。

一、遊戲與強化學習的淵源

遊戲是大家都喜歡的東西，而有一個群體尤甚：他們叫【程式設計師】。所以在人工智慧的發展歷史中，遊戲扮演著不可或缺的角色。

不方便看視訊的朋友們，請下拉閱讀圖文。

6f3065e06d224ea23dea51b88b0615176eb1f51b

39f4b37567b126a2e50c9dab8da58b289b891718

IBM研究員Arthur Samuel，是世界上第一個把強化學習應用在一個主流的棋盤遊戲上的人。他當時寫了一個跳棋的引擎，但其實他的引擎並不是世界上最強的。在1989年到2007年之間，加拿大阿爾伯坦大學的團隊，做了一個跳棋的人工智慧 —— Chinook。把Chinook喻為跳棋之神毫不為過，因為它在真正意義上破解了跳棋。換言之，就是不論你用什麼策略，Chinook永遠不會輸。這是可以在數學上被驗證的。

根據Chinook的分析，在跳棋中不論你是先手或是後手，只要有一個完美的策略，永遠雙方都會打成平手。也就是說，跳棋被證明是一個真正意義上的零和博弈。

5aef02f0a24b2db322039a9832a41bb308c64876

下一位出場的，也是IBM的研究員 Gerald Tesauro。他最著名的成就，就是寫了一個能夠超越人類Backgammon世界冠軍的人工智慧。Backgammon是一個有一定隨機性的擲骰子的概率遊戲。Tesauro的引擎叫做TD-Gammon，TD就是剛才說到的時間差學習。

在這邊要宣告一下，為什麼我們不提IBM的Deep Blue，即當年擊敗國際象棋世界冠軍卡斯帕羅夫的深藍國際象棋引擎。其實Deep Blue幾乎沒有用到任何機器學習，更別提強化學習。Deep Blue是一個規則系統，它的團隊當時請了很多國際象棋大師過來幫他們手寫那些象棋的規則或者策略，所以它並不是一個學習系統。

原文連結

【強化學習鍊金術】李飛飛高徒範麟熙解析強化學習在遊戲和現實中的應用

【強化學習鍊金術】李飛飛高徒範麟熙解析強化學習在遊戲和現實中的應用

16、【李巨集毅機器學習（2017）】Unsupervised Learning: Deep Auto-encoder（無監督學習：深度自動編碼器）

程式設計師的鍊金術，如何用技術變現

【資源】斯坦福李飛飛高徒Johnson博士論文: 組成式計算機視覺智慧（附195頁PDF）

【本人禿頂程式設計師】Java原始碼閱讀的真實體會(一種學習思路)

鍊金術(7): 何以解憂，唯有重構

鍊金術(8): 開發和釋出的並行

轉：【Java並發編程】之二十：並發新特性—Lock鎖和條件變量（含代碼）

【Android Studio安裝部署系列】二十七、Android studio修改項目名稱和包名

【小卒Ubuntu使用第一篇】雙系統安裝完成，Ubuntu使用時觸控板和Wifi禁用問題

【劉偉技術部落格】專注軟體架構、設計模式、重構、UML和OOAD！

【ML】李巨集毅機器學習筆記

機器學習【吳恩達|周志華|李巨集毅|演算法】清單 #收藏#

【雙11背後的技術】基於深度強化學習與自適應線上學習的搜尋和推薦演算法研究

【強化學習筆記】6.4 基於值函式逼近的強化學習方法-TD Q-learning線性逼近程式碼實現

【spring源碼學習】spring的IOC容器之BeanFactoryPostProcessor接口學習

【Zigbee技術入門教程-01】Zigbee無線組網技術入門的學習路線

【機器學習PAI實踐二】人口普查統計

【分享】不知道怎麽學java？java學習路線送上！讓你不再迷茫！

【Java學習筆記之二十二】解析接口在Java繼承中的用法及實例分析

【強化學習鍊金術】李飛飛高徒範麟熙解析強化學習在遊戲和現實中的應用

相關推薦