強化學習工具Horizon開源：Facebook曾用它優化線上視訊和聊天軟體

阿新 • • 發佈：2018-11-07

曉查發自凹非寺
量子位出品 | 公眾號 QbitAI

640?wx_fmt=png

Facebook上週末開源了一個強化學習工具——Horizon。

雖然之前也有其他公司開源過強化學習工具，但Facebook聲稱Horizon是第一個開源的“端到端”（end-to-end）強化學習工具。

它由Python編寫，使用Pytorch進行建模和Caffe2進行訓練，用於解決一些資料集很大、反饋迴路很慢的實際強化學習問題。而這些問題往往需要在現實世界中小心翼翼的進行試驗，因為沒有模擬器可供執行。

Facebook全球擁有20多億使用者，在這方面有豐富的經驗。Horizon框架開發的工作始於2年半以前，並在去年投入公司內部使用。Facebook曾將它用在優化網路360°全景視訊

和智慧個性化推薦等實際產品上。

640?wx_fmt=png

Horizon平臺包含訓練深度強化學習演算法的工作流，像資料處理、特徵轉換、分散式訓練、反事實策略評估、優化服務等。

改進的強化學習工具

強化學習在AI領域取得了很多成就，比如人機圍棋大戰、AI在Dota 2團戰中戰勝人類這些大新聞，其中都有強化學習的功勞。

640?wx_fmt=jpeg

但是它卻鮮有商業用途，原因是在遊戲之外的地方，通過反覆試錯來學習的方法是不明智或不安全的。對於現實世界中的現象，也沒有精確的模擬器可供演算法進行安全的訓練。

為了解決其中的一些限制，Facebook開發了Horizon工具，讓公司團隊在面臨一些實際問題時也能使用強化學習。

Horizon最初訓練演算法是選取工程師指定的動作集合，而不是讓演算法從零開始並從隨機動作中學習。然後，它使用基於現有資料的幾種反事實分析來模擬演算法可能採取的不同動作。通過這種方式，Horizon在模擬器中模擬訓練演算法，使其完善而不必擔心它會在現實世界中造成嚴重破壞。

一般來說，使用實際的模擬器會比進行這種反事實分析更好。但對於Facebook的許多問題，構建模擬器並非易事。目前Facebook團隊正在研究如何從資料集構建模擬器。

一旦演算法執行良好，Horizon就允許使用者進行小規模線上實驗，實時使用實際資料，然後逐步將新演算法推廣到更大的使用者或資料集。再將完全訓練的演算法作為新的起點，不斷重複此過程。

Facebook為何選擇開源

談到為何將Horizon開源，Facebook應用機器學習主管Srinivas Narayanan說：“我們致力於開源，因此共享這個最新的產品化系統是很自然的事情。”

原本Horizon是為企業和研究團隊大規模部署AI而開發的，它需要數以千計的CPU或GPU數十億的觀測結果。現在經過Facebook用Apache Spark預處理和用PyTorch訓練系統後，它也能用在個人電腦上了。

Horizon專案負責人Jason Gauci認為強化學習是在採用ML的工業領域的下一個前沿，希望開源這個平臺讓使用者開始使用強化學習。Horizon是為了規範大型資料集的訓練，這也是強化學習中的常見問題，他說。

另外一些AI公司，如果DeepMind、谷歌大腦團隊和OpenAI，也在之前開源過強化學習工具。Facebook此舉或是緊隨競爭對手的步伐。

附錄

專案地址：
https://github.com/facebookresearch/Horizon
專案白皮書：

https://research.fb.com/publications/horizon-facebooks-open-source-applied-reinforcement-learning-platform/

— 完 —

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話介面回覆關鍵字“交流群”，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話介面回覆關鍵字“專業群”，獲取入群方式。（專業群稽核較嚴，敬請諒解）

活動策劃招聘

量子位正在招聘活動策劃，將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入，並希望你能有一些活動策劃或運營的相關經驗。相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

強化學習工具Horizon開源：Facebook曾用它優化線上視訊和聊天軟體

曉查發自凹非寺
量子位出品 | 公眾號 QbitAI

改進的強化學習工具

Facebook為何選擇開源

附錄

強化學習工具Horizon開源：Facebook曾用它優化線上視訊和聊天軟體

Python語言學習講解十四：python之用純屬性取代get和set方法

強化學習(David Silver)4：免模型學習

強化學習(David Silver)4：免模型控制

強化學習(David Silver)6：值函數近似

強化學習(David Silver)2：MDP(馬爾科夫決策過程)

強化學習(David Silver)3：動態規劃

強化學習（二）：馬爾可夫決策過程

EMNLP 2018 | 用強化學習做神經機器翻譯：中山大學&MSRA填補多項空白

深度強化學習（一）： Deep Q Network(DQN)

自動機器學習工具全景圖：精選22種框架，解放煉丹師

[強化學習]OpenAI官方釋出：強化學習中的關鍵論文

Reinforcement Learning強化學習系列之五：值近似方法Value Approximation

強化學習（二）：Policy Gradient理解

Reinforcement Learning強化學習系列之二：MC prediction

ICML 2018 | 從強化學習到生成模型：40篇值得一讀的論文

每天學習一個LINUX命令：useradd /adduser 用戶新增（add user 增加用戶）

【Vue.js學習筆記】6：動態繫結CSS樣式,條件渲染和v-show

學習ThinkPHP3.2.2：video9，用“C”函式讀取配置檔案內容

OpenCV學習筆記（五十五）——用OpenCV做人臉識別和性別識別contrib

強化學習工具Horizon開源：Facebook曾用它優化線上視訊和聊天軟體

曉查 發自 凹非寺量子位 出品 | 公眾號 QbitAI

改進的強化學習工具

Facebook為何選擇開源

附錄

相關推薦

曉查發自凹非寺
量子位出品 | 公眾號 QbitAI