強化學習工具Horizon開源:Facebook曾用它優化線上視訊和聊天軟體
曉查 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
Facebook上週末開源了一個強化學習工具——Horizon。
雖然之前也有其他公司開源過強化學習工具,但Facebook聲稱Horizon是第一個開源的“端到端”(end-to-end)強化學習工具。
它由Python編寫,使用Pytorch進行建模和Caffe2進行訓練,用於解決一些資料集很大、反饋迴路很慢的實際強化學習問題。而這些問題往往需要在現實世界中小心翼翼的進行試驗,因為沒有模擬器可供執行。
Facebook全球擁有20多億使用者,在這方面有豐富的經驗。Horizon框架開發的工作始於2年半以前,並在去年投入公司內部使用。Facebook曾將它用在優化網路360°全景視訊
Horizon平臺包含訓練深度強化學習演算法的工作流,像資料處理、特徵轉換、分散式訓練、反事實策略評估、優化服務等。
改進的強化學習工具
強化學習在AI領域取得了很多成就,比如人機圍棋大戰、AI在Dota 2團戰中戰勝人類這些大新聞,其中都有強化學習的功勞。
但是它卻鮮有商業用途,原因是在遊戲之外的地方,通過反覆試錯來學習的方法是不明智或不安全的。對於現實世界中的現象,也沒有精確的模擬器可供演算法進行安全的訓練。
為了解決其中的一些限制,Facebook開發了Horizon工具,讓公司團隊在面臨一些實際問題時也能使用強化學習。
Horizon最初訓練演算法是選取工程師指定的動作集合,而不是讓演算法從零開始並從隨機動作中學習。然後,它使用基於現有資料的幾種反事實分析來模擬演算法可能採取的不同動作。通過這種方式,Horizon在模擬器中模擬訓練演算法,使其完善而不必擔心它會在現實世界中造成嚴重破壞。
一般來說,使用實際的模擬器會比進行這種反事實分析更好。 但對於Facebook的許多問題,構建模擬器並非易事。目前Facebook團隊正在研究如何從資料集構建模擬器。
一旦演算法執行良好,Horizon就允許使用者進行小規模線上實驗,實時使用實際資料,然後逐步將新演算法推廣到更大的使用者或資料集。再將完全訓練的演算法作為新的起點,不斷重複此過程。
Facebook為何選擇開源
談到為何將Horizon開源,Facebook應用機器學習主管Srinivas Narayanan說:“我們致力於開源,因此共享這個最新的產品化系統是很自然的事情。”
原本Horizon是為企業和研究團隊大規模部署AI而開發的,它需要數以千計的CPU或GPU數十億的觀測結果。現在經過Facebook用Apache Spark預處理和用PyTorch訓練系統後,它也能用在個人電腦上了。
Horizon專案負責人Jason Gauci認為強化學習是在採用ML的工業領域的下一個前沿,希望開源這個平臺讓使用者開始使用強化學習。Horizon是為了規範大型資料集的訓練,這也是強化學習中的常見問題,他說。
另外一些AI公司,如果DeepMind、谷歌大腦團隊和OpenAI,也在之前開源過強化學習工具。Facebook此舉或是緊隨競爭對手的步伐。
附錄
專案地址:
https://github.com/facebookresearch/Horizon
專案白皮書:
https://research.fb.com/publications/horizon-facebooks-open-source-applied-reinforcement-learning-platform/
— 完 —
加入社群
量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)
活動策劃招聘
量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態