1. 程式人生 > >英偉達的“千人摩擦計劃”:幾千個智慧體互相玩耍,學習跑酷更輕鬆

英偉達的“千人摩擦計劃”:幾千個智慧體互相玩耍,學習跑酷更輕鬆

摩擦慄 發自 凹非寺 
量子位 出品 | 公眾號 QbitAI

聽說,互相摩擦,有助於快速學習。

如果,模擬器裡只有一個強化學習智慧體,它可能活得很自在。

640?wx_fmt=gif

天大地大,虛擬機器器人做個空翻、迴旋踢之類,都不是稀有的技能,只是需要艱苦訓練罷了。

那麼,要是讓幾千個人形智慧體,一起在模擬器裡跑呢?

它們就會相互摩擦,親暱地扭打在一起,形成一幅不可開交的美妙圖景。

640?wx_fmt=gif

這不是重點,關鍵是智慧體在摩擦的過程中,學起技能來,會比孤獨的時候快很多

英偉達就想用這種方法來加速學習,於是開發了自己的物理模擬器。

在那裡,人類跑步的姿勢,智慧體不用20分鐘便可解鎖。且只要一個CPU核心,不要成百上千。

相互摩擦,是最美的

英偉達開發的是一個GPU加速模擬器,支援千百隻人形智慧體,在同一個世界愉快地互動。

並且,只要一個Tesla V100 GPU,加上一個CPU核,就夠了。

640?wx_fmt=gif

為了智慧體更好地學習人類技能,團隊為四種技能設定了Benchmark,由易而難:

一是,只用兩條腿、但是像螞蟻那樣跑步 (不是說好的人類技能啊) :

640?wx_fmt=gif

二是,依然用兩條腿、但像人類那樣跑步:

640?wx_fmt=gif

三是障礙跑,遇到球球會站不穩,重點是重新找到平衡,不要摔倒:

640?wx_fmt=gif

四也是障礙跑,不過地形複雜,還是要在站不穩的時候努力保持平衡:

640?wx_fmt=gif

在複雜地形下訓練過的智慧體,會擁有隨機應變的能力。

即便是在從未見過的環境裡,從超過一人高的平臺跳下也能迅速站穩,繼續奔跑。

640?wx_fmt=gif

放進現實裡,大概就是這個樣子:

640?wx_fmt=gif

一個頂一千個?

現在,來和前輩們對比一下時間硬體成本:

640?wx_fmt=png

一個CPU核心,抵得上一千個?

是有了GPU加持之後,模擬器每秒可以生成6萬幀,幀時間 (Frame Time) 能降到0.02毫秒以下。也就是說,幀延遲小到幾乎可以忽略。

那麼,就算智慧體的數量從5個增加到5,000個,也不會有什麼壓力。

由此,即便只用一個CPU核心,學習效率也可以得到保障。

640?wx_fmt=png

這項研究,是在英偉達的物理引擎FleX裡面完成的。

很快,團隊就要在CoRL 2018

大會上,介紹研究成果了。

在那之前,大家可以欣賞一下論文:

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning
https://arxiv.org/pdf/1810.05762.pdf

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;


此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。


進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)

活動策劃招聘

量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態