英偉達的“千人摩擦計劃”:幾千個智慧體互相玩耍,學習跑酷更輕鬆
摩擦慄 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
聽說,互相摩擦,有助於快速學習。
如果,模擬器裡只有一個強化學習智慧體,它可能活得很自在。
天大地大,虛擬機器器人做個空翻、迴旋踢之類,都不是稀有的技能,只是需要艱苦訓練罷了。
那麼,要是讓幾千個人形智慧體,一起在模擬器裡跑呢?
它們就會相互摩擦,親暱地扭打在一起,形成一幅不可開交的美妙圖景。
這不是重點,關鍵是智慧體在摩擦的過程中,學起技能來,會比孤獨的時候快很多。
英偉達就想用這種方法來加速學習,於是開發了自己的物理模擬器。
在那裡,人類跑步的姿勢,智慧體不用20分鐘便可解鎖。且只要一個CPU核心,不要成百上千。
相互摩擦,是最美的
英偉達開發的是一個GPU加速模擬器,支援千百隻人形智慧體,在同一個世界愉快地互動。
並且,只要一個Tesla V100 GPU,加上一個CPU核,就夠了。
為了智慧體更好地學習人類技能,團隊為四種技能設定了Benchmark,由易而難:
一是,只用兩條腿、但是像螞蟻那樣跑步 (不是說好的人類技能啊) :
二是,依然用兩條腿、但像人類那樣跑步:
三是障礙跑,遇到球球會站不穩,重點是重新找到平衡,不要摔倒:
四也是障礙跑,不過地形複雜,還是要在站不穩的時候努力保持平衡:
在複雜地形下訓練過的智慧體,會擁有隨機應變的能力。
即便是在從未見過的環境裡,從超過一人高的平臺跳下也能迅速站穩,繼續奔跑。
放進現實裡,大概就是這個樣子:
一個頂一千個?
現在,來和前輩們對比一下時間和硬體成本:
一個CPU核心,抵得上一千個?
是有了GPU加持之後,模擬器每秒可以生成6萬幀,幀時間 (Frame Time) 能降到0.02毫秒以下。也就是說,幀延遲小到幾乎可以忽略。
那麼,就算智慧體的數量從5個增加到5,000個,也不會有什麼壓力。
由此,即便只用一個CPU核心,學習效率也可以得到保障。
這項研究,是在英偉達的物理引擎FleX裡面完成的。
很快,團隊就要在CoRL 2018
在那之前,大家可以欣賞一下論文:
GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning
https://arxiv.org/pdf/1810.05762.pdf
— 完 —
加入社群
量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)
活動策劃招聘
量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態