開源 CV 資料集生成器 Kubric 火了,支援 13 類複雜 CV 任務,DeepMind 谷歌 MIT 等打造
這年頭,AI 玩家們想找到合適的影象資料集,簡直是越來越難了。不僅資料質量參差不齊,合適的資料型別也難找(如光流圖、深度圖等)。
為了解決這些問題,來自谷歌、MIT、DeepMind、MILA 和劍橋大學等 11 家機構的 34 名研究人員,聯手打造了一個名叫 Kubric 的資料集生成器,不僅能自己渲染,而且影象效果也非常真實。
不僅各種影象資料都能做,像語義分割、深度圖或光流圖這種“特殊資料”都能一鍵生成:
還能控制渲染的真實度,渲染出的視訊可以達到以假亂真的效果:
據作者們表示,目前 Kubric 支援 13 類 CV 任務的資料型別生成,效果也不比用已有資料集訓練出來的差。這樣的一個數據集生成器,到底要怎麼上手?
可生成 13 類 CV 任務所需資料
先來看看這個 Kubric 資料集生成器究竟是個啥。簡單來說,它有點像是一個專為影象 AI 打造的“資料車間”,基於跨平臺開源物理引擎 PyBullet 和 3D 影象渲染軟體 Blender 打造。
其中,PyBullet 給使用者提供了一個模擬 3D 物體運動的平臺,例如兩個球之間的彈性碰撞引數就可以用它來模擬。(當然,除了 PyBullet 以外,也可以擴充套件到其他物理引擎如 MuJoCo 上)
Blender 則是一個渲染 3D 動畫的平臺,但它的優勢在於操作方便,而且既可以做出照片級逼真的渲染影象,也可以輸出 3D 動畫效果。(例如有設計師拿它設計服裝紋理)
可能這時候你會問,Kubric 相比自己手動渲染視訊或影象資料集,方便在哪?一方面,Kubric 自帶一系列預處理的基礎影象資料庫。除了 11 個基礎 3D 模型以外:
還內建了 Google Scanned Objects(GSO)室內傢俱物品資料集中的一系列模型,以及包含背景、光照、材料紋理等引數的 Polyhaven 資料集,還有 ShapeNet 資料集等(包含 55 種常見的物品型別及 51300 個 3D 模型)。也就是說,如果你對渲染不太瞭解,也能利用內建的資料庫快速生成想要的影象。
另一方面,Kubric 直接提供了從“渲染資料”到輸出“AI 訓練資料”的管道,省去了將渲染影象轉成特殊資料(如深度圖、光流圖)、或是額外收集如視場、相機引數、光照等資料的麻煩。這也使得 Kubric 支援生成 13 類 CV 任務所需的影象資料,具體包括光流、NeRF、姿態估計、3D 重建等。
沒錯,即使這些生成的影象中有 2D 也有 3D 型別,需要的資料量也從 MB 到 TB 級別不等,但 Kubric 都能滿足。嗯,作者們還專門針對各種視覺任務,用 Kubric 生成的資料集一個個試了試,強調“用他們生成的資料集效果更好”。
△Kubric 生成的光流圖
那麼,這樣的資料集生成器究竟要怎麼用呢?
自帶 Python 介面
作者提供了一些簡單的操作流程。在安裝之後,第一步就是建立預設場景:
然後,再通過這兩步,分別建立一塊地板、和一個球體(也可以換成其他形狀):
接下來就是在場景中加一個照明,以及渲染攝像頭採集影象:
匯出檔案後,就能獲取一個 3D 球體的影象了:
△Blender 中的效果
如果需要深度圖、灰度圖等特殊圖層的話,也是幾行程式碼就能搞定:
比自己手動匯出要更方便一些:
當然,如果還是感覺上手較難,作者也直接提供了示例程式碼,改改引數就能用:
在原基礎上,再加 5 行程式碼就能直接執行出動態視訊版:
看起來,做完資料集後,即使不懂渲染的也能成為半個行家了(doge)
目前新的一批內建資料集還在施工中,感興趣的小夥伴可以先上手試玩~
專案地址:
https://github.com/google-research/kubric
論文地址:
https://arxiv.org/abs/2203.03570
參考連結:
https://twitter.com/taiyasaki/status/1501288630697877504