1. 程式人生 > 資訊 >開源 CV 資料集生成器 Kubric 火了,支援 13 類複雜 CV 任務,DeepMind 谷歌 MIT 等打造

開源 CV 資料集生成器 Kubric 火了,支援 13 類複雜 CV 任務,DeepMind 谷歌 MIT 等打造

這年頭,AI 玩家們想找到合適的影象資料集,簡直是越來越難了。不僅資料質量參差不齊,合適的資料型別也難找(如光流圖、深度圖等)。

為了解決這些問題,來自谷歌、MIT、DeepMind、MILA 和劍橋大學等 11 家機構的 34 名研究人員,聯手打造了一個名叫 Kubric 的資料集生成器,不僅能自己渲染,而且影象效果也非常真實。

不僅各種影象資料都能做,像語義分割、深度圖或光流圖這種“特殊資料”都能一鍵生成:

還能控制渲染的真實度,渲染出的視訊可以達到以假亂真的效果:

據作者們表示,目前 Kubric 支援 13 類 CV 任務的資料型別生成,效果也不比用已有資料集訓練出來的差。這樣的一個數據集生成器,到底要怎麼上手?

可生成 13 類 CV 任務所需資料

先來看看這個 Kubric 資料集生成器究竟是個啥。簡單來說,它有點像是一個專為影象 AI 打造的“資料車間”,基於跨平臺開源物理引擎 PyBullet 和 3D 影象渲染軟體 Blender 打造。

其中,PyBullet 給使用者提供了一個模擬 3D 物體運動的平臺,例如兩個球之間的彈性碰撞引數就可以用它來模擬。(當然,除了 PyBullet 以外,也可以擴充套件到其他物理引擎如 MuJoCo 上)

Blender 則是一個渲染 3D 動畫的平臺,但它的優勢在於操作方便,而且既可以做出照片級逼真的渲染影象,也可以輸出 3D 動畫效果。(例如有設計師拿它設計服裝紋理)

可能這時候你會問,Kubric 相比自己手動渲染視訊或影象資料集,方便在哪?一方面,Kubric 自帶一系列預處理的基礎影象資料庫。除了 11 個基礎 3D 模型以外:

還內建了 Google Scanned Objects(GSO)室內傢俱物品資料集中的一系列模型,以及包含背景、光照、材料紋理等引數的 Polyhaven 資料集,還有 ShapeNet 資料集等(包含 55 種常見的物品型別及 51300 個 3D 模型)。也就是說,如果你對渲染不太瞭解,也能利用內建的資料庫快速生成想要的影象。

另一方面,Kubric 直接提供了從“渲染資料”到輸出“AI 訓練資料”的管道,省去了將渲染影象轉成特殊資料(如深度圖、光流圖)、或是額外收集如視場、相機引數、光照等資料的麻煩。這也使得 Kubric 支援生成 13 類 CV 任務所需的影象資料,具體包括光流、NeRF、姿態估計、3D 重建等。

沒錯,即使這些生成的影象中有 2D 也有 3D 型別,需要的資料量也從 MB 到 TB 級別不等,但 Kubric 都能滿足。嗯,作者們還專門針對各種視覺任務,用 Kubric 生成的資料集一個個試了試,強調“用他們生成的資料集效果更好”。

△Kubric 生成的光流圖

那麼,這樣的資料集生成器究竟要怎麼用呢?

自帶 Python 介面

作者提供了一些簡單的操作流程。在安裝之後,第一步就是建立預設場景:

然後,再通過這兩步,分別建立一塊地板、和一個球體(也可以換成其他形狀):

接下來就是在場景中加一個照明,以及渲染攝像頭採集影象:

匯出檔案後,就能獲取一個 3D 球體的影象了:

△Blender 中的效果

如果需要深度圖、灰度圖等特殊圖層的話,也是幾行程式碼就能搞定:

比自己手動匯出要更方便一些:

當然,如果還是感覺上手較難,作者也直接提供了示例程式碼,改改引數就能用:

在原基礎上,再加 5 行程式碼就能直接執行出動態視訊版:

看起來,做完資料集後,即使不懂渲染的也能成為半個行家了(doge)

目前新的一批內建資料集還在施工中,感興趣的小夥伴可以先上手試玩~

專案地址:

https://github.com/google-research/kubric

論文地址:

https://arxiv.org/abs/2203.03570

參考連結:

https://twitter.com/taiyasaki/status/1501288630697877504