1. 程式人生 > 資訊 >谷歌研製出 AI 編舞師:可根據音樂來 10 種 freestyle,霹靂、爵士、芭蕾舞隨便選

谷歌研製出 AI 編舞師:可根據音樂來 10 種 freestyle,霹靂、爵士、芭蕾舞隨便選

Transformer 又又接新活了 —— 這次谷歌用它搞了一個會根據音樂跳舞的 AI

而這個 AI 也憑藉著對音樂和舞蹈之間的關聯的深刻理解,打敗了 3 個同類模型取得 SOTA,登上了 ICCV 2021。

另外,除了程式碼開源,研究團隊還隨之一起公開了一個含有 10 種類型的 3D 舞蹈動作資料集。

心動的,搞起來搞起來!

這個 freestyle 怎麼來?

前面咱們不是說,這個 AI 用了 Transformer 嗎?

但這裡的 Transformer 不是普通的 Transformer,它是一個基於完全注意力機制(Full-Attention)的跨模態 Transformer,簡稱 FACT。

為什麼要搞這麼複雜?

因為研究人員發現,光用單純的 Transformer 並不能讓 AI 理解音樂和舞蹈之間的相關性。

所以,這個 FACT 是怎麼做的呢?

總的來說,FACT 模型採用了獨立的動作和音訊 transformer

首先輸入 2 秒鐘的 seed 動作序列和一段音訊,對其進行編碼。

然後將 embedding(從語義空間到向量空間的對映)連線起來,送入跨模態 transformer 學習兩種形態的對應關係,並生成 n 個後續動作序列。

這些序列再被用來進行模型的自監督訓練。

其中 3 個 transformer 一起學習,採用的是不用預處理和特徵提取,直接把原始資料扔進去得到最終結果的端到端的學習方式。

另外就是在自迴歸框架中進行模型測試,將預期運動作為下一代階段的輸入。

最終,該模型可以逐幀地生成一段(long-range)舞蹈動作。

下圖則展示了該模型通過同一段種子動作(嘻哈風格)、不同音樂生成了四種舞蹈作品(霹靂舞、爵士芭蕾、Krump 和 Middle Hip-hop)。

有沒有懂行的點評一下?

而為了讓 AI 生成的舞蹈生動且和音樂風格保持一致,這個模型設計裡面有 3 個關鍵點:

  • 1、模型內部 token 可以訪問所有輸入,因此三個 transformer 都使用一個完全注意力 mask。這使得它比傳統的因果模型更具表現力。

  • 2、不止預測下一個,該模型還預測 N 個後續動作。這有助於模型關注上下文,避免在幾個生成步驟後出現動作不銜接和跑偏的情況。

  • 3、此外,在訓練過程的前期還用了一個 12 層深的跨模態 transformer 模組來融合兩個 embedding(音訊和動作)。研究人員表示,這是訓練模型傾聽分辨輸入音樂的關鍵。

下面就用資料來看看真實效能。

打敗 3 個 SOTA 模型

研究人員根據三個指標來評估:

  • 1、動作質量:用 FID 來計算樣本(也就是他們自己釋出的那個資料集,後面介紹)和生成結果在特徵空間之間的距離。一共用了 40 個模型生成的舞蹈序列,每個序列 1200 幀(20 秒)。

FID 的幾何和動力學特性分別表示為 FIDg 和 FIDk。

  • 2、動作多樣性:通過測量 40 套生成動作在特徵空間中的平均歐氏距離(Euclidean distance)得出。

分別用幾何特徵空間 Distg 和動力學特徵空間 k 來檢驗模型生成各種舞蹈動作的能力。

  • 3、動作與音樂的相關性:沒有好的已有指標,他們自己提出了一個“節拍對齊分數”來評估輸入音樂(音樂節拍)和輸出 3D 動作(運動節拍)之間的關聯。

下面是 FACT 和三種 SOTA 模型(Li 等人的、Dancenet、Dance Revolution)的對比結果:

可以看到,FACT 在三項指標上全部 KO 了以上三位。

* 由於 Li 等人的模型生成的動作不連續,所以它的平均動力學特徵距離異常高,可以忽略。

看了資料,咱們再看個更直觀的:

emmm,相比動作靈活的 FACT,其他兩位看起來都有點“不太聰明”的亞子……

舞蹈動作資料集 AIST++

最後,再來簡單介紹一下他們自己打造的這個 3D 舞蹈動作資料集 AIST++

看名字你也發現了,這是基於現有的舞蹈資料集 AIST 的“加強版”,主要是在原有基礎上加上了 3D 資訊。

最終的 AIST++ 一共包含 5.2 小時、1408 個序列的 3D 舞蹈動作,跨越十種舞蹈型別,包括老派和新派的的霹靂舞、Pop、 Lock、Waack,以及 Middle Hip-Hop、LA-style Hip-Hop、House、Krump、街頭爵士和爵士芭蕾,每種舞蹈型別又有 85% 的基本動作和 15% 的高階動作

(怎麼感覺全是街舞啊?)

每個動作都提供了 9 個相機視角,下面展示了其中三個。

它可以用來支援以下三種任務:多視角的人體關鍵點估計;人體動作預測/生成;人體動作和音樂之間的跨模態分析。

團隊介紹

一作李瑞龍,UC 伯克利一年級博士生,UC 伯克利人工智慧研究室成員,Facebook Reality Labs 學生研究員。

研究方向是計算機視覺和計算機圖形學的交叉領域,主要為通過 2D 影象資訊生成和重建 3D 世界。

讀博之前還在南加州大學視覺與圖形實驗室做了兩年的研究助理。

本科畢業於清華大學物理學和數學專業、碩士畢業於計算機專業,曾在 Google Research 和位元組 AI Lab 實習。

共同一作 Yang Shan,就職於 Google Research。

研究方向包括:應用機器學習、多模態感知、3D 計算機視覺與物理模擬。

博士畢業於北卡羅來納大學教堂山分校 (UNC,美國 8 所公立常春藤大學之一)。

David A. Ross,在 Google Research 領導 Visual Dynamics 研究小組。

加拿大多倫多大學機器學習和計算機視覺專業博士畢業。

Angjoo Kanazawa,馬里蘭大學博士畢業,現在是 UCB 電氣工程與計算機科學系的助理教授,在 BAIR 領導旗下的 KAIR 實驗室,同時也是 Google Research 的研究員。