一個畫面,兩條時間線!用AI改寫視訊不同主角時間,效果堪比大片
前陣子大熱的電影《信條》你看了嗎?
無論是從劇情還是製作上這部電影都掀起了一陣輿論浪潮。影片中令人印象最深刻的無疑是幾場 “時間鉗形大戰”,高度還原了時間逆轉的整個過程,而不是直接跳轉到過去的某個時間點。
為了把時間在不同方向上的執行真實的展示出來,導演諾蘭表示,在這部電影中用到的特效鏡頭不到 300 個,甚至可能比大多數的浪漫喜劇電影還要少。真是讓人實名瑞斯拜。
諾蘭儘量堅持實拍也是他自己的 “信條”,但隨著科技的進步,不可否認,技術能做到的事情越來越多。
這不,最近谷歌和牛津大學的研究人員發表了一款 “視訊剪輯新利器”,可以 “重寫時間”!
在視訊裡可以只對特定人物的動作實現快進、慢放甚至刪除等,而不影響畫面上的其他人物
來和文摘菌一起看看吧~
當深度神經網路學會了 “掌控時間線”
先來看一個例子,這裡有一個孩子們跳水的視訊,原視訊中他們是分別跳入水中的:
研究人員用了一種全新的深度神經網路進行視訊處理,成功的做到讓他們一同跳入水中!見證奇蹟的時刻:
是不是完全沒有修改痕跡,看起來是如此的自然流暢。
這就是谷歌和牛津大學研究人員提出的 “時間重寫術”,他們訓練了一種深度神經網路,學習如何將視訊分層分解。
這個模型不僅在不同的層中分離了人的運動,而且還可以捕捉與那些人相關的各種場景元素 (例如,孩子們在水中濺起的水、陰影、映像)。當視訊中的人被 “重寫時間”的時候,這些相關的元素也會自動與他們一起重新計時,這使得研究人員能夠為各種重新計時的效果建立真實的視訊重染。
再來看看這個 “時間重寫”大法還能做出什麼毫無違和的視訊~
“凍結時間”
如下圖所示,這裡有兩對小朋友在跳拉丁舞,可以看到,在原視訊中從視訊開始他們就一直在跳。
接下來,就要 “凍結時間”了!就像我們在電影中看到的那樣,有超能力的主角可以在眾人靜止的時候活動。那麼未來這種特效似乎可以放心的交給 AI 了!
就像這樣,AI 可以對時間進行偏移,例如偏移時間為 1 秒,我們可以看到右側這對小朋友靜止了 1 秒才開始跳,自然他們的舞蹈動作相對左側的對照組也會隨之延後 1 秒。
除此之外,這個神經網路還可以隨心所欲的控制 “凍結”誰以及 “凍結”時間,比如跳到一半讓右邊這對停一下~
左邊這對先停一下再跳也沒問題~
你以為就這??當然不止。這個神經網路還可以讓視訊中的人物變成 “重影”的效果。
人物疊化
在進行視訊剪輯的時候,有一種叫做 “疊化”的轉場效果不知大家是否有所耳聞。什麼意思呢?就是在視訊中兩個片段切換的時候,為了讓切換效果更加自然而採取的一種過渡手段。也就是說,前一個片段的結尾和後一個片段的開頭重疊在一起。
而谷歌和牛津大學研究人員訓練的這個神經網路可以做到與 “疊化”轉場類似的效果。研究人員把這個效果稱之為——Duplication。區別於視訊轉場,這個效果可以通過重寫時間來疊化一段視訊中的人物動作。
來看個例子,原視訊中粉色褲子的小女孩做了一個側手翻:
通過神經網路的渲染,可以變成以下效果:
側手翻的小女孩的動作疊化後是不是有點炫酷~ 另外右邊藍色衣服的女孩用到了凍結效果。兩則視訊對比來看,周圍的環境完全看不出有什麼異樣,這樣的特效可以說是非常成功了~
通過分層神經渲染,只重新定義人物時間線,視訊毫無違和感!
所有這些效果都是通過一種新的基於深度神經網路的模型實現的,這項技術的核心是分層神經渲染。
即該模型可以根據視訊進行優化,將每幀影象分解為一組層,每個層由一個 RGB 彩色影象和一個不透明蒙版α(統稱為 “RGBA”)組成,與視訊中特定的單個 / 多個人物相關聯。
背景層以及 1-3 層
需要注意的是,研究人員在這項研究中只關注重寫時間。也就是說,輸出視訊中的人物姿態都是在原視訊中出現的,他們不生成新的、看不見的姿態或視點。
值得一提的是,他們的方法不需要手動註釋或顯式表示動態場景元素,如陰影、水花和蹦床變形;而是隻需要對人員進行粗略的引數化,然後,模型會自動學習將與人物相關的場景分組重建。重要的是,重定時效果可以通過對層的簡單操作(移除、複製或插值特定層)而產生,而無需額外的訓練或處理。
分層神經渲染
更多理論詳情,可以參見論文《Layered Neural Rendering for Retiming People in Video》:
https://arxiv.org/pdf/2009.07833.pdf
這項研究的相關程式碼也將在 SIGGRAPH Asia 2020 上釋出,大會預計將在 12 月 4 日舉行。