1. 程式人生 > 資訊 >53 幀變 900 幀,華為黑科技 AI 亮相:不用昂貴的高速攝像機也能製作慢鏡頭

53 幀變 900 幀,華為黑科技 AI 亮相:不用昂貴的高速攝像機也能製作慢鏡頭

要製作慢動作視訊就必須要用死貴的高速攝像機?

NO! 可以用 AI。

看到沒,這就是 AI 完成的效果!

雖然和真正的高速攝像機至少上千的幀數沒法比,但它完全可以做到每秒 53 幀的視訊輕輕鬆鬆變成 960 幀,沒有偽影也沒有噪聲。

很多網友看完效果都按耐不住了:“非常想要一個深入的教程”、“能不能出一個應用程式?”……

而這項酷斃的研究成果也成功入選 CVPR 2021,研究人員來自華為蘇黎世研究中心和蘇黎世大學。

當然,也用了一個特殊的攝像頭

實現這一效果沒有采用通過視訊光流來猜測粒子運動的經典思想,而是先用了兩個攝像頭來捕捉畫面

一個就是普通攝像頭,記錄低幀(20-60FPS)真實畫面;

要想達到慢動作效果,起碼得每秒 300 張畫面才夠;20 幀的視訊給的資訊太少了,沒法直接合成慢動作。

怎麼辦?靠另一個特殊的攝像頭 ——

也就是事件相機(也稱為神經形態相機),它使用新型的感測器,拍攝的是“事件”,也就是記錄畫素亮度變化

事件相機還比較新興,實驗室裡有很多,市場上還沒有大規模問世,報價有 2000 美元一個或更高。

由於該相機記錄的資訊經過壓縮表示,因此可以較低的清晰度、高速率進行拍攝,也就是犧牲影象質量換取更多影象資訊。

最終的資訊量足夠 AI 理解粒子的運動,方便後續插值

▲問號部分即為我們要的插幀

這倆相機同步拍攝到的內容合起來就是這樣的:

拍好以後,就可以使用機器學習來最大化地利用這兩種相機的資訊進行插幀了。

研究人員在這裡提出的 AI 模型叫做 Time Lens,一共分為四塊。

首先,將倆相機拍到的幀資訊和事件資訊傳送到前兩個模組:基於變形(warp)的插值模組和合成插值模組。

基於變形的插值模組利用 U 形網路將運動轉換為光流表示,然後將事件轉換成真實的幀。

合成插值模組也是利用 U 形網路將事件置於兩個幀之間,並直接為每個事件生成一個新的可能幀(現在就為同一事件生成兩個幀了)。

該模組可以很好地處理幀之間出現的新物件以及光線變化(比如水反射啥的)。

不過到這裡的話,合成的視訊可能會有一個問題:出現噪聲。

這時,第三個模組的作用就派上用場了,它使用第二個插值合成模組中的新資訊來細化第一個模組。

也就是提取同一事件的兩個生成幀中最有價值的資訊,進行變形優化 —— 再次使用 U-net 網路生成事件的第三個幀版本。

最後,這三個候選幀被輸入到一個基於注意力的平均模組。

該模組採用三幀表示中最好的部分將它們組成最終幀。

現在,有了幀之間第一個事件的高清幀後,再對事件相機提供的所有事件重複此過程,就能生成最終我們想要的結果了。

這就是使用 AI 建立逼真的慢動作視訊的方法。怎麼樣?

附一個攝像機的引數圖:

取得了智慧手機和其他模型無法達到的效果

你說這個 AI 模型的效果好,那得對比一下才知道。

比如上面這個與最優秀的插值模型之一的 DAIN(入選 CVPR 19)的對比,誰好誰壞效果就很明顯了。

而且它的插值方法的計算複雜度也是最優的:影象解析度為 640×480,在研究人員的 GPU 上進行單個插值時,DAIN 模型需要 878 毫秒,該 AI 則只需要 138 毫秒

另外,雖然不建議,用該模型輸入的視訊即使只有 5 幀,也可以生成慢動作。

和其他模型的對比實驗資料,大家感興趣的可以檢視論文。

最後,作者在介紹成果的視訊裡也再次說道,不和昂貴的專業裝置相比,該模型至少取得了智慧手機和其他模型無法達到的效果。

作者介紹

一作 Stepan Tulyakov,華為蘇黎世研究中心機器學習研究員。

共同一作 Daniel Gehrig,蘇黎世大學博士生。蘇黎世聯邦理工大學機械工程碩士。

論文地址:

http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

開源地址:

https://github.com/uzh-rpg/rpg_timelens