“眾所周知，視訊不能 P”，GAN 模型：是嗎？P 視訊來了

阿新 • • 發佈：2022-01-25

見過用 GAN 來 P 圖，見過用 GAN P 視訊嗎？瞧，原本一直在面無表情地講話的人，全程露出了微笑；原本得 4、50 歲的人，直接變 20 幾歲了：

另一邊，正在微笑唱歌的“赫敏”一下子憤怒起來，還能換上一張幾歲小孩的臉：

美國前總統也如此，4 種版本的面部狀態信手拈來，甚至連性別都給 P 成女的了：

不管人臉表情和狀態如何變化，這些視訊都沒有給人任何違和感，全程如此的絲滑～哦對，除了真人，動漫視訊裡的臉也可以 P：

有點厲害了。

基於 GAN 的視訊面部編輯

這個模型出自以色列特拉維夫大學。

眾所周知，GAN 在其潛空間內編碼豐富語義的能力，已經被廣泛用於人臉編輯。不過將它用在視訊中還是有點挑戰性：一個是缺乏高質量資料集，一個是需要克服時間一致性（temporal coherency）這一基本障礙。

不過研究人員認為，第二點這個障礙主要是人為的。因為原視訊本具備時間一致性，編輯後的視訊卻變了，部分原因就是在 editing pipeline 中對一些元件（component）處理不當。而他們提出的這個視訊人臉語義編輯框架，相對於當前技術水平做出了重大改進：只採用了標準的非時序 StyleGAN2，對 GAN editing pipeline 中的不同元件進行分析，確定哪些元件具備一致性，就用這些元件來操作。整個過程不涉及任何用來維持時間一致性的額外操作。具體流程一共分為六步：

1、輸入視訊首先被分割成幀，每幀中的人臉都被裁剪下來並對齊；

2、使用預訓練的 e4e 編碼器，將每張已裁剪的人臉反演到預訓練的 StyleGAN2 的潛空間中；

3、在所有並行幀中使用 PTI（最新提出的一種視訊人臉編輯方法）對生成器進行微調，糾正初始反演中的錯誤，恢復全域性一致性；

4、所有幀通過使用固定的方向和步長，線性地操縱其軸心潛碼（pivot latent codes）進行相應編輯；

5、再次微調生成器，將背景和編輯過的人臉“縫合”在一起；

6、反轉對齊步驟，並將修改後的人臉貼上回視訊中。

△注意頸部曾產生了大量瑕疵，在最後一步完全修復好

和 SOTA 模型對比

這個模型效果到底有多好，來個對比就知道：

第一個是變年輕、第二、三個都是變老。可以明顯看到目前的 SOTA 模型（Latent Transformer）和 PTI 模型中的人臉會“抽巴”，並出現一些偽影，而這個新模型就避開了這些問題。

此外，研究人員還進行了時間一致性測試。指標包含兩個：

區域性時間一致性（TL-ID），通過現成的一致性檢測網路來評估相鄰兩幀之間的一致性。TL-ID 分數越高，表明該方法產生的效果越平滑，沒有明顯的區域性抖動。

全域性時間一致性（TG-ID），同樣使用一致性檢測網路來評估所有可能的幀（不一定相鄰）之間的相似性。得分為 1 表示該方法成功保持了和原視訊的時間一致性。

結果如下：

可以看到，這個新模型在兩項指標中都略勝一籌。

最後，程式碼將於 2 月 14 號釋出，感興趣的朋友可以蹲一蹲了～

論文地址：

https://arxiv.org/abs/2201.08361

專案主頁：

https://stitch-time.github.io/

“眾所周知，視訊不能 P”，GAN 模型：是嗎？P 視訊來了

基於 GAN 的視訊面部編輯

和 SOTA 模型對比

“眾所周知，視訊不能 P”，GAN 模型：是嗎？P 視訊來了

微軟 Windows Terminal 1.6 預覽版釋出：圖形設定介面來了，但需手動開啟

夢幻西遊手遊：新角色要來了？官方重磅爆料，還有新寵物上線！

英偉達 DLSS、AMD FSR 之後，英特爾畫面超取樣技術也要來了

賓士寶馬奧迪組隊秀電動豪車，純電邁巴赫電動大 G 都來了，這誰頂得住

微軟 Xbox Game Pass 十月遊戲陣容：《帝國時代 3：終極版》來了

《龍騰世紀4》再曝最新藝術圖：灰袍守望者來了

日本一《偵探撲滅》新角色展示影像：社畜偵探來了

頑皮狗釋出大量職位招聘資訊動畫總監調侃：大的要來了

酷派宣佈全新品牌升級：“酷派紅”來了

B站嗶哩嗶哩動畫 Win11/10 UWP 測試版 v2.14.56.0 釋出：全新播放頁來了（附後續功能計劃）

金剷剷之戰S6.5：版本隱藏答案來了！

小米瀏覽器 13 正式版釋出：全新多視窗頁，網頁視訊播放器支援倍速播放、視訊下載

騰訊視訊釋出極光 T6 投影儀：主打 3D 影院，到手價 4899 元

最新爆料：AMD RX 6000 獨顯最高搭載 16GB 視訊記憶體，GPU 頻率 2.4GHz

JavaCV開發詳解之23：hls視訊錄製，m3u8切片錄製和fmp4切片錄製詳解

英特爾曝光 Xe HPC GPU 核心照片：HBM2 視訊記憶體，多晶片封裝

AMD RX 6700 XT 顯示卡規格曝光：12GB GDDR6 視訊記憶體，可進行 1440P 遊戲

樂視視訊自嘲 “欠 122 億”：喚得起關注，但喚不回生機

快手：二次元觀眾中 Z 世代佔比超 85%，男性作者偏愛釋出模型手辦相關內容

“眾所周知，視訊不能 P”，GAN 模型：是嗎？P 視訊來了

基於 GAN 的視訊面部編輯

和 SOTA 模型對比

相關推薦