1. 程式人生 > 資訊 >英偉達推出“超級縫合體”PoE GAN,輸入文字草圖語義圖都能生成逼真照片

英偉達推出“超級縫合體”PoE GAN,輸入文字草圖語義圖都能生成逼真照片

繼 GauGAN2 之後,英偉達推出了一個 GAN 的“超級縫合體”——PoE GAN。PoE GAN 可以接受多種模態的輸入,文字描述、影象分割、草圖、風格都可以轉化為圖片。

而且它可以同時接受以上幾種輸入模態的任意兩種組合,這便是 PoE 的含義。

所謂 PoE 是 Hinton 在 2002 年提出的“專家乘積”(product of experts)概念,每個專家(單獨模型)被定義為輸入空間上的一個概率模型。

而每種單獨的輸入模態都是合成影象必須滿足的約束條件,因此滿足所有約束的一組影象是滿足每個約束集合的交集。

假設每種約束的聯合條件概率分佈都服從高斯分佈,就用單條件概率分佈的乘積來表述交集的分佈。

在此條件下,為了使乘積分佈在一個區域具有高密度,每個單獨的分佈需要在該區域具有高密度,從而滿足每個約束。而 PoE GAN 的重點是如何將每種輸入混合在一起。

PoE GAN 的設計

PoE GAN 的生成器使用全域性 PoE-Net 將不同型別輸入的變化混合起來。

我們將每個模態輸入編碼為特徵向量,然後使用 PoE 彙總到全域性 PoE-Net 中。解碼器不僅使用全域性 PoE-Net 的輸出,還直接連線分割和草圖編碼器,以此來輸出影象。

全域性 PoE-Net 的結構如下,這裡使用一個潛在的特徵向量 z0 作為樣本使用 PoE,然後由 MLP 處理以輸出特徵向量 w。

在鑑別器部分,作者提出了一種多模態投影鑑別器,將投影鑑別器推廣到處理多個條件輸入。與計算影象嵌入和條件嵌入之間單個內積的標準投影鑑別器不同,這裡要計算每個輸入模態的內積,並將其相加以獲得最終損失。

隨意變換輸入的 GAN

PoE 可以在單模態輸入、多模態輸入甚至無輸入時生成圖片。

當使用單個輸入模態進行測試時,PoE-GAN 的表現優於之前專門為該模態設計的 SOTA 方法。

例如在分割輸入模態中,PoE-GAN 優於此前的 SPADE 和 OASIS。

在文字輸入模態中,PoE-GAN 優於文字到影象模型 DF-GAN、DM-GAN+CL。

當以模式的任意子集為條件時,PoE-GAN 可以生成不同的輸出影象。下面展示了 PoE-GAN 的隨機樣本,條件是兩種模式(文字 + 分割、文字 + 草圖、分割 + 草圖)在景觀影象資料集上。

PoE-GAN 甚至還能沒有輸入,此時 PoE-GAN 就會成為一個無條件的生成模型。以下是 PoE-GAN 無條件生成的樣本。

團隊介紹

論文通訊作者是英偉達著名工程師劉洺堉,他的研究重點是深度生成模型及其應用。英偉達 Canvas 和 GauGAN 等有趣的產品均出自他手。

論文一作是黃勳,北京航空航天大學本科畢業,康奈爾大學博士,現在在英偉達工作。

論文地址:

https://arxiv.org/abs/2112.05130

PoE:

https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf

投影鑑別器:

https://arxiv.org/abs/1802.05637