1. 程式人生 > 資訊 >英偉達把 P 圖軟體 GAN 了,最新 AI 工具即將推出

英偉達把 P 圖軟體 GAN 了,最新 AI 工具即將推出

12 月 5 日訊息,英偉達的最新 AI 工具又讓網友使用者們激動了。“我已經等不及了!”

一位網友在看完演示視訊後表示。

對於“手殘黨”來說,英偉達的 EditGAN 簡直就是零基礎 P 圖神器。能夠高質量、高精細度地對影象進行修改,讓 P 圖方式從未如此容易。

例如,讓畫像和雕塑“擠眉弄眼”:

只要你會上傳圖片、能畫草圖,就能夠輕鬆 P 圖。如此“魔性”的工具,難怪得到了網友熱捧。

EditGAN 甚至能精細到修改車輪輻條大小和方向:

當然,真人照片也不在話下,如控制人眼朝向、頭髮量等:

還能給貓咪修改耳朵大小:

而你要做的,只是上傳一張圖片,然後由程式生成一張語義分割草圖,直接在草圖上塗抹修改。

▲在草圖中加入牙齒部分,人就笑了

EditGAN 只會修改你想要改變的部位,其他部分都原封不動。

和最近的 GauGAN2 一樣,英偉達也為 EditGAN 開發了一個電腦軟體:

這項研究已經被 NeurIPS 2021 接收。

本文一作是來自多倫多大學的華人博士生凌歡,他同時在該校人工智慧研究院(Vector Institute)和英偉達做研究。

首個 GAN 驅動的影象編輯器

研究人員表示,EditGAN 是第一個 GAN 驅動的影象編輯框架,它的主要特點是:

1、提供非常高的精度編輯,

2、只需要很少的註釋訓練資料,

3、可以實時互動式執行,

4、允許多個編輯的直接合成,

5、適用於真正的嵌入式、GAN 生成甚至域外影象。

首先,EditGAN 使用 StyleGAN2 生成影象。

StyleGAN2 的工作流程是:獲取影象,將其編碼到潛在空間,並使用生成器將這個編碼子空間轉換為另一個影象

但問題在於,這個空間是多維的,我們很難將其視覺化,也很難確定該子空間的哪一部分負責重建影象中的哪個特徵。

通常,需要龐大的標註資料集,才能知道模型中潛在空間哪一部分控制哪些特徵。

而 EditGAN 僅通過對少數標記的資料集示例進行學習,就能將分割與影象相匹配,從而實現影象影象的編輯。EditGAN 保留了完整的影象質量,同時提供了前所未有的細節和自由度。

更重要的是 EditGAN 不僅知道潛在空間對應控制那個部分,而且還將它們與草圖對應起來。這樣,我們就可以通過修改草圖輕易地修改影象了。

EditGAN 基於 DatasetGAN,結合了影象建模及其語義分割。

EditGAN 的關鍵思想在於利用影象和畫素級語言分割聯合分佈。

具體而言,就是將影象嵌入 GAN 的潛在空間,並根據分割編輯執行條件潛在程式碼優化。

以上展示了 EditGAN 的訓練過程:修改語義分割並優化共享的潛在程式碼,與編輯區域內的新分割,以及編輯區域外的 RGB 外觀保持一致。相應的梯度通過共享生成器進行反向傳播。

為了攤銷優化,作者在實現編輯的潛在空間中找到“編輯向量”。該框架允許學習任意數量的編輯向量,然後以實時的速率直接應用於其他影象。

P 圖工具即將釋出

作者團隊在英偉達內部 GPU 叢集上使用 V100 執行底層 StyleGAN2、編碼器和分割分支的訓練以及嵌入和編輯的優化。

該專案使用了大約 14000 個 GPU 小時,其中大約 3500 個 GPU 小時用於最終實驗,其餘用於研究專案早期階段的探索和測試。至於 EditGAN 的執行,在 V100 上進行 30 (60) 步優化需要 11.4 (18.9) 秒。

雖然訓練不起,但是用訓練好的模型來 P 圖還是有可能的。

此前英偉達釋出的 Canvas 就集成了 GauGAN2 等最新成果,可以用手繪草圖生成精細的 PS 檔案。

可能 Canvas 也會很快整合 EditGAN 的吧。

有個好訊息是,英偉達表示,將會程式碼和編輯工具軟體即將推出。你是是不是迫不及待想嘗試一把了?

論文地址:點選開啟

補充材料:點選開啟