1. 程式人生 > 資訊 >DALL・E 這波超進化,畫質藝術感雙飛昇,還學會了無痕 P 圖

DALL・E 這波超進化,畫質藝術感雙飛昇,還學會了無痕 P 圖

把椅子上的萌犬 P 成貓貓,需要幾步?第一步,圈出狗狗。第二步,告訴 AI 你的需求。滑鼠一點,齊活。

這位 AI P 圖大師,其實是位老朋友 ——OpenAI 風靡全球的那位 DALL・E。現在,它剛剛完成了“2.0 超進化”。不僅新學了一手出神入化的 P 圖絕技,創作質量也有了飛躍式的提升。

話不多說,直接看作品感受一下~ 這是 DALL・E 2 在“星雲爆炸狀柯基頭”這一提示下的創作出來的畫作:

這幅薩爾瓦多・達利的畫像,是不是有點薩爾瓦多・達利內味兒了?

跟初代 DALL・E 比起來,著實是畫質與藝術感雙雙飛昇了。

△ “日出時分安坐在田野裡的狐狸,莫奈風格”

所以,研究人員具體如何點亮了 DALL・E 的新技能點?

CLIP + 擴散模型

DALL・E 此番進化,簡單來說就是解析度更高了,延遲更低了。此外,還有更新 2 大新功能:

首先,在更細粒度上實現文字 → 影象功能。也就是說,DALL・E 2 可以根據自然語言提示進行 P 圖。在 P 圖的過程中,還會考慮陰影、反射、紋理等元素的變化。比如在左圖示“2”的位置 P 一個火烈鳥泳圈,DALL-E 2 會把水面倒影這種細節也處理到位。

其次,是可以在保留原作核心元素的基礎之上,賦予原作船新的風格。並且生成畫面的畫質是 DALL・E 1 的 4 倍,即從 256×256 提升到了 1024×1024。

具體的實現方法,用 OpenAI 官方的話來說,就是結合了 CLIP 和擴散模型兩種技術的優點。CLIP 是原版 DALL・E 功能實現的基礎,是一個負責給影象重排序的模型,其零樣本學習能力已經在各種視覺和語言任務上大放異彩。而擴散模型的特點在於,在犧牲多樣性的前提下,能大大提升生成影象的逼真度。於是,OpenAI 的研究人員設計了這樣一種方案:

在這個名為 unCLIP 的架構中,CLIP 文字嵌入首先會被餵給自迴歸或擴散先驗,以產生一個影象嵌入。而後,這個嵌入會被用來調節擴散編碼器,以生成最終的影象。

OpenAI 解釋稱,DALL・E 能夠 get 影象和用於描述畫面的文字之間的關係。其影象的生成是在“擴散”過程中完成的,可以理解為是從“一堆點”出發,用越來越多的細節去把影象填充完整。

研究人員將 DALL・E 2 與 DALL・E、GLIDE 等模型進行了對比。

實驗結果顯示,DALL・E 2 的影象生成質量與 GLIDE 相當,但 DALL・E 的生成結果更具多樣性。

目前,DALL・E 2 並未對公眾開放,不過如果你感興趣,可以線上註冊申請一發~

專案地址:

https://openai.com/dall-e-2/#demos