給出 3 個詞,AI 直接作畫!OpenAI 釋出 DALL・E 2.0,掌握多種畫風,解析度提高 4 倍
大家還記得去年 1 月 OpenAI 釋出的 120 億引數魔法模型 DALL・E 嗎?
當時,DALL・E 的畫風是這樣的:
只要「閱讀」文字,DALL・E 就能根據文字的內容「自動」生成栩栩如生的大師級畫像。因此,當時一經發布,DALL・E 就火遍了 AI 圈,吸粉無數,也讓 Language-Vision(文字-視覺)方向又火了一把。
就在近日,時隔一年後,OpenAI 結合 CLIP,又釋出了 DALL・E 的第二個版本 ——DALL・E 2.0!
相比 DALL・E 1.0,DALL・E 2.0 可以生成更真實和更準確的畫像:綜合文字描述中給出的概念、屬性與風格等三個元素,生成「現實主義」影象與藝術作品!解析度更是提高了 4 倍
比如,當提示文字中分別包含「概念」“An astronaut ”(一個宇航員)、「屬性」“riding a horse”(在騎一匹馬)和「 風格」“in a phtprealistic style”(超現實風格)時:
文字提示:An astronaut + riding a horse + in a phtprealistic style(一個宇航員 + 騎馬 + 超現實風格)
DALL・E 2 可以生成如下這些同時包含三種元素的影象:
在滿足三種給定元素的基礎上,它可是充分發揮了自己的「想象力」,不僅馬的姿態各不相同,而且給宇航員穿上了樣式各異的服裝,場景也是十分豐富,草地上、山頂上、星空中......
神不神奇!牛不牛!
讓我們來欣賞 DALL・2.0 的大師作品!
如果你想要變換文字中概念、屬性和風格三個元素中的一個或多個,比如保留「概念」“一個宇航員”和「屬性」“在騎一匹馬”,而將超現實主義風格替換為波普藝術家安迪・沃霍爾的風格,DALL・E 2 也可以「輕鬆」轉換它的繪畫風格:
文字提示:An astronaut + riding a horse + in the style of Andy Warhol (一個宇航員 + 在騎一匹馬 + 安迪・沃霍爾的風格)
DALL・E 2 生成的影象:
文字提示:An astronaut + riding a horse + as a pencil drawing(一個宇航員 + 在騎一匹馬 + 鉛繪風格)
DALL・E 2 生成的影象:
文字提示:An astronaut + lounging in a tropical resort in space + in a vaporwave style( 一個宇航員 + 在太空熱帶度假勝悠哉地躺著 + 蒸汽波風格)
DALL・E 2 生成的影象:
文字提示:Teddy bears + mixing sparkling chemicals as mad scientists + as a 1990s Saturday morning cartoon(泰迪熊們 + 正在像瘋狂的科學家一樣混合著冒泡的化學物質 + 20 世紀 90 年代的週六早間卡通片風格)
DALL・E 2 生成的影象:
文字提示:Teddy bears+shopping for groceries+in the style of ukiyo-e(泰迪熊 + 購買雜貨 + 浮世繪風格)
DALL・E 2 生成的影象:
文字提示:Teddy bears+shopping for groceries+in ancient Egypt(泰迪熊 + 購買雜貨 + 古埃及風格)
DALL・E 2 生成的影象:
文字提示:A bowl of soup+that is a portal to another dimension+as digital art(一碗湯 + 通往另一個維度的門戶 + 數字藝術風格)
DALL・E 2 生成的影象:
文字提示:A bowl of soup+as a planet in the universe+as a 1960s poster(一碗湯 + 宇宙中的一個星球 + 1960 年代海報風格)
DALL・E 2 生成的影象:
文字提示:A bowl of soup+as a planet in the universe+as digital art(一碗湯 + 宇宙中的一個星球 + 數字藝術風格)
DALL・E 2 生成的影象:
DALL・E 2.0 的其他功能
1、影象編輯
DALL・E 2 可以根據自然語言描述的標題對現有影象進行逼真的編輯,比如,在考慮陰影、反射和紋理的同時增加或刪除圖中的某個元素。示例如下:
文字描述的編輯需求:選擇一個位置在圖中新增火烈鳥。
原圖 vs. DALL・E 2 編輯後的影象:
文字描述的編輯需求:選擇一個位置在圖中新增柯基。
原圖 vs. DALL・E 2 編輯後的影象:
2、風格變體
DALL・E 2 可以拍攝一張圖片,然後根據原圖製作出同一個風格的不同畫像。示例如下:
原圖 1:
DALL・E 2 創造的同一風格影象:
原圖 2:
DALL・E 2 創造的同一風格影象:
原圖 3:
DALL・E 2 創造的同一風格影象:
原圖 4:
DALL・E 2 創造的同一風格影象:
對於 AI 從文字生成的影象,我們非常看重的一點當然是影象的解析度了,影象的解析度越高,畫素數量就越多,影象也就越清晰和逼真。與 DALL・E 1 相比,DALL・E 2 的解析度提高了 4 倍!
比如,對於同樣的文字提示:
文字提示:a painting of a fox sitting in a field at sunrise in the style of Claude Monet(一隻狐狸坐在日出時的田野裡 + 克勞德・莫奈風格)
下面兩張圖分別是 DALL・E 1 和 DALL・E 2 所生成影象的對比:
對比之下,DALL・E 1 生成的影象可以說是很模糊了,甚至根本看不出「日出」在哪裡,「狐狸」只顯露出它的頭部,「田野」也不太有田野的樣子,而且在整體風格上與畫家莫奈的印象派風格相去甚遠。
而在 DALL・E 2 的魔法手筆下,影象質量顯著提高,「日出」和「田野」都很生動,小狐狸端坐在草地上,姿態可愛。這幅畫作色彩更加豐富,使用了更多的複色,對光影的描繪更加接近莫奈的風格。
總體來說,相比 DALL・E 1.0,DALL・2 顯然能 hold 住元素更豐富、色彩更飽滿的影象。不再是簡單的單一物品描述,而是對一個場景的整體表達,故事更完整,想象力也更豐富!
更詳細的內容,可以檢視 DALL・E 2 的相關研究論文:
論文地址:https://cdn.openai.com/ papers / dall-e-2.pdf