1. 程式人生 > 資訊 >騰訊 ARC 實驗室公開 AI 模型:能令低解析度圖變高清,可在 GitHub 上下載

騰訊 ARC 實驗室公開 AI 模型:能令低解析度圖變高清,可在 GitHub 上下載

下面來欣賞一些高糊圖片“整個世界都清晰了”的魔法時刻:

無論是動漫還是真實影象,是不是都清晰還原了?

以上就是由騰訊 ARC 實驗室最新發表的影象超解析度模型完成的。

與前人工作相比,它可以更有效地消除低分辯率影象中的振鈴和 overshoot 偽影;

面對真實風景圖片,能更逼真地恢復細節,比如樹枝、岩石、磚塊等。

除了上面這些官方的 demo,我們也試了一下,效果還比較滿意:

如果你也想試試,可在 GitHub 上下載該模型的可執行檔案,Windows/Linux/MacOS 都可以,且不需要 CUDA 或 PyTorch 的支援。

下好以後只需在終端執行以下命令即可使用:

./realesrgan-ncnn-vulkan.exe-iinput.jpg-ooutput.png

基於 ESRGAN 的改進研究

這個模型被命名為 Real-ESRGAN,總的來說,就是通過模擬高解析度影象變低分辯率過程中的各種退化,然後看到一張糊圖後倒推出來它的高清圖

而它是對超分“前輩”ESRGAN 的進一步研究。

ESRGAN 曾贏得 ECCV2018 PIRM-SR 挑戰賽中的第一名,但它在恢復具有未知和複雜退化(degradation)的低解析度影象方面,也就是盲超解析度(Blind Super-Resolution)上做的還不夠好。

而相比 ESRGAN,Real-ESRGAN 使用合成數據進行訓練,引入了高階退化建模以更全面逼真地模擬複雜的影象退化,重點考慮了合成過程中常見的振鈴和 overshoot 偽影。

還採用了一個具有譜歸一化(Spectral Normalization)的 U-Net 鑑別器,來提高鑑別器的效能並穩定訓練過程,最終實現了“青出於藍勝於藍”的效果。

下面就進入具體原理講解:

通常情況下,真實影象 y 首先與模糊核(blur kernel)k 進行卷積,然後執行具有比例因子 r 的下采樣操作,通過新增噪聲 n 獲得低解析度影象 x。一般還得再加個 JPEG 壓縮,即:

而獲得高清影象的過程就是求解 y 的過程(其中 D 表示退化過程)。

然而只採用這一經典的退化模擬,訓練後的模型只能處理部分影象,更復雜的退化(尤其是未知噪聲和某些偽影)仍無法解決

所以研究人員就引出了高階退化過程來模擬出更真實全面的退化,它包含多個重複的經典退化過程,每個又具有不同的退化超參:

下圖為 Real-ESRGAN 進行退化模擬的示意圖:

採用的是二階退化,具體來說:

在模糊(blur)退化方面,為了包含更多不同的核形狀,Real-ESRGAN 採用了廣義高斯模糊核和 plateau-shaped 分佈。

降噪(noise)方面,除了顏色噪聲和灰度噪聲,還模擬了兩種常見型別:

  • (1)加性高斯噪聲:其噪聲強度受高斯分佈標準差控制;

  • (2)泊松噪聲:其噪聲強度與影象資訊成正比。

resize 也就是經典退化模擬裡的下采樣,在這裡為了產生更多模糊影象,就改成了上取樣 + 下采樣的組合操作。resize 方法中,由於最近鄰插值會導致錯位,最後就只考慮了面積、雙線性和雙三次插值。

JPEG 壓縮,能帶來塊偽影。下圖為 OpenCV 與 DiffJPEG 的壓縮效果對比,Real-ESRGAN 採用的是 DiffJPEG。

而在 Real-ESRGAN 重點關注的偽影方面:

主要針對非常常見的振鈴偽影(下圖左 1 左 2,看起來像“鬼影”)和 overshoot 偽影(下圖右 2 右 1,看起來像“鋸齒”)。

採用了 sinc 濾波器來模擬這兩者 :

以上,退化模擬搞定後,就可以開始訓練了。

Real-ESRGAN 的生成器沿用了 ESRGAN 的 RRDBNet,還擴充套件了原始的 ×4 ESRGAN 架構,以執行 resize 比例因子為 ×2 和 ×1 的超解析度放大。

判別器則由 VGG 型升級為 U-Net 型,以具備更強的判別能力,處理複雜的輸出以及生成關於區域性紋理的精確梯度反饋。

另外,U-Net 架構和複雜的退化給訓練帶來了不穩定性,為此,還採用了譜歸一化來穩定模型訓練,這也有助於緩解 GAN 帶來的過度銳化以及偽影。

除偽影、恢復紋理細節的效果優於其他方法

最終可以看到,Real-ESRGAN 在去除偽影和恢復紋理細節方面都明顯優於以前的方法:

消融實驗也發現採用二階退化模型的效果最好、通過 sinc 濾波器的可以跟好地去除偽影、SN+UNet 的組合取得了最佳的視覺效果、引入更多的模糊核,模型效果還可以進一步提升(分別對應下面四組圖):

當然,他們也發現三個表現不夠好的效果,比如線條扭曲、出現了其他偽影。

總而言之,作者表示:盲影象超分仍處於初步探索階段,之前的 BSRGAN 以及本文的 Real-ESRGAN 可為該領域提供一個非常好的基線。

團隊介紹

Wang Xintao,畢業於浙江大學本科,香港中文大學博士(師從湯曉鷗),現在是騰訊 ARC 實驗室(深圳應用研究中心)的研究員。研究興趣集中在影象/視訊的超解析度恢復。ESRGAN 的一作。

謝良彬 ,中國科學院深圳先進技術研究所碩士一年級學生,師從董超教授。

董超,中國科學院深圳先進技術研究院碩導,畢業於北理工本科,香港中文大學博士。曾任商湯科高階研究經理,谷歌學術引用 14416 次,h 指數 22。

單瀛,騰訊 PCG 應用研究中心(ARC)主任。

論文地址:點此直達

Colab 試玩地址:點此直達

GitHub 專案地址:點此直達