1. 程式人生 > >Colorful Image Colorization 論文筆記

Colorful Image Colorization 論文筆記

  這篇論文是加里福利亞大學Richard Zhang發表在ECCV 2016上的文章,論文的工作是灰度圖的自動著色,這裡博主想要重點關注一下論文對顏色分佈預測的工作,所以把一篇這麼老的論文翻出來重新看。

論文主頁:http://richzhang.github.io/colorization/,東西比較全,論文,github,線上demo都有


1. 論文貢獻

  用論文作者自己的話說,論文貢獻主要體現在兩方面:

  • 在自動影象著色的圖形學領域取得了進步:設計了一個合適的損失函式來處理著色問題中的多模不確定性(簡單來說就是物體可以有多種可能的上色),維持了顏色的多樣性;介紹了一種新型的著色演算法評估框架,而且這種評估框架有應用到其他影象合成任務的潛力;通過在百萬數量級的彩色圖片上訓練在這類任務上抵達了一個新的水準。
  • 將影象著色任務轉化為一個自監督表達學習的任務,並且在一些基準上獲得了最好的效果。

  論文所做的事情用一句話就能概括:給灰度圖上色。不過論文的切入點我覺得很巧妙,它不是恢復灰度圖的真實顏色,而是用灰度圖中物體的紋理、語義等資訊作為線索,來預測可能的上色,最後的上色結果只要真實即可。這不僅降低了上色的難度,而且也符合人們的認知:比如一個蘋果,給它上青色,上紅色都是正常的,不限於某一個顏色,只要不是紫色黑色等奇怪的顏色。

2. 論文動機

  考慮到這篇論文是發表於2016年,當時影象著色方面的工作還不是很多,已有的方法比如ICCV 2015的

《Deep colorization》,可以看到下圖中的上色結果,雖然大體上正確,但是顏色顯得飽和度比較低,有些單調的感覺。Richard Zhang認為,前人的目標只是優化預測結果和真實圖片間的歐氏距離(即MSE),這種損失函式會鼓勵比較保守的預測(原因在後面會將),從而導致顏色飽和度不高,色彩不豐富。

  《Very deep convolutional networks for large-scale image recognition》這篇文章指出,顏色預測是一個多模的問題,一個物體本來就可以上不同的顏色。為了對這種多模性建模,Richard Zhang為各個畫素預測一個顏色的分佈,這可以鼓勵探索顏色的多樣性,而不僅僅侷限在某一種顏色中。

3. 論文模型

  基本模型還是比較簡單的,輸入圖片的 L L L LL L H(Zh,w)=E[fT(Zh,w)]  fT(z)=qexp(log(z

  這篇論文是加里福利亞大學Richard Zhang發表在ECCV 2016上的文章,論文的工作是灰度圖的自動著色,這裡博主想要重點關注一下論文對顏色分佈預測的工作,所以把一篇這麼老的論文翻出來重新看。

論文主頁:http://richzhang.github.io/colorization/,東西比較全,論文,github,線上demo都有


1. 論文貢獻

  用論文作者自己的話說,論文貢獻主要體現在兩方面:

  • 在自動影象著色的圖形學領域取得了進步:設計了一個合適的損失函式來處理著色問題中的多模不確定性(簡單來說就是物體可以有多種可能的上色),維持了顏色的多樣性;介紹了一種新型的著色演算法評估框架,而且這種評估框架有應用到其他影象合成任務的潛力;通過在百萬數量級的彩色圖片上訓練在這類任務上抵達了一個新的水準。
  • 將影象著色任務轉化為一個自監督表達學習的任務,並且在一些基準上獲得了最好的效果。

  論文所做的事情用一句話就能概括:給灰度圖上色。不過論文的切入點我覺得很巧妙,它不是恢復灰度圖的真實顏色,而是用灰度圖中物體的紋理、語義等資訊作為線索,來預測可能的上色,最後的上色結果只要真實即可。這不僅降低了上色的難度,而且也符合人們的認知:比如一個蘋果,給它上青色,上紅色都是正常的,不限於某一個顏色,只要不是紫色黑色等奇怪的顏色。

2. 論文動機

  考慮到這篇論文是發表於2016年,當時影象著色方面的工作還不是很多,已有的方法比如ICCV 2015的《Deep colorization》,可以看到下圖中的上色結果,雖然大體上正確,但是顏色顯得飽和度比較低,有些單調的感覺。Richard Zhang認為,前人的目標只是優化預測結果和真實圖片間的歐氏距離(即MSE),這種損失函式會鼓勵比較保守的預測(原因在後面會將),從而導致顏色飽和度不高,色彩不豐富。

  《Very deep convolutional networks for large-scale image recognition》這篇文章指出,顏色預測是一個多模的問題,一個物體本來就可以上不同的顏色。為了對這種多模性建模,Richard Zhang為各個畫素預測一個顏色的分佈,這可以鼓勵探索顏色的多樣性,而不僅僅侷限在某一種顏色中。

3. 論文模型

  基本模型還是比較簡單的,輸入圖片的 L L L LL L H(Zh,w)=E[fT(Zh,w)]  fT(z)=qexp(log(z