1. 程式人生 > >Unsupervised Image-to-Image Translation Networks(NIPS 2017)

Unsupervised Image-to-Image Translation Networks(NIPS 2017)

文字為論文翻譯,翻譯儘量為通俗語言,並且盡最大可能還原論文的原意。

原文名:《Unsupervised Image-to-Image Translation Networks》

論文地址: https://arxiv.org/pdf/1703.00848.pdf

對關鍵詞的翻譯,避免造成誤解,特有以下說明:

轉換=translate, 比如輸入一張夏天的照片,輸出一張冬天的照片,這個過程成為“轉換”。

領域=domain,找不到合適的中文詞對應,比如夏天算一個domain,冬天算另一個domain。不同domain之間的影象互相變換的過程成為translate。


摘要

無監督的圖圖轉換的目的是:從各個領域的邊緣分佈的影象中學習到不同領域影象的聯合分佈

由於聯合分佈有無限多種可能性,所以沒人能在不加任何假定的情況下從不同領域的邊緣分佈得到它們的聯合分佈。為了解決這個問題,我們提出了共享潛在空間的假設,並且還提出了一種基於對偶GAN的的無監督圖圖轉換框架UNIT。我們將這種新框架與競爭方法相比較,並且在一系列的無監督圖圖轉換挑戰賽(包括街景影象轉換和動物影象轉換)中獲得了一個高質量的影象轉換結果。我們將這種新框架根據領域的不同進行調整,在基準資料集上取得了最好的表現效能。


1.引言

 

很多CV任務可以看作是影象到影象轉換問題(文中會簡寫成“圖圖轉換問題”,代表將一種領域的影象轉換成另一種領域的影象),即將一個領域的影象對映到另一個領域中。例如,"超解析度"可以看作低解析度影象對映到高解析度影象的問題;著色可以看作是灰度影象到彩色影象的對映問題。這些問題既可以用監督式學習也可以用無監督學習來解決。拿監督學習來說,成對的不同領域的對應圖片是必須要有的;而對於無監督學習而言,我們只有兩個來自不同領域的相互獨立的影象集,也就是說沒有成對的資料來表示影象的對映關係!由於缺乏成對資料,無監督圖圖轉換問題(UNIT)自然要棘手一些,不過也因為訓練集的來源變得簡單使得它具有更廣泛的應用。

如果從概率的角度分析圖圖轉換問題,這個關鍵點就是學習不同領域影象的聯合分佈。在無監督的情況下,兩個來自不同領域的影象集(即各自有自己的邊緣分佈),咱的任務就是推斷出它倆的聯合分佈。2002年Lindvall教授提出的“對偶理論”證明了:一般而言,從已有的邊緣分佈中得出的聯合分佈是無限多種。因此,從邊緣分佈推斷出聯合分佈是一個高度不適定問題。要解決這個高度不適定問題,我們需要從聯合分佈的結構上進行額外地假定

為此,我們提出了一種“共享潛在空間”的假定,它假設不同領域中的對偶影象可以對映到共享潛在空間中的相同潛伏物件。基於這個假設,我們提出了基於GAN和VAE的無監督圖圖轉換的框架UNIT。我們用GAN-VAE對每個影象領域建模。對抗訓練任務與“權值共享約束”相互作用,比規範共享潛在空間,生成出兩個領域中的對偶影象。同時,VAE將轉換後的影象和原輸入影象聯絡到一起。我們將這種新框架用到各種對應的任務中,並且獲得了一個很優的結果。我們也將它用到領域適應問題上,在基準資料集上取得了最優的準確率。共享潛在空間假定最早用在NIPS2016論文Coupled GAN上的。我們在這裡將Coupled GAN的工作延申到無監督圖圖轉換問題上。我們也注意到當前一些其他演算法提出的迴圈一致性假設,它假定源領域中的影象對映到目標領域之後還能通過同樣的方法映射回源領域。在我們這篇文章裡,我們證明了共享潛在空間約束是包含迴圈一致性約束的

2.假設

首先讓\chi_1\chi_2分別表示兩個影象領域。在監督式圖圖轉換問題中,我們可以直接獲得來自聯合分佈P_{\chi_1, \chi_2}(x_1, x_2)抽樣出來的樣本(x1, x2)。但是在無監督圖圖轉換問題中,我們只能從各自的邊緣分佈中獲得樣本。因為從已知邊緣分佈中獲得的聯合分佈可能性有無數種,我們無法不加任何假定地從邊緣分佈獲得聯合分佈。(- .-, 這句話到目前為止,出現了三次。。。原來頂會論文字數不夠的時候也會這樣撐字數。。)我們提出了共享潛在空間的假設。如圖1所示,我們假設任何成對的輸入x1和x2都在某個共享潛在空間裡擁有一樣的潛在碼z。我們可以根據這個潛在碼來恢復成原圖,也可以通過原圖計算出潛在碼。

圖1:(a)共享潛在空間假設。我們假設了一對來自兩個不同影象領域(\chi_1\chi_2)的對偶影象(x1, x2) ,在共享潛在空間Z中,它們能被對映到相同的潛在碼z。E1和E2是兩個編碼函式,負責把影象編碼成潛在碼。G1和G2是兩個生成函式,負責把潛在碼轉換成影象。(b)我們提出的UNIT框架。首先,我們的E1,E2,G1,G2這四個函式都是用CNN來實現的。此外,我們為了實現共享潛在空間使用了權重共享限制的策略,即 把E1和E2的後幾層綁在一起(共享權重,如上圖的虛線所示),把G1和G2的前幾層綁在一起。

\tilde{x}_{1}^{1\rightarrow 1}\tilde{x}_{2}^{2\rightarrow 2}自重構影象\tilde{x}_{1}^{1\rightarrow 2}\tilde{x}_{2}^{2\rightarrow 1}領域變遷影象。D1和D2是各自領域的對抗判別器,負責評估生成圖片是否為真。

                                                                                                表1 

3. 框架

如圖1所示,我們的框架是基於VAE和GAN的。由6個子網路組成:編碼器E1和E2,生成器G1和G2,判別器D1和D2。我們在表1中總結了各子網的作用。