Unsupervised Image-to-Image Translation Networks(NIPS 2017)

阿新 • • 發佈：2018-11-16

文字為論文翻譯，翻譯儘量為通俗語言，並且盡最大可能還原論文的原意。

原文名：《Unsupervised Image-to-Image Translation Networks》

論文地址： https://arxiv.org/pdf/1703.00848.pdf

對關鍵詞的翻譯，避免造成誤解，特有以下說明：

轉換=translate，比如輸入一張夏天的照片，輸出一張冬天的照片，這個過程成為“轉換”。

領域=domain，找不到合適的中文詞對應，比如夏天算一個domain，冬天算另一個domain。不同domain之間的影象互相變換的過程成為translate。

摘要

無監督的圖圖轉換的目的是：從各個領域的邊緣分佈的影象中學習到不同領域影象的聯合分佈

。

由於聯合分佈有無限多種可能性，所以沒人能在不加任何假定的情況下從不同領域的邊緣分佈得到它們的聯合分佈。為了解決這個問題，我們提出了共享潛在空間的假設，並且還提出了一種基於對偶GAN的的無監督圖圖轉換框架UNIT。我們將這種新框架與競爭方法相比較，並且在一系列的無監督圖圖轉換挑戰賽(包括街景影象轉換和動物影象轉換)中獲得了一個高質量的影象轉換結果。我們將這種新框架根據領域的不同進行調整，在基準資料集上取得了最好的表現效能。

1.引言

很多CV任務可以看作是影象到影象轉換問題(文中會簡寫成“圖圖轉換問題”，代表將一種領域的影象轉換成另一種領域的影象)，即將一個領域的影象對映到另一個領域中。例如，"超解析度"可以看作低解析度影象對映到高解析度影象的問題；著色可以看作是灰度影象到彩色影象的對映問題。這些問題既可以用監督式學習也可以用無監督學習來解決。拿監督學習來說，成對的不同領域的對應圖片是必須要有的；而對於無監督學習而言，我們只有兩個來自不同領域的相互獨立的影象集，也就是說沒有成對的資料來表示影象的對映關係！由於缺乏成對資料，無監督圖圖轉換問題(UNIT)自然要棘手一些，不過也因為訓練集的來源變得簡單使得它具有更廣泛的應用。

如果從概率的角度分析圖圖轉換問題，這個關鍵點就是學習不同領域影象的聯合分佈。在無監督的情況下，兩個來自不同領域的影象集(即各自有自己的邊緣分佈)，咱的任務就是推斷出它倆的聯合分佈。2002年Lindvall教授提出的“對偶理論”證明了：一般而言，從已有的邊緣分佈中得出的聯合分佈是無限多種。因此，從邊緣分佈推斷出聯合分佈是一個高度不適定問題。要解決這個高度不適定問題，我們需要從聯合分佈的結構上進行額外地假定。

為此，我們提出了一種“共享潛在空間”的假定，它假設不同領域中的對偶影象可以對映到共享潛在空間中的相同潛伏物件。基於這個假設，我們提出了基於GAN和VAE的無監督圖圖轉換的框架UNIT。我們用GAN-VAE對每個影象領域建模。對抗訓練任務與“權值共享約束”相互作用，比規範共享潛在空間，生成出兩個領域中的對偶影象。同時，VAE將轉換後的影象和原輸入影象聯絡到一起。我們將這種新框架用到各種對應的任務中，並且獲得了一個很優的結果。我們也將它用到領域適應問題上，在基準資料集上取得了最優的準確率。共享潛在空間假定最早用在NIPS2016論文Coupled GAN上的。我們在這裡將Coupled GAN的工作延申到無監督圖圖轉換問題上。我們也注意到當前一些其他演算法提出的迴圈一致性假設，它假定源領域中的影象對映到目標領域之後還能通過同樣的方法映射回源領域。在我們這篇文章裡，我們證明了共享潛在空間約束是包含迴圈一致性約束的

。

2.假設

首先讓 $\chi_1$ 和 $\chi_2$ 分別表示兩個影象領域。在監督式圖圖轉換問題中，我們可以直接獲得來自聯合分佈 $P_{\chi_1, \chi_2}(x_1, x_2)$ 抽樣出來的樣本(x1, x2)。但是在無監督圖圖轉換問題中，我們只能從各自的邊緣分佈中獲得樣本。因為從已知邊緣分佈中獲得的聯合分佈可能性有無數種，我們無法不加任何假定地從邊緣分佈獲得聯合分佈。(- .-，這句話到目前為止，出現了三次。。。原來頂會論文字數不夠的時候也會這樣撐字數。。)我們提出了共享潛在空間的假設。如圖1所示，我們假設任何成對的輸入x1和x2都在某個共享潛在空間裡擁有一樣的潛在碼z。我們可以根據這個潛在碼來恢復成原圖，也可以通過原圖計算出潛在碼。

圖1：(a)共享潛在空間假設。我們假設了一對來自兩個不同影象領域( $\chi_1$ ， $\chi_2$ )的對偶影象(x1, x2) ，在共享潛在空間Z中，它們能被對映到相同的潛在碼z。E1和E2是兩個編碼函式，負責把影象編碼成潛在碼。G1和G2是兩個生成函式，負責把潛在碼轉換成影象。(b)我們提出的UNIT框架。首先，我們的E1,E2,G1,G2這四個函式都是用CNN來實現的。此外，我們為了實現共享潛在空間使用了權重共享限制的策略，即把E1和E2的後幾層綁在一起(共享權重，如上圖的虛線所示)，把G1和G2的前幾層綁在一起。

$\tilde{x}_{1}^{1\rightarrow 1}$ 和 $\tilde{x}_{2}^{2\rightarrow 2}$ 是自重構影象； $\tilde{x}_{1}^{1\rightarrow 2}$ 和 $\tilde{x}_{2}^{2\rightarrow 1}$ 是領域變遷影象。D1和D2是各自領域的對抗判別器，負責評估生成圖片是否為真。

表1

3. 框架

如圖1所示，我們的框架是基於VAE和GAN的。由6個子網路組成：編碼器E1和E2，生成器G1和G2，判別器D1和D2。我們在表1中總結了各子網的作用。

Unsupervised Image-to-Image Translation Networks(NIPS 2017)

文字為論文翻譯，翻譯儘量為通俗語言，並且盡最大可能還原論文的原意。原文名：《Unsupervised Image-to-Image Translation Networks》論文地址： https://arxiv.org/pdf/1703.00848.pdf 對關鍵詞的翻譯，避免造成

image-to-image translation with conditional adversarial networks文獻筆記

Image-to-Image Translation with Conditional Adversarial Networks （基於條件gan的影象轉影象）作者：Phillip Isola， Jun-Yan Zhu， Tinghui Zhou， Alexei A. Efros 全文連結：https

GAN系列：Image-to-Image Translation with Conditional Adversarial Networks

Abstract 1. image-to-image trainslation 存在的兩個問題： 1）many-to-one:將照片對映為edges/segments/semantic labels 2）one-to-many:將labels/sparse user

CVPR：Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 摘要背景：影象到影象的遷移是計算機視覺中的一個很有意思的問題。目標是學習一個從輸入圖片到目標

Image-to-Image Translation with Conditional Adversarial Networks

影象轉換的條件對抗網路不僅學習了從輸入影象到輸出影象之間的對映，也學習了一個用來訓練這個對映的損失函式。使得網路可以很好地應用到傳統上需要不同損失結構的問題上。影象處理，圖形學，CV的很多問題都可以概括為將輸入影象轉化為相應的輸出影象，文章就是提出了一個針對這些問題的共同框架。C

《Image-to-Image Translation with Conditional Adversarial Networks》論文筆記

論文連結摘要我們研究條件對抗網路的目的是將之作為一種圖片到圖片“翻譯”問題的通用的解決方法。這些網路不僅學習了從輸入影象到輸出影象的對映，還學習了訓練這個對映的損失函式。這使得將這個一般方法解決通常需要完全不同的損失函式公式的問題成為了可能。我們證實

NIPS 2017論文解讀 | 基於對比學習的Image Captioning

Access to Image at 'file:///Users canvas本地圖片跨域報錯解決方案

本地服務 canvas 解決方案圖片報錯訪問 can 支持 ESS 1、設置跨域添加跨域條件 crossorigin="anonymous" 前提是後端支持這個圖片跨域 2、上面加了之後還是報錯　　如標題所示　

dom-to-image實現的網頁截圖

dom-to-image如何使用請參考https://blog.csdn.net/u012260672/article/details/79302465 下面我們就不廢話了直接上演示: <!DOCTYPE html> <html> <head>

論文閱讀1《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networ》

paper連結https://arxiv.org/abs/1711.10485， code連結https://github.com/taoxugit/AttnGAN，作者的homepage https://sites.google.com/view/taoxu 本文給出的是CVPR 2

影象拼接--A multiresolution spline with application to image mosaics

A multiresolution spline with application to image mosaics 《Acm Trans on Graphics》 , 1983 , 2 (4) :217-236 本文主要介紹使用 Multiresolution

Intro to Image Processing in OpenCV with Python

Intro to Image Processing in OpenCV with PythonWelcome to this tutorial covering OpenCV. This type of program is most commonly used for video and image ana

Introduction to Image Caption Generation using the Avenger’s Infinity War Characters

Deep learning can be a daunting field for beginners. And it was no different for me - most of the algorithms and terms sounded from another world! I needed

用dom-to-image將html生成圖片

由於業務需要，要將html的表格轉成圖片下載下來，一開始使用的是html2canvas.js。功能是可以實現，但是有缺陷（表格存在合併的單元格時，生成的圖片表格線框不完整），後來很不容易知道了d

關於html的table轉成圖片的js外掛dom-to-image

關於把html頁面中的table表格，轉成圖片顯示。這方面的需求可能在實際開發中，可能會遇到展示的表格轉換成圖片上傳伺服器或者其他處理，一般是遇不到。記錄一款還不錯的外掛， dom-to-image

[HTML5] Add an SVG Image to a Webpage and Get a Reference to the Internal Elements in JavaScript

show acc ntb content open direct () ren for We want to show an SVG avatar of the patio11bot, so we‘ll do that in three ways: Using a

PCIe to AXI Translation——PCIe 內存空間到AXI內存空間的轉換

系列 article 配置信息 sla src 存在轉換關系相對 PCIe to AXI Translation——PCIe 內存空間到AXI內存空間的轉換 UltraScale系列芯片包含PCIe的Gen3 Integrated Block IP核在內的多種不同功能

Paper Reading - Attention Is All You Need ( NIPS 2017 )

int tput represent enc perf task desc compute .com Link of the Paper: https://arxiv.org/abs/1706.03762 Motivation: The inherently sequen

101 to 010 Atcoder CODE FESTIVAL 2017 qual B D

hide clas bsp img 技術 return org include blog https://www.luogu.org/problemnew/show/AT3575 題解根本不會。。錯誤記錄：缺少32行的轉移。顯然這個轉移是必要的 1 #

Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Tex

abstract句子結構是文字語言質量的關鍵，我們記錄了以下實驗結果：句法短語統計和其他結構特徵對文字方面的預測能力。手工評估的句子fluency流利度用於機器翻譯評估和文字摘要質量的評估是黃金準則。我們發現和短語長度相關的結構特徵是弱特徵，但是與fluency強相關，基於整個結構特徵的分類器可以在句子flu

Unsupervised Image-to-Image Translation Networks(NIPS 2017)

摘要

1.引言

2.假設

3. 框架

相關推薦