ICCV2017 | 一文詳解GAN之父Ian Goodfellow 演講《生成對抗網路的原理與應用》（附完整PPT）

阿新 • • 發佈：2019-02-17

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

當地時間 10月 22 日到10月29日，兩年一度的計算機視覺國際頂級會議 International Conference on Computer Vision（ICCV 2017）在義大利威尼斯開幕。Google Brain 研究科學家Ian Goodfellow在會上作為主題為《生成對抗網路(Generative Adversarial Networks)》的Tutorial 最新演講, 介紹了GAN的原理和最新的應用。本文對Ian Goodfellow的演講PPT進行了解讀。

本文授權轉自專知(Quan_zhuanzhi)

「對抗生成網路之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演講是聊他的代表作生成對抗網路(GAN/Generative Adversarial Networks)，這幾年，他每到大會就會講 GAN，畢竟對抗生成網路之父的頭銜在呢，這塊也是這幾年機器學習、計算機視覺等方向的研究熱點之一。

640?wx_fmt=png&wxfrom=5&wx_lazy=1&retryload=1

Ian Goodfellow 是世界上最重要的 AI 研究者之一，他在 OpenAI（谷歌大腦的競爭對手，由 Elon Must 和 Sam Altman 創立）工作過不長的一段時間，今年3月重返 Google Brain，加入Google Brain，其正在建立了一個探索“生成模型”（generative models）的新研究團隊。

640?wx_fmt=png

生成模型的概念大家應該都很熟悉，大概有兩種玩法：

密度（概率）估計：就是說在不瞭解事件概率分佈的情況下，先假設隨機分佈，然後通過資料觀測來確定真正的概率密度是怎樣的。
樣本生成：這個就更好理解了，就是手上有一把訓練樣本資料，通過訓練後的模型來生成類似的「樣本」。

640?wx_fmt=png

在生成模型這一過程中，首先需要提到概率領域一個方法：最大似然估計。現實生活中，我們可能並不知道每個 P（概率分佈模型）到底是什麼，我們已知的是我們可以觀測到的源資料。所以，最大似然估計就是這種給定了觀察資料以評估模型引數（也就是估計出分佈模型應該是怎樣的）的方法。

640?wx_fmt=png

我們在理解生成對抗模型（GAN），首先要知道生成對抗模型拆開來是兩個東西：一個是判別模型，一個是生成模型。就需要提及Ian Goodfellow在2014發表的文章。

文章標題：Generative Adversarial Networks

文章連結：https://arxiv.org/abs/1406.2661

具體如下：

簡單打個比方就是：兩個人比賽，看是 A 的矛厲害，還是 B 的盾厲害。比如，我們有一些真實資料，同時也有一把亂七八糟的假資料。A 拼命地把隨手拿過來的假資料模仿成真實資料，並揉進真實資料裡。B 則拼命地想把真實資料和假資料區分開。

這裡，A 就是一個生成模型，類似於賣假貨的，一個勁兒地學習如何騙過 B。而 B 則是一個判別模型，類似於警察叔叔，一個勁兒地學習如何分辨出 A 的騙人技巧。

如此這般，隨著 B 的鑑別技巧的越來越牛，A 的騙人技巧也是越來越純熟。

一個造假一流的 A，就是我們想要的生成模型！

640?wx_fmt=png

我們現在能使用GANs做什麼，這幾年各種圍繞關於GANs的研究應用很多很多。

學習訓練資料的分佈
在更多的情況是，我們會面臨缺乏資料的情況，我們可以通過生成模型來補足。比如，用在半監督學習中
多標籤預測（同時完成real/fake, 樣本類別等的預測）
根據環境需要生成相應資料（比如，看到一個美女的背影，猜她正面是否會讓你失望……）
可以模擬預測未來資料（用於具有時序關係的影象）
解決模型推斷問題
學習不錯的embedding（特徵表示）資訊

640?wx_fmt=png

以保密為文化傳統的蘋果一貫不喜歡對外公佈自己的研究成果。但2016年在機器學習的頂級大會NIPS上，蘋果AI團隊的負責人RussSalakhutdinov宣佈，公司已經允許自己的AI研發人員對外公佈論文成果。這則訊息剛剛宣佈沒多久，蘋果就發表了自己的第一篇論文，題目叫做《通過對抗訓練從模擬與無監督影象中學習》，論文描述瞭如何利用計算機生成的影象而不是真實影象改進演算法識別影象能力的訓練。此舉一方面可以提高蘋果在AI界的存在感，同時如果其研究成果出色的話，也能在學術界贏得同行認可，並吸引到AI方面的人才。蘋果第一篇AI論文一經投放，便在2017年7月22日，斬獲CVPR 2017最佳論文。

640?wx_fmt=png

谷歌新論文使用生成對抗網路的無監督畫素級域適應，發表在CVPR 2017：Unsupervised Pixel-Level Domain Adaptation WithGenerative Adversarial Networks

對於許多工而言，收集標註良好的資料集去訓練現代的機器學習演算法是極其昂貴

的。渲染合成數據倒是一個吸引人的選擇，本文的方法能以無監督的方式學習一個畫素空間中從一個域到另一個域的變換。基於生成對抗網路（GAN）的方法能夠使源域（source-domain）影象看起來就像是來自目標域（target domain）的一樣。這個模型不僅能生成看似可信的樣本，而且表現還極大超越了許多當前最佳的無監督域適應情況。

640?wx_fmt=png

開始介紹面臨缺乏資料的情況，我們可以通過生成模型來補足。

640?wx_fmt=png

內容識別填充( Content-aware fill ,是 photoshop 的一個功能）是一個強大的工具，設計師和攝影師可以用它來填充圖片中不想要的部分或者缺失的部分。在填充圖片的缺失或損壞的部分時，影象補全和修復是兩種密切相關的技術。有很多方法可以實現內容識別填充，影象補全和修復。在這篇部落格中，我會介紹 RaymondYeh 和 Chen Chen 等人的一篇論文，“基於感知和語境損失的影象語義修補（Semantic Image Inpainting with Perceptual and ContextualLosses）”。論文在2016年7月26號釋出於 arXiv 上，介紹瞭如何使用 DCGAN 網路來進行影象補全。

640?wx_fmt=png

體驗一下半監督學習。

640?wx_fmt=png

將產生式對抗網路（GAN）拓展到半監督學習，通過強制判別器來輸出類別標籤。我們在一個數據集上訓練一個產生式模型 G 以及一個判別器 D，輸入是N類當中的一個。在訓練的時候，D被用於預測輸入是屬於 N+1的哪一個，這個+1是對應了G的輸出。這種方法可以用於創造更加有效的分類器，並且可以比普通的GAN 產生更加高質量的樣本。

文章標題：Semi-Supervised Learning with Generative Adversarial Networks；

文章連結：https://arxiv.org/abs/1606.01583。

文章標題：Improved Techniques for Training GANs

文章連結：https://arxiv.org/abs/1606.03498

640?wx_fmt=png

開始介紹多標籤預測（同時完成real/fake, 樣本類別等的預測）；

640?wx_fmt=png

Next video frame prediction（未來幀預測）主要完成的任務是根據視訊中已有幀的相關資料預測某一幀所對應的下一幀資料，例如圖中所示的人物頭像資料（文章主要利用大量未標註資料）。通過GAN對其之前資料規律的學習，合成其未發生的下一幀資料。這可以使我們通過海量資料的學習，達到預測未來未發生事件的效果。

640?wx_fmt=png

圖中所示3張人物頭像資料，圖1為原始影象，圖2是通過傳統影象合成方式所得影象，圖3為通過GAN生成的影象。通過圖2和圖3的對比可以發現通過GAN合成的影象邊緣模糊情況大大減輕，影象解析度有所提高，紋理與原圖也更接近。這是Lotter 等人在2016年提出了一種新穎的“PredNet”結構。文章標題：Deep Predictive CodingNetworks for Video Prediction and Unsupervised Learning。網址連結：https://arxiv.org/abs/1605.08104。

640?wx_fmt=png

這個工作是Yann LeCun組的Michael Mathieu等人 2015年提出的。

文章標題：Deep multi-scale videoprediction beyond mean square error

網址連結：https://arxiv.org/abs/1511.06434

主要是用對抗式訓練進行視訊預測的，研究解決了一個非常重要的問題，那就是，當你訓練一個神經網路（或者其他任何模型）來預測未來，如果要預測的東西有多種可能性時，一個網路以傳統的方式進行預測（比如，用最小平方），將會預測出所有可能性的平均值。在視訊的例子中，有很多模糊的混亂。對抗式訓練能讓系統產出其想要的任何東西，只要是在鑑別器喜歡的任何資料庫內就可以，這解決了在不確定條件下進行預測的“模糊”難題。

640?wx_fmt=png

下面介紹根據環境需要生成相應資料。

640?wx_fmt=png

在自動生成任務中，線上時尚科技公司 Vue.ai 開發了一種或將取代模特的自動生成試裝照片的系統，該系統使用GAN技術，可以控制所需模特照片的體型、膚色、身高、鞋子等等，不僅是模特，攝影師和工作室都可以不需要了，對於電商和零售業來說是好訊息。這項技術由 Vue.ai 的 Anand Chandrasekaran 和 Costa Colbert 開發，使用了生成對抗網路（GAN）的機器學習方法。這個系統由兩個AI組成：一個生成器（generative）和一個評論家（critic），生成器試圖生成一張看起來很好的影象，而批評家則決定這張影象是否看起來足夠好。

640?wx_fmt=png

跳過兩部分，直接講如何得到資料的embedding（特徵表示）資訊。

640?wx_fmt=png

在特徵表示學習這塊，Radford 等人在2015年提出了DCGAN。

文章標題：Unsupervised Representation Learning with DeepConvolutional Generative Adversarial Networks

網址連結：https://arxiv.org/abs/1511.06434

這篇文章，主要是想從大量無標籤資料集中學習可重複使用的特徵表示。在計算機視覺的背景下，實際上，可以利用不限數量的無標籤影象和視訊來學習一個好的中間表示，這個表示可以用在大量有監督的學習任務上，例如影象分類。提出一種方法，可以建立好的影象表示，通過訓練對抗生成網路（GAN），並且反覆利用生產網路和辨別網路的一部分作為有監督任務的特徵提取。熟悉卷積神經網路（CNN）的同學對此應該不會陌生，這其實就是一個反向的 CNN。

熟悉NLP 的同學可能發現了，這就很像 word2vec 裡面的：king- man + woman = queen。做個向量/矩陣加減並不難，難的是把加減後得到的向量/矩陣還原成「圖義」上代表的圖片。在 NLP 中，word2vec 是把向量對應到有意義的詞。在這裡，DCGAN 是把矩陣對應到有意義的圖片。即：戴墨鏡的男人 - 不戴墨鏡的男人 + 不戴墨鏡的女人= 戴墨鏡的女人

640?wx_fmt=png

在樣本生成這一過程，生成對抗網路實現這些需要多久？

640?wx_fmt=png

Odena等人在2016年提出了Auxiliary Classifier GANs（AC-GANs），

文章標題：Conditional Image Synthesis with Auxiliary Classifier GANs

網址連結：https://arxiv.org/abs/1610.09585

主要提出AC-GAN模型，在D又新加了分類器，在輸出樣本真假的同時輸出類別，在D的輸出部分新增一個輔助的分類器來提高條件GAN的效能。針對任務，提出這種新的Inception Accuracy的評價方法，並引入了MS-SSIM用於判斷模型生成圖片的多樣性。

640?wx_fmt=png

這是Github上的關於Gan方法的相關list

https://github.com/hindupuravinash/the-gan-zoo

我們能看到每週都會有新的GAN論文出來，很難跟蹤所有的文章，更不用說研究人員使用一些令人難以置信的創造性的方式來命名這些生成對抗性網路！由這個圖，我們知道這兩年特別是2017年相關GAN命名的文章增長很迅速。

640?wx_fmt=png

這個報告結束了，這次主要是巨集觀層面介紹了GAN的一些應用，以及最新的一些方法。

Ian Goodfellow《生成對抗網路(Generative Adversarial Networks)》演講PPT下載

連結: https://pan.baidu.com/s/1qY5bHGK

招聘

AI科技大本營目前招聘資深AI採編。AI時代，和我們一起做最貼近AI的媒體！詳細職位要求和簡歷投遞方式請見☟☟☟（向下滑動詳情）。

要求：

1.熟悉AI領域，對大公司、AI大牛的動態有極強敏感性，且有深度剖析的楞勁兒。

2.英語能力六級以上，看得懂文章，做得了編譯，聽得懂外文，做得了採訪。

3.對AI相關的技術有一定的理解，能追蹤最新的技術熱點。

4.寫稿、編譯速度快，快速成稿能力非常重要。

5.語言能力強，行文流暢，寫作風格不僵化不生硬。

6.相關媒體經驗2年以上。

7.有過重磅深度稿件者優先。

8.對自己極高的要求，工作有極大熱情，對成長有極強的動力。

9.時刻保持謙虛，能隨時調整狀態，跟團隊目標緊密配合。

有意者，請將簡歷投至[email protected]，標題註明：姓名+手機號+AI採編。有疑問請加微信greta1314。

640?wx_fmt=png

☞點選閱讀原文，檢視詳細課程資訊。

ICCV2017 | 一文詳解GAN之父Ian Goodfellow 演講《生成對抗網路的原理與應用》（附完整PPT）

ICCV2017 | 一文詳解GAN之父Ian Goodfellow 演講《生成對抗網路的原理與應用》（附完整PPT）

GAN之父：全方位解讀生成對抗網路的原理及未來

JAVA學習路線圖（一文詳解）

一文詳解python的類方法，普通方法和靜態方法

一文詳解大規模資料計算處理原理及操作重點

資損率全球最低！一文詳解「螞蟻風險大腦」

一文詳解卷積和逆卷積

一文詳解 OceanBase 2.0 的“全域性索引”功能

一文詳解TCP

EAForest一文詳解區塊鏈

一文詳解“單例模式”及其python語言的實現

一文詳解NGram語言模型以及困惑度perplexity

一文詳解matplotlib的配置檔案以及配置方式

一文詳解高效能伺服器架構設計

一文詳解“抽象工廠模式”以及python語言的實現

一文詳解“工廠方法模式”以及python語言的實現

一文詳解“工廠模式”以及python語言的實現

一文詳解Linux系統常用監控工具

一文詳解深度學習在命名實體識別(NER)中的應用

達觀資料桂洪冠：一文詳解達觀資料知識圖譜技術與應用

ICCV2017 | 一文詳解GAN之父Ian Goodfellow 演講《生成對抗網路的原理與應用》（附完整PPT）

相關推薦