1. 程式人生 > >ICCV2017 | 一文詳解GAN之父Ian Goodfellow 演講《生成對抗網路的原理與應用》(附完整PPT)

ICCV2017 | 一文詳解GAN之父Ian Goodfellow 演講《生成對抗網路的原理與應用》(附完整PPT)

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

當地時間 10月 22 日到10月29日,兩年一度的計算機視覺國際頂級會議 International Conference on Computer Vision(ICCV 2017)在義大利威尼斯開幕。Google Brain 研究科學家Ian Goodfellow在會上作為主題為《生成對抗網路(Generative Adversarial Networks)》的Tutorial 最新演講, 介紹了GAN的原理和最新的應用。本文對Ian Goodfellow的演講PPT進行了解讀。

本文授權轉自專知(Quan_zhuanzhi)

「對抗生成網路之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演講是聊他的代表作生成對抗網路(GAN/Generative Adversarial Networks),這幾年,他每到大會就會講 GAN,畢竟對抗生成網路之父的頭銜在呢,這塊也是這幾年機器學習、計算機視覺等方向的研究熱點之一。

640?wx_fmt=png&wxfrom=5&wx_lazy=1&retryload=1

Ian Goodfellow 是世界上最重要的 AI 研究者之一,他在 OpenAI(谷歌大腦的競爭對手,由 Elon Must 和 Sam Altman 創立)工作過不長的一段時間,今年3月重返 Google Brain, 加入Google Brain,其正在建立了一個探索“生成模型”(generative models)的新研究團隊。

640?wx_fmt=png

生成模型的概念大家應該都很熟悉,大概有兩種玩法:

  • 密度(概率)估計:就是說在不瞭解事件概率分佈的情況下,先假設隨機分佈,然後通過資料觀測來確定真正的概率密度是怎樣的。

  • 樣本生成:這個就更好理解了,就是手上有一把訓練樣本資料,通過訓練後的模型來生成類似的「樣本」。

640?wx_fmt=png

在生成模型這一過程中,首先需要提到概率領域一個方法:最大似然估計。現實生活中,我們可能並不知道每個 P(概率分佈模型)到底是什麼,我們已知的是我們可以觀測到的源資料。所以,最大似然估計就是這種給定了觀察資料以評估模型引數(也就是估計出分佈模型應該是怎樣的)的方法。

640?wx_fmt=png

我們在理解生成對抗模型(GAN),首先要知道生成對抗模型拆開來是兩個東西:一個是判別模型,一個是生成模型。就需要提及Ian Goodfellow在2014發表的文章。

文章標題:Generative Adversarial Networks

文章連結:https://arxiv.org/abs/1406.2661

具體如下:

簡單打個比方就是:兩個人比賽,看是 A 的矛厲害,還是 B 的盾厲害。比如,我們有一些真實資料,同時也有一把亂七八糟的假資料。A 拼命地把隨手拿過來的假資料模仿成真實資料,並揉進真實資料裡。B 則拼命地想把真實資料和假資料區分開。

這裡,A 就是一個生成模型,類似於賣假貨的,一個勁兒地學習如何騙過 B。而 B 則是一個判別模型,類似於警察叔叔,一個勁兒地學習如何分辨出 A 的騙人技巧。

如此這般,隨著 B 的鑑別技巧的越來越牛,A 的騙人技巧也是越來越純熟。

一個造假一流的 A,就是我們想要的生成模型!

640?wx_fmt=png

我們現在能使用GANs做什麼,這幾年各種圍繞關於GANs的研究應用很多很多。

  • 學習訓練資料的分佈

  • 在更多的情況是,我們會面臨缺乏資料的情況,我們可以通過生成模型來補足。比如,用在半監督學習中

  • 多標籤預測(同時完成real/fake, 樣本類別等的預測)

  • 根據環境需要生成相應資料(比如,看到一個美女的背影,猜她正面是否會讓你失望……)

  • 可以模擬預測未來資料(用於具有時序關係的影象)

  • 解決模型推斷問題

  • 學習不錯的embedding(特徵表示)資訊

640?wx_fmt=png

640?wx_fmt=png

以保密為文化傳統的蘋果一貫不喜歡對外公佈自己的研究成果。但2016年在機器學習的頂級大會NIPS上,蘋果AI團隊的負責人RussSalakhutdinov宣佈,公司已經允許自己的AI研發人員對外公佈論文成果。這則訊息剛剛宣佈沒多久,蘋果就發表了自己的第一篇論文,題目叫做《通過對抗訓練從模擬與無監督影象中學習》,論文描述瞭如何利用計算機生成的影象而不是真實影象改進演算法識別影象能力的訓練。此舉一方面可以提高蘋果在AI界的存在感,同時如果其研究成果出色的話,也能在學術界贏得同行認可,並吸引到AI方面的人才。蘋果第一篇AI論文一經投放,便在2017年7月22日,斬獲CVPR 2017最佳論文。

640?wx_fmt=png

谷歌新論文使用生成對抗網路的無監督畫素級域適應, 發表在CVPR 2017:Unsupervised Pixel-Level Domain Adaptation WithGenerative Adversarial Networks

對於許多工而言,收集標註良好的資料集去訓練現代的機器學習演算法是極其昂貴

的。渲染合成數據倒是一個吸引人的選擇,本文的方法能以無監督的方式學習一個畫素空間中從一個域到另一個域的變換。基於生成對抗網路(GAN)的方法能夠使源域(source-domain)影象看起來就像是來自目標域(target domain)的一樣。這個模型不僅能生成看似可信的樣本,而且表現還極大超越了許多當前最佳的無監督域適應情況。

640?wx_fmt=png

開始介紹面臨缺乏資料的情況,我們可以通過生成模型來補足。

640?wx_fmt=png

內容識別填充( Content-aware fill ,是 photoshop 的一個功能)是一個強大的工具,設計師和攝影師可以用它來填充圖片中不想要的部分或者缺失的部分。在填充圖片的缺失或損壞的部分時,影象補全和修復是兩種密切相關的技術。有很多方法可以實現內容識別填充,影象補全和修復。在這篇部落格中,我會介紹 RaymondYeh 和 Chen Chen 等人的一篇論文,“基於感知和語境損失的影象語義修補(Semantic Image Inpainting with Perceptual and ContextualLosses)”。論文在2016年7月26號釋出於 arXiv 上,介紹瞭如何使用 DCGAN 網路來進行影象補全。

640?wx_fmt=png

體驗一下半監督學習。

640?wx_fmt=png

將產生式對抗網路(GAN)拓展到半監督學習,通過強制判別器來輸出類別標籤。我們在一個數據集上訓練一個產生式模型 G 以及 一個判別器 D,輸入是N類當中的一個。在訓練的時候,D被用於預測輸入是屬於 N+1的哪一個,這個+1是對應了G的輸出。這種方法可以用於創造更加有效的分類器,並且可以比普通的GAN 產生更加高質量的樣本。

文章標題:Semi-Supervised Learning with Generative Adversarial Networks;

文章連結:https://arxiv.org/abs/1606.01583。

文章標題:Improved Techniques for Training GANs

文章連結:https://arxiv.org/abs/1606.03498

640?wx_fmt=png

開始介紹多標籤預測(同時完成real/fake, 樣本類別等的預測);

640?wx_fmt=png

Next video frame prediction(未來幀預測) 主要完成的任務是根據視訊中已有幀的相關資料預測某一幀所對應的下一幀資料,例如圖中所示的人物頭像資料(文章主要利用大量未標註資料)。通過GAN對其之前資料規律的學習,合成其未發生的下一幀資料。這可以使我們通過海量資料的學習,達到預測未來未發生事件的效果。

640?wx_fmt=png

圖中所示3張人物頭像資料,圖1為原始影象,圖2是通過傳統影象合成方式所得影象,圖3為通過GAN生成的影象。通過圖2和圖3的對比可以發現通過GAN合成的影象邊緣模糊情況大大減輕,影象解析度有所提高,紋理與原圖也更接近。這是Lotter 等人在2016年提出了一種新穎的“PredNet”結構。文章標題:Deep Predictive CodingNetworks for Video Prediction and Unsupervised Learning。 網址連結:https://arxiv.org/abs/1605.08104。

640?wx_fmt=png

這個工作是Yann LeCun組的Michael Mathieu等人 2015年提出的。

文章標題:Deep multi-scale videoprediction beyond mean square error

網址連結:https://arxiv.org/abs/1511.06434

主要是用對抗式訓練進行視訊預測的,研究解決了一個非常重要的問題,那就是,當你訓練一個神經網路(或者其他任何模型)來預測未來,如果要預測的東西有多種可能性時,一個網路以傳統的方式進行預測(比如,用最小平方),將會預測出所有可能性的平均值。在視訊的例子中,有很多模糊的混亂。對抗式訓練能讓系統產出其想要的任何東西,只要是在鑑別器喜歡的任何資料庫內就可以,這解決了在不確定條件下進行預測的“模糊”難題。

640?wx_fmt=png

下面介紹根據環境需要生成相應資料。

640?wx_fmt=png

在自動生成任務中,線上時尚科技公司 Vue.ai 開發了一種或將取代模特的自動生成試裝照片的系統,該系統使用GAN技術,可以控制所需模特照片的體型、膚色、身高、鞋子等等,不僅是模特,攝影師和工作室都可以不需要了,對於電商和零售業來說是好訊息。這項技術由 Vue.ai 的 Anand Chandrasekaran 和 Costa Colbert 開發,使用了生成對抗網路(GAN)的機器學習方法。這個系統由兩個AI組成:一個生成器(generative)和一個評論家(critic),生成器試圖生成一張看起來很好的影象,而批評家則決定這張影象是否看起來足夠好。

640?wx_fmt=png

跳過兩部分,直接講如何得到資料的embedding(特徵表示)資訊。

640?wx_fmt=png

在特徵表示學習這塊,Radford 等人在2015年提出了DCGAN。

文章標題:Unsupervised Representation Learning with DeepConvolutional Generative Adversarial Networks

網址連結:https://arxiv.org/abs/1511.06434

這篇文章,主要是想從大量無標籤資料集中學習可重複使用的特徵表示。在計算機視覺的背景下,實際上,可以利用不限數量的無標籤影象和視訊來學習一個好的中間表示,這個表示可以用在大量有監督的學習任務上,例如影象分類。提出一種方法,可以建立好的影象表示,通過訓練對抗生成網路(GAN),並且反覆利用生產網路和辨別網路的一部分作為有監督任務的特徵提取。熟悉卷積神經網路(CNN)的同學對此應該不會陌生,這其實就是一個反向的 CNN。

熟悉NLP 的同學可能發現了,這就很像 word2vec 裡面的:king- man + woman = queen。做個向量/矩陣加減並不難,難的是把加減後得到的向量/矩陣還原成「圖義」上代表的圖片。在 NLP 中,word2vec 是把向量對應到有意義的詞。在這裡,DCGAN 是把矩陣對應到有意義的圖片。即:戴墨鏡的男人 - 不戴墨鏡的男人 + 不戴墨鏡的女人= 戴墨鏡的女人

640?wx_fmt=png

在樣本生成這一過程,生成對抗網路實現這些需要多久?

640?wx_fmt=png

Odena等人在2016年提出了Auxiliary Classifier GANs(AC-GANs),

文章標題:Conditional Image Synthesis with Auxiliary Classifier GANs

網址連結:https://arxiv.org/abs/1610.09585

主要提出AC-GAN模型,在D又新加了分類器,在輸出樣本真假的同時輸出類別,在D的輸出部分新增一個輔助的分類器來提高條件GAN的效能。針對任務,提出這種新的Inception Accuracy的評價方法,並引入了MS-SSIM用於判斷模型生成圖片的多樣性。

640?wx_fmt=png

這是Github上的關於Gan方法的相關list

https://github.com/hindupuravinash/the-gan-zoo

我們能看到每週都會有新的GAN論文出來,很難跟蹤所有的文章,更不用說研究人員使用一些令人難以置信的創造性的方式來命名這些生成對抗性網路!由這個圖,我們知道這兩年特別是2017年相關GAN命名的文章增長很迅速。

640?wx_fmt=png

這個報告結束了,這次主要是巨集觀層面介紹了GAN的一些應用,以及最新的一些方法。

Ian Goodfellow《生成對抗網路(Generative Adversarial Networks)》演講PPT下載

連結: https://pan.baidu.com/s/1qY5bHGK

招聘

AI科技大本營目前招聘資深AI採編。AI時代,和我們一起做最貼近AI的媒體!詳細職位要求和簡歷投遞方式請見☟☟☟(向下滑動詳情)。

要求:

1.熟悉AI領域,對大公司、AI大牛的動態有極強敏感性,且有深度剖析的楞勁兒。

2.英語能力六級以上,看得懂文章,做得了編譯,聽得懂外文,做得了採訪。

3.對AI相關的技術有一定的理解,能追蹤最新的技術熱點。

4.寫稿、編譯速度快,快速成稿能力非常重要。

5.語言能力強,行文流暢,寫作風格不僵化不生硬。

6.相關媒體經驗2年以上。

7.有過重磅深度稿件者優先。

8.對自己極高的要求,工作有極大熱情,對成長有極強的動力。

9.時刻保持謙虛,能隨時調整狀態,跟團隊目標緊密配合。

有意者,請將簡歷投至[email protected],標題註明:姓名+手機號+AI採編。有疑問請加微信greta1314。

640?wx_fmt=png

 點選閱讀原文,檢視詳細課程資訊。

相關推薦

ICCV2017 | GANIan Goodfellow 演講生成對抗網路原理應用完整PPT

當地時間 10月 22 日到10月29日,兩年一度的計算機視覺國際頂級會議 International Conference on Computer Vision(ICCV 2017)在義大利威尼斯開幕。Google Brain 研究科學家Ian Goodfellow在會上作為主題為《生成對抗網路(G

GAN:全方位解讀生成對抗網路原理及未來

GANIan Goodfellow 在 NIPS 2016 上的 tutorial 演講依舊是聊他的代表作生成對抗網路(GAN/Generative Adversarial Networks),畢竟 Ian 就是「對抗生成網路之父」。這兩年,他每到大會就會講 GAN,並且每次

JAVA學習路線圖

-h 基礎 tex 蝸牛 學習路線 jdbc sql https ase 此乃是java攻城獅的學習路線圖,由簡到繁,由易到難,一步步的學習,最後成為JAVA攻城獅。 階段1 1:學習HTML 2:學習CSS 3:JavaScript

python的類方法,普通方法和靜態方法

http 接下來 方法調用 pytho 類和實例 訪問類 靜態 都是 com   首先形式上的區別,實例方法隱含的參數為類實例self,而類方法隱含的參數為類本身cls。 靜態方法無隱含參數,主要為了類實例也可以直接調用靜態方法。   所以邏輯上,類方法被類調用,實例方法

大規模資料計算處理原理及操作重點

摘要: 大資料技術主要針對的是大規模資料的計算處理問題,那麼要想解決的這一問題,首先要解決的就是大規模資料的儲存問題。 一、RAID技術 大資料技術主要針對的是大規模資料的計算處理問題,那麼要想解決的這一問題,首先要解決的就是大規模資料的儲存問題。大規模資料儲存要解決的核心問題有三個方面:

資損率全球最低!「螞蟻風險大腦」

小螞蟻說: 螞蟻風險大腦是 螞蟻金服結合自身10多年的風險攻防經驗,利用人工智慧、雲端計算、區塊鏈等領先科技手段,融合各地金融監管實踐研發的智慧監管科技系統。  在 9 月的雲棲 ATEC 大會上,螞蟻金服正式開放螞蟻風險大腦 2.0,螞蟻金服的理念是普惠金融,希望把自身的風控技術、風

卷積和逆卷積

文章目錄 一文詳解卷積和逆卷積 卷積運算 單通道 多通道 卷積運算的引數計算 逆卷積 卷積運算的矩陣實現 參考資料 一文詳解卷積和逆卷積 卷積神經

OceanBase 2.0 的“全域性索引”功能

OB君:本文是 “ OceanBase 2.0 技術解析系列” 的第九篇文章。今天我們來聊聊2.0的全域性索引功能。本文將帶你簡單回顧全域性索引的概念,並詳細介紹OceanBase 2.0版本如何實現全域性索引的功能。更多精彩關注OceanBase公眾號持續訂閱本系列內容! 前言 在資料庫領域

TCP

記得以前面試的時候被面試官問起TIME_WAIT有什麼痛點,當時只記得TCP三次握手、四次揮手之類的,至於其中的某個狀態還真是記不起來,之前也沒有過多關注過,還有對於擁塞控制的概念也比較模糊。 TCP報文格式 TCP大家都知道是什麼東西,這個協議的具體報文格式如下: 標

EAForest區塊鏈

EAForest是一個以去中心化託管清算技術和先進的交易底層技術打造的、具有獨特核心競爭力的開放量化交易平臺,具備資產安全、交易可信、橫向效能擴充套件等重點優勢。   EAForest主要面向已經或者正在準備經營區塊鏈資產交易業務的合作伙伴提供技術和營運服務,合作伙伴通過EAForest開放平臺

“單例模式”及其python語言的實現

一、什麼是“單例模式”——一個例項 單例模式(Singleton Pattern)是一種常用的軟體設計模式,該模式的主要目的是確保某一個類只有一個例項存在。當你希望在整個系統中,某個類只能出現一個例項時,單例物件就能派上用場。 單例模式涉及到一個單一的類,該類負責建立自己的物

NGram語言模型以及困惑度perplexity

  歡迎關注“勇敢AI”公眾號,更多python學習、資料分析、機器學習、深度學習原創文章與大家分享,還有更多電子資源、教程、資料集下載。勇敢AI,一個專注於人工智慧AI的公眾號。 ==========================================

matplotlib的配置檔案以及配置方式

歡迎關注“勇敢AI”公眾號,更多python學習、資料分析、機器學習、深度學習原創文章與大家分享,還有更多電子資源、教程、資料集下載。勇敢AI,一個專注於人工智慧AI的公眾號。 ===================================================

高效能伺服器架構設計

引言 本文從一個簡單的伺服器架構,通過討論出現的問題,進行一步一步優化,最後進化成高效能分散式伺服器架構。 初始情況:一個典型的伺服器結構 新增資料訪問層DAL,解決超出連線次數的問題 新增快取,減少與資料庫建立連線 即使添加了DAL,但是資料

“抽象工廠模式”以及python語言的實現

一、什麼是“抽象工廠模式”——Abstract Factory Pattern 其實所謂的抽象工廠模式,是在前面講解過的“簡單工廠模式”、“工廠方法模式”的基礎之上進行擴充的。回憶前面的這兩種模式,我們可以得出: 工廠模式:針對一個系列的類(比如Circle、Rectangl

“工廠方法模式”以及python語言的實現

一、什麼是“工廠方法模式”——Factory_Method Pattern 概念解析:有的設計模式資料裡面,可能將“工廠方法模式”與上所講的“簡單工廠模式”混為一談,或者是將兩者的概念合併,本文還是將二者分開處理的。 工廠方法模式 是對簡單工廠模式的一個延伸,所以它們誕生的背

“工廠模式”以及python語言的實現

一、什麼是“工廠模式”——factory pattern 工廠模式,也稱之為“簡單工廠模式”或者是“靜態工廠模式” 工廠模式(Factory Pattern)是 程式設計中 中最常用的設計模式之一。這種型別的設計模式屬於建立型模式,它提供了一種建立物件的最佳方式。在工廠模式

Linux系統常用監控工具

本文共 1329字,閱讀大約需要 3分鐘 ! 概 述 本文主要記錄一下 Linux系統上一些常用的系統監控工具,非常好用。正所謂磨刀不誤砍柴工,花點時間總結一下是值得的! 本文內容腦圖如下: top 命令 top 命令我想大家都挺熟悉吧!Linux 下的 t

深度學習在命名實體識別(NER)中的應用

近幾年來,基於神經網路的深度學習方法在計算機視覺、語音識別等領域取得了巨大成功,另外在自然語言處理領域也取得了不少進展。在NLP的關鍵性基礎任務—命名實體識別(Named Entity Recognition,NER)的研究中,深度學習也獲得了不錯的效果。最近,筆者閱讀了一系列基於深度學習的NE

達觀資料桂洪冠:達觀資料知識圖譜技術應用

本文根據達觀資料桂洪冠在“達觀杯”文字智慧處理挑戰賽期間的技術直播分享整理而成,內容略有刪減。 ▌一、知識圖譜的概述 我們先直觀的來看一下什麼是知識圖譜,下面有一張圖,從這張圖裡可以看到,這個圖裡圓圈是節點,節點之間有一些帶箭頭的邊來連成,這個節點實際上相當於知識