GAN學習指南從原理入門到製作生成Demo

阿新 • • 發佈：2018-11-09

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow

也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

生成式對抗網路（GAN）是近年來大熱的深度學習模型。最近正好有空看了這方面的一些論文，跑了一個GAN的程式碼，於是寫了這篇文章來介紹一下GAN。

本文主要分為三個部分：

介紹原始的GAN的原理

同樣非常重要的DCGAN的原理
如何在Tensorflow跑DCGAN的程式碼，生成如題圖所示的動漫頭像，附送資料集哦 :-)

GAN原理介紹

說到GAN第一篇要看的paper當然是Ian Goodfellow大牛的Generative Adversarial Networks（arxiv：https://arxiv.org/abs/1406.2661），這篇paper算是這個領域的開山之作。

GAN的基本原理其實非常簡單，這裡以生成圖片為例進行說明。假設我們有兩個網路，G（Generator）和D（Discriminator）。正如它的名字所暗示的那樣，它們的功能分別是：

G是一個生成圖片的網路，它接收一個隨機的噪聲z，通過這個噪聲生成圖片，記做G(z)。
D是一個判別網路，判別一張圖片是不是“真實的”。它的輸入引數是x，x代表一張圖片，輸出D（x）代表x為真實圖片的概率，如果為1，就代表100%是真實的圖片，而輸出為0，就代表不可能是真實的圖片。

在訓練過程中，生成網路G的目標就是儘量生成真實的圖片去欺騙判別網路D。而D的目標就是儘量把G生成的圖片和真實的圖片分別開來。這樣，G和D構成了一個動態的“博弈過程”。

最後博弈的結果是什麼？在最理想的狀態下，G可以生成足以“以假亂真”的圖片G(z)。對於D來說，它難以判定G生成的圖片究竟是不是真實的，因此D(G(z)) = 0.5。

這樣我們的目的就達成了：我們得到了一個生成式的模型G，它可以用來生成圖片。

以上只是大致說了一下GAN的核心原理，如何用數學語言描述呢？這裡直接摘錄論文裡的公式：

圖片描述

簡單分析一下這個公式：

整個式子由兩項構成。x表示真實圖片，z表示輸入G網路的噪聲，而G(z)表示G網路生成的圖片。
D(x)表示D網路判斷真實圖片是否真實的概率（因為x就是真實的，所以對於D來說，這個值越接近1越好）。而D(G(z))是D網路判斷G生成的圖片的是否真實的概率。
G的目的：上面提到過，D(G(z))是D網路判斷G生成的圖片是否真實的概率，G應該希望自己生成的圖片“越接近真實越好”。也就是說，G希望D(G(z))儘可能得大，這時V(D, G)會變小。因此我們看到式子的最前面的記號是min_G。
D的目的：D的能力越強，D(x)應該越大，D(G(x))應該越小。這時V(D,G)會變大。因此式子對於D來說是求最大(max_D)

下面這幅圖片很好地描述了這個過程：

圖片描述

那麼如何用隨機梯度下降法訓練D和G？論文中也給出了演算法：

圖片描述

這裡紅框圈出的部分是我們要額外注意的。第一步我們訓練D，D是希望V(G, D)越大越好，所以是加上梯度(ascending)。第二步訓練G時，V(G, D)越小越好，所以是減去梯度(descending)。整個訓練過程交替進行。

DCGAN原理介紹

我們知道深度學習中對影象處理應用最好的模型是CNN，那麼如何把CNN與GAN結合？DCGAN是這方面最好的嘗試之一（論文地址：[1511.06434] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks）

DCGAN的原理和GAN是一樣的，這裡就不在贅述。它只是把上述的G和D換成了兩個卷積神經網路（CNN）。但不是直接換就可以了，DCGAN對卷積神經網路的結構做了一些改變，以提高樣本的質量和收斂的速度，這些改變有：

取消所有pooling層。G網路中使用轉置卷積（transposed convolutional layer）進行上取樣，D網路中用加入stride的卷積代替pooling。
在D和G中均使用batch normalization
去掉FC層，使網路變為全卷積網路
G網路中使用ReLU作為啟用函式，最後一層使用tanh
D網路中使用LeakyReLU作為啟用函式

DCGAN中的G網路示意：

圖片描述

DCGAN in Tensorflow

好了，上面說了一通原理，下面說點有意思的實踐部分的內容。

DCGAN的原作者用DCGAN生成LSUN的臥室圖片，這並不是特別有意思。之前在網上看到一篇文章 Chainerで顔イラストの自動生成 - Qiita ，是用DCGAN生成動漫人物頭像的，效果如下：

圖片描述

這是個很有趣的實踐內容。可惜原文是用Chainer做的，這個框架使用的人不多。下面我們就在Tensorflow中復現這個結果。

原始資料集的蒐集

首先我們需要用爬蟲爬取大量的動漫圖片，原文是在這個網站：http://safebooru.donmai.us/中爬取的。我嘗試的時候，發現在我的網路環境下無法訪問這個網站，於是我就寫了一個簡單的爬蟲爬了另外一個著名的動漫相簿網站：konachan.net - Konachan.com Anime Wallpapers。

爬蟲程式碼如下：

import requestsfrom bs4 import BeautifulSoupimport osimport tracebackdef download(url, filename):    if os.path.exists(filename):        print('file exists!')        return    try:        r = requests.get(url, stream=True, timeout=60)        r.raise_for_status()        with open(filename, 'wb') as f:            for chunk in r.iter_content(chunk_size=1024):                if chunk:  # filter out keep-alive new chunks                    f.write(chunk)                    f.flush()        return filename    except KeyboardInterrupt:        if os.path.exists(filename):            os.remove(filename)        raise KeyboardInterrupt    except Exception:        traceback.print_exc()        if os.path.exists(filename):            os.remove(filename)if os.path.exists('imgs') is False:    os.makedirs('imgs')start = 1end = 8000for i in range(start, end + 1):    url = 'http://konachan.net/post?page=%d&tags=' % i    html = requests.get(url).text    soup = BeautifulSoup(html, 'html.parser')    for img in soup.find_all('img', class_="preview"):        target_url = 'http:' + img['src']        filename = os.path.join('imgs', target_url.split('/')[-1])        download(target_url, filename)    print('%d / %d' % (i, end))

這個爬蟲大概跑了一天，爬下來12萬張圖片，大概是這樣的：

圖片描述

可以看到這裡面的圖片大多數比較雜亂，還不能直接作為資料訓練，我們需要用合適的工具，擷取人物的頭像進行訓練。

頭像擷取

擷取頭像和原文一樣，直接使用github上一個基於opencv的工具：nagadomi/lbpcascade_animeface。

簡單包裝下程式碼：

作者：何之源連結：https://zhuanlan.zhihu.com/p/24767059來源：知乎著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。import cv2import sysimport os.pathfrom glob import globdef detect(filename, cascade_file="lbpcascade_animeface.xml"):    if not os.path.isfile(cascade_file):        raise RuntimeError("%s: not found" % cascade_file)    cascade = cv2.CascadeClassifier(cascade_file)    image = cv2.imread(filename)    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)    gray = cv2.equalizeHist(gray)    faces = cascade.detectMultiScale(gray,                                     # detector options                                     scaleFactor=1.1,                                     minNeighbors=5,                                     minSize=(48, 48))    for i, (x, y, w, h) in enumerate(faces):        face = image[y: y + h, x:x + w, :]        face = cv2.resize(face, (96, 96))        save_filename = '%s-%d.jpg' % (os.path.basename(filename).split('.')[0], i)        cv2.imwrite("faces/" + save_filename, face)if __name__ == '__main__':    if os.path.exists('faces') is False:        os.makedirs('faces')    file_list = glob('imgs/*.jpg')    for filename in file_list:        detect(filename)

擷取頭像後的人物資料：

圖片描述

這樣就可以用來訓練了！

如果你不想從頭開始爬圖片，可以直接使用我爬好的頭像資料（275M，約5萬多張圖片）：https://pan.baidu.com/s/1eSifHcA 提取碼：g5qa

訓練

DCGAN在Tensorflow中已經有人造好了輪子：carpedm20/DCGAN-tensorflow，我們直接使用這個程式碼就可以了。

不過原始程式碼中只提供了有限的幾個資料庫，如何訓練自己的資料？在model.py中我們找到讀資料的幾行程式碼：

 if config.dataset == 'mnist':            data_X, data_y = self.load_mnist()        else:            data = glob(os.path.join("./data", config.dataset, "*.jpg"))

這樣讀資料的邏輯就很清楚了，我們在data資料夾中再新建一個anime資料夾，把圖片直接放到這個資料夾裡，執行時指定–dataset anime即可。

執行指令（引數含義：指定生成的圖片的尺寸為48x48，我們圖片的大小是96x96，跑300個epoch）：

python main.py --image_size 96 --output_size 48 --dataset anime --is_crop True --is_train True --epoch 300

結果

第1個epoch跑完（只有一點點輪廓）：

圖片描述

第5個epoch之後的結果：

圖片描述

第10個epoch：

圖片描述

200個epoch，仔細看有些圖片確實是足以以假亂真的：

圖片描述

題圖是我從第300個epoch生成的。

總結和後續

簡單介紹了一下GAN和DCGAN的原理。以及如何使用Tensorflow做一個簡單的生成圖片的demo。

Ian Goodfellow對GAN一系列工作總結的ppt，確實精彩，推薦：獨家 | GAN之父NIPS 2016演講現場直擊：全方位解讀生成對抗網路的原理及未來（附PPT）
GAN論文彙總，包含code：zhangqianhui/AdversarialNetsPapers

作者：何之源，復旦大學電腦科學碩士在讀，研究方向為人工智慧以及機器學習的應用。
歡迎人工智慧領域技術投稿、約稿、給文章糾錯，請傳送郵件至[email protected]

給我老師的人工智慧教程打call！http://blog.csdn.net/jiangjunshow

GAN學習指南從原理入門到製作生成Demo

GAN原理介紹

DCGAN原理介紹

DCGAN in Tensorflow

總結和後續

給我老師的人工智慧教程打call！http://blog.csdn.net/jiangjunshow

GAN學習指南從原理入門到製作生成Demo

GAN學習指南：從原理入門到製作生成Demo

深入理解機器學習：從原理到演算法pdf

國內資深敏捷教練姜信寶：敏捷學習指南帶你從入門到深入

從入門到入土：Lambda完整學習指南，包教包會！

人工智能、機器學習和認知計算入門指南

【學習】從.txt文件讀取生成編譯代碼。

深度學習之神經網絡（CNN/RNN/GAN）算法原理+實戰

2018大數據學習路線從入門到精通

分享《深度學習之TensorFlow：入門、原理與進階實戰》PDF+源代碼

深度學習、影象識別入門，從VGG16卷積神經網路開始

機器學習：從入門到晉級

分享《深入淺出強化學習：原理入門》高清PDF+原始碼

分享《深入淺出強化學習：原理入門》高清PDF+源代碼

【Python學習記錄——從入門到放棄】九、檔案與異常

《深入淺出強化學習：原理入門_郭憲方勇純》高清PDF+原始碼

《深入淺出強化學習：原理入門_郭憲方勇純》高清PDF+源代碼

Unity - ARKit1.0 ARKit1.5 ARKit2.0 入門到精通學習指南

WebGL學習之從著色器入門

一站式學習Redis 從入門到高可用分布式實踐（慕課）第五章 Redis持久化的取舍和選擇

GAN學習指南 從原理入門到製作生成Demo

GAN原理介紹

DCGAN原理介紹

DCGAN in Tensorflow

總結和後續

給我老師的人工智慧教程打call！http://blog.csdn.net/jiangjunshow

相關推薦

GAN學習指南從原理入門到製作生成Demo