GAN原理理解
GAN的基本原理其實非常簡單,這裡以生成圖片為例進行說明。假設我們有兩個網路,G(Generator)和D(Discriminator)。正如它的名字所暗示的那樣,它們的功能分別是:
G是一個生成圖片的網路,它接收一個隨機的噪聲z,通過這個噪聲生成圖片,記做G(z)。
D是一個判別網路,判別一張圖片是不是“真實的”。它的輸入引數是x,x代表一張圖片,輸出D(x)代表x為真實圖片的概率,如果為1,就代表100%是真實的圖片,而輸出為0,就代表不可能是真實的圖片。
在訓練過程中,生成網路G的目標就是儘量生成真實的圖片去欺騙判別網路D。而D的目標就是儘量把G生成的圖片和真實的圖片分別開來。這樣,G和D構成了一個動態的“博弈過程”。
最後博弈的結果是什麼?在最理想的狀態下,G可以生成足以“以假亂真”的圖片G(z)。對於D來說,它難以判定G生成的圖片究竟是不是真實的,因此D(G(z)) = 0.5。
這樣我們的目的就達成了:我們得到了一個生成式的模型G,它可以用來生成圖片。
以上只是大致說了一下GAN的核心原理,如何用數學語言描述呢?這裡直接摘錄論文裡的公式:
簡單分析一下這個公式:
整個式子由兩項構成。x表示真實圖片,z表示輸入G網路的噪聲,而G(z)表示G網路生成的圖片。
D(x)表示D網路判斷真實圖片是否真實的概率(因為x就是真實的,所以對於D來說,這個值越接近1越好)。而D(G(z))是D網路判斷G生成的圖片的是否真實的概率。
G的目的:上面提到過,D(G(z))是
D的目的:D的能力越強,D(x)應該越大,D(G(x))應該越小。這時V(D,G)會變大。因此式子對於D來說是求最大(max_D)
下面這幅圖片很好地描述了這個過程:
那麼如何用隨機梯度下降法訓練D和G?論文中也給出了演算法:
這裡紅框圈出的部分是我們要額外注意的。第一步我們訓練D,D是希望V(G, D)越大越好,所以是加上梯度(ascending)。第二步訓練G時,V(G, D)越小越好,所以是減去梯度(descending)
二、DCGAN原理介紹
我們知道深度學習中對影象處理應用最好的模型是CNN,那麼如何把CNN與GAN結合?DCGAN是這方面最好的嘗試之一(點選檢視論文)
DCGAN的原理和GAN是一樣的,這裡就不在贅述。它只是把上述的G和D換成了兩個卷積神經網路(CNN)。但不是直接換就可以了,DCGAN對卷積神經網路的結構做了一些改變,以提高樣本的質量和收斂的速度,這些改變有:
取消所有pooling層。G網路中使用轉置卷積(transposed convolutional layer)進行上取樣,D網路中用加入stride的卷積代替pooling。
在D和G中均使用batch normalization
去掉FC層,使網路變為全卷積網路
G網路中使用ReLU作為啟用函式,最後一層使用tanh
D網路中使用LeakyReLU作為啟用函式
DCGAN中的G網路示意:
三、DCGAN in Tensorflow
好了,上面說了一通原理,下面說點有意思的實踐部分的內容。
DCGAN的原作者用DCGAN生成LSUN的臥室圖片,這並不是特別有意思。之前在網上看到一篇文章Chainerで顔イラストの自動生成 - Qiita ,是用DCGAN生成動漫人物頭像的,效果如下:
這是個很有趣的實踐內容。可惜原文是用Chainer做的,這個框架使用的人不多。下面我們就在Tensorflow中復現這個結果。
1. 原始資料集的蒐集
首先我們需要用爬蟲爬取大量的動漫圖片,原文是在這個網站:http://safebooru.donmai.us/中爬取的。我嘗試的時候,發現在我的網路環境下無法訪問這個網站,於是我就寫了一個簡單的爬蟲爬了另外一個著名的動漫相簿網站:konachan.net。
爬蟲程式碼如下:
這個爬蟲大概跑了一天,爬下來12萬張圖片,大概是這樣的:
可以看到這裡面的圖片大多數比較雜亂,還不能直接作為資料訓練,我們需要用合適的工具,擷取人物的頭像進行訓練。
2. 頭像擷取
擷取頭像和原文一樣,直接使用github上一個基於opencv的工具:nagadomi。
簡單包裝下程式碼:
擷取頭像後的人物資料:
這樣就可以用來訓練了!
如果你不想從頭開始爬圖片,可以直接使用我爬好的頭像資料(275M,約5萬多張圖片):百度雲盤 提取碼:g5qa
3. 訓練
DCGAN在Tensorflow中已經有人造好了輪子:carpedm20/DCGAN,我們直接使用這個程式碼就可以了。
不過原始程式碼中只提供了有限的幾個資料庫,如何訓練自己的資料?在model.py中我們找到讀資料的幾行程式碼:
if config.dataset == 'mnist':
data_X, data_y = self.load_mnist()
else:
data = glob(os.path.join("./data", config.dataset, "*.jpg"))
這樣讀資料的邏輯就很清楚了,我們在data資料夾中再新建一個anime資料夾,把圖片直接放到這個資料夾裡,執行時指定--dataset anime即可。
執行指令(引數含義:指定生成的圖片的尺寸為48x48,我們圖片的大小是96x96,跑300個epoch):
python main.py --image_size 96 --output_size 48 --dataset anime --is_crop True --is_train True --epoch 300
4. 結果
第1個epoch跑完(只有一點點輪廓):
第5個epoch之後的結果:
第10個epoch:
200個epoch,仔細看有些圖片確實是足以以假亂真的:
題圖是我從第300個epoch生成的。
四、總結和後續
簡單介紹了一下GAN和DCGAN的原理。以及如何使用Tensorflow做一個簡單的生成圖片的demo。
轉自:https://www.leiphone.com/news/201701/yZvIqK8VbxoYejLl.html?viewType=weixin