1. 程式人生 > >GAN原理介紹

GAN原理介紹

說到GAN第一篇要看的paper當然是Ian Goodfellow大牛的Generative Adversarial Networks,這篇paper算是這個領域的開山之作。

GAN的基本原理其實非常簡單,這裡以生成圖片為例進行說明。假設我們有兩個網路,G(Generator)和D(Discriminator)。正如它的名字所暗示的那樣,它們的功能分別是:

  • G是一個生成圖片的網路,它接收一個隨機的噪聲z,通過這個噪聲生成圖片,記做G(z)。

  • D是一個判別網路,判別一張圖片是不是“真實的”。它的輸入引數是x,x代表一張圖片,輸出D(x)代表x為真實圖片的概率,如果為1,就代表100%是真實的圖片,而輸出為0,就代表不可能是真實的圖片。

在訓練過程中,生成網路G的目標就是儘量生成真實的圖片去欺騙判別網路D。而D的目標就是儘量把G生成的圖片和真實的圖片分別開來。這樣,G和D構成了一個動態的“博弈過程”。

最後博弈的結果是什麼?在最理想的狀態下,G可以生成足以“以假亂真”的圖片G(z)。對於D來說,它難以判定G生成的圖片究竟是不是真實的,因此D(G(z)) = 0.5。

這樣我們的目的就達成了:我們得到了一個生成式的模型G,它可以用來生成圖片。

以上只是大致說了一下GAN的核心原理,如何用數學語言描述呢?這裡直接摘錄論文裡的公式:

GAN學習指南:從原理入門到製作生成Demo,總共分幾步?

簡單分析一下這個公式:

  • 整個式子由兩項構成。x表示真實圖片,z表示輸入G網路的噪聲,而G(z)表示G網路生成的圖片。

  • D(x)表示D網路判斷真實圖片是否真實的概率(因為x就是真實的,所以對於D來說,這個值越接近1越好)。而D(G(z))是D網路判斷G生成的圖片的是否真實的概率。

  • G的目的:上面提到過,D(G(z))是D網路判斷G生成的圖片是否真實的概率,G應該希望自己生成的圖片“越接近真實越好”。也就是說,G希望D(G(z))儘可能得大,這時V(D, G)會變小。因此我們看到式子的最前面的記號是min_G。

  • D的目的:D的能力越強,D(x)應該越大,D(G(x))應該越小。這時V(D,G)會變大。因此式子對於D來說是求最大(max_D)

下面這幅圖片很好地描述了這個過程:

GAN學習指南:從原理入門到製作生成Demo,總共分幾步?

那麼如何用隨機梯度下降法訓練D和G

?論文中也給出了演算法:

GAN學習指南:從原理入門到製作生成Demo,總共分幾步?

這裡紅框圈出的部分是我們要額外注意的。第一步我們訓練D,D是希望V(G, D)越大越好,所以是加上梯度(ascending)。第二步訓練G時,V(G, D)越小越好,所以是減去梯度(descending)。整個訓練過程交替進行。