W-GAN系 (Wasserstein GAN、 Improved WGAN)

阿新 • • 發佈：2018-02-28

希望 .html 方法有意參數 emd 真的風景 owa

習總結於國立臺灣大學：李宏毅老師

Wasserstein GAN 、 Improved Training of Wasserstein GANs

本文outline

一句話介紹WGAN： Using Earth Mover’s Distance to evaluate two distribution Earth Mover‘s Distance（EMD） = Wasserstein Distance

一. WGAN

1. Earth Mover’s Distance（EMD）

EMD: P和Q為兩個分布：P分布為一堆土，Q分布為要移到的目標，那麽要移動P達到Q，哪種距離更小呢？

技術分享圖片

這裏有許多種可能的moving plans，利用最小平均距離的moving plans來定義EMD

那麽以下是最好的moving plans：

技術分享圖片

來用矩陣直觀解釋移土方案：

技術分享圖片

圖中每個像素點對應row需要移出多少土到對應column，越亮表示移動越多。註意每一個row的值加起來為對應P行的分布，每個column的值加起來為對應Q行的分布。所以可以有很多的moving plan來實現：

技術分享圖片

γ(x_p,x_q)表示從p移動多少土到q， || x_p -x_q ||表示pq之間的距離。上式就是給定一個plan時需要平均移動的距離。那麽EMD定義就是

窮舉所有plan，EMD為最小的距離（最優的plan）：

2. Why EMD

在更新過程中我們希望P_G的分布和P_data越來越相似：

技術分享圖片

但是D_f(P_data||P_G): 因為從JS-divergence來看：無法從G0變到G100，因為G50並沒有比G0變小

技術分享圖片

用W(P_data, P_G)則不同，G0對應的距離就是d0， G50對應的距離就是G50：所以利用Wasserstein距離時，model就會有動機使得分布趨於真實分布。

技術分享圖片

3. 回到GAN框架

我們知道所有的f-divergence都可以寫成以下形式：

1）

而Earth Mover’s Distance可以寫成以下形式：

技術分享圖片 2）

即找一個D使得大括號裏的值最大，而限制是D屬於1-Lipschitz。

Lipschitz Function：輸出的變化小於等於輸入的變化， k=1時為 1-Lipschitz ，即變化的不要太猛烈。

栗子：黑線為基準，藍線變化很猛烈不是1-Lipschitz，而綠線變化緩和屬於1-Lipschitz。

技術分享圖片

所以回到 2）式，如果沒有對D的限制，當D(x1) 和D(x2)為正負無窮時可以最大化2）式，下圖左。而現在對D有此限制，則D的取值如下圖右：

技術分享圖片

D(x1) 和D(x2)差距一定要小於d。下圖說明了利用EMD的好處是P_G可以沿著梯度移動到藍色P_data，而原生GAN的判別器D為而二元分類器，輸出為sigmoid函數。對於藍色和橙色的分布，原生GAN可能為藍線：對應P_data的輸出值為1，對應P_G的輸出值為0。所以藍色曲線在藍色和橙色分布的梯度為0，根本沒有動力去挪動generator的輸出來更新。而EMD在兩個分布附近都有梯度，可以繼續更新。

技術分享圖片

WGAN優點： WGAN will provide gradient to push PG towards Pdata

4. WGAN優化

那麽怎麽梯度更新呢？因為D有了限制，無法直接利用SGD。這裏引入一種方法：Weight clipping

就是強制令權重w 限制在c ~ -c之間。在參數更新後，如果w>c，則令w=c，如果w<-c，則令w=-c。我們這樣做只為保證：

對權重的限制表示對NN的輸入做一個變化，輸出的變化總是有限的。實做上對於w進行限制：就可以限制了這條直線的斜率，否則D的輸出為一條很斜的直線，且不斷變直，給橙色的值越來越小，給藍色的值越來越大，無法停止。

技術分享圖片

5. WGAN 算法

技術分享圖片

result：

技術分享圖片

原來的GAN是衡量JS-divergence，GAN是把JS-divergence train到底，所有case的結果幾乎都是0，不管你generate的image好不好，JS-divergence都是個定值。那Discriminator就不是衡量JS-divergence，D的output就變得沒有意義了。但是如果我們用WGAN的話，discriminator衡量的是EMD，而這個earth mover’s distance 衡量的就是兩個分布真正的距離。所以看discriminator的loss可以真的表示出generate的圖片的好壞。

技術分享圖片

二. Improved WGAN

A differentiable function is 1-Lipschitz if and only if it has gradients with norm less than or equal to 1 everywhere.

就是說如果一個函數是1-Lipschitz，那麽它的gradients with morm <=1:

註意這裏的gradient不是對參數，而是input對output的gradient，即x對D(x)的gradient。

技術分享圖片

註意此懲罰項penalty：如果梯度的norm>1就會懲罰，即，因不可能對所有x作積分，所以對sample的x求期望

技術分享圖片

那Ppenalty是什麽呢，怎麽從Ppenalty sample x呢？首先從P_data sample一個點，再從P_G sample一個點，然後在其連線中sample出x，即x是在P_data 和 P_G 之間的區域中sample：

技術分享圖片

Only give gradient constraint to the region between ??_???????? and ??_?? because they influence how ??_?? moves to ??_????????

僅僅對P_data 和 P_G 之間的區域的梯度進行限制，因為只有這個區域影響P_G 移向P_data 。

而進一步，Improved WGAN不是讓gradient的norm小於1，而是越接近1越好：因為希望P_data的D(x)越大越好， P_G的 D(x)越小越好，然而這個差距總是有限的，所以希望中間的藍色區域的gradient越大越好，因為藍色的坡度越陡，P_data 和P_G的差距越大，然而藍色的gradient的最大值就只能取到1.

技術分享圖片