WGAN(wasserstein GAN)
介紹:
在非監督學習中學習概率分佈的意義在哪兒?論文使用極大似然估計的理論來解釋,使用一個分佈來近似真實分佈,並通過最小化連個分佈之間的KL散度來求解。論文解釋了生成模型GAN與VAE的特點:不用直接求解原分佈,而通過生成一個隨機變數z的分佈P(z),並通過引數化方程(比如神經網路等)生成一個確定分佈,並將不斷的接近從而求解非監督問題。
論文的主要工作:① 在理論上解釋了Earth Mover(EM)距離,並比較了常用的其他距離和散度公式 ② 定義了一個新的GAN生成模型WGAN,通過最小化近似筆記EM距離 ③ WGAN解決了GAN在訓練中不穩定等問題,WGAN訓練鑑別器D過程中可以連續的評估EM距離。
不同的距離公式;
論文通過舉例來證明EM在低維空間中仍然連續並可求導,如下圖所示,EM連續並可梯度下降,JS不連續。
論文通過兩個定理,和一個推論在證明EM在度量真實和重建分佈的距離時,效能最優異,定理及推論如下(本文不作定理及推論的證明):
WGAN:
由W-Distance得:
最大化公式(2)的期望,論文采用神經網路來訓練權重w,使用反向傳播演算法更新。為了在一個小的空間中訓練引數w,論文采在每次梯度更新時使用了一個clip。
該clip不能太大,太大會使得訓練時間過長,也不能太小,太小會導致梯度彌散。
論文提出,論文沒有使用神經網路來代替這個clip項,這個方向也可能成為未來研究方向。
實驗:
損失函式標準:論文提出了基於WGAN的損失函式標準
左圖是使用W-Estimator,右圖是使用JS-Estimator,左圖顯示,GAN的損失趨向於收斂(論文提出這是一個重要的進展)
同時,論文使用用了RMSProp而不是使用常用的Adam優化演算法,這一點在虛擬碼裡也有展示。
論文使用DCGAN的生成器,實驗效果圖如下:
思考:
① 連續評估EM距離的意義在哪兒?離散評估有什麼不足?
② WGAN與其他GAN相比優勢在哪裡?
③ 論文中提到的clip項在公式的什麼地方顯示出來?
④ WGAN的評估標準是怎麼來的?意義又在何處?