1. 程式人生 > >GAN框架研究與思路整理

GAN框架研究與思路整理

  本文內容將著重分析當前GAN原理及其應用場景,比對其相對於傳統深度學習方法在影象生成等方面的區別

一、原始GAN原理

          原始GAN論文中的思想為生成模型與判別模型間的零和博弈,通過對抗式的訓練,生成模型G捕捉樣本資料的資料分佈,判別模型則是一個二分類模型,估計一個樣本來自訓練資料(而非生成資料)的概率。G和D一般都是非線性對映函式,如多層感知器(樸素GAN)/卷積神經網(DCGAN)等。          訓練過程中GAN網路中的生成器模型G的目標就是生成看上去儘量真實的資料去欺騙判別器D,而D作為一個二分類模型,目標為判斷輸入的資料是否“真實”,對於其認為的”真實“的資料輸出值會盡量接近1,反之資料逼近於0,代表認為不可能是真實圖片,由此形成一種動態博弈過程。博弈的理想結果為,在判別器已經很強大的情況下,仍然無法分辨來自生成器模型的資料是否是真實的,即此時的D(G(Z))=0.5.此時便得到了訓練結果:生成模型G,
輸入相應的量便能根據G捕獲的資料分佈實現相應資料的生成。

二、原始GAN優缺點

2.1GAN框架有著很多的優點: GAN能訓練任何一種生成器網路,不需要設計遵循任何種類的因式分解模型; 任意的生成網路(G)和鑑別網路(D)都會有用(只要網路可微分),GAN只需要反向傳播而不需要利用馬爾科夫鏈反覆取樣(傳統生成模型必備); 通過引入內部對抗訓練機制,無需在學習過程中進行推斷,迴避了近似棘手的概率問題,可以逼近一些不是很容易計算的目標函式 ④生成器模型G的引數更新不來自於資料樣本本身(不是對資料的似然性進行優化),而是來自模型D的一個反傳梯度) 2.2GAN框架的主要缺點: ①可解釋性差,生成模型最終捕獲的資料分佈Pg(D)沒有顯示的表達,只是一個黑盒子一樣的對映函式,輸入是一個隨機變數,輸出是需要的資料分佈。
網路在訓練過程中很難收斂,由於要平衡兩個模型G和D的最優化,因此很容易陷入區域性最優導致模型崩潰。  三、GAN應用          目前GAN主要的應用方向有影象增強影象變換影象生成,核心技術仍然是利用GAN對訓練資料分佈的捕獲能力,如超解析度影象的資料分佈特點、語義分割圖的資料分佈特點,彩色圖片的資料分佈特點、藝術風格圖片的資料分佈特點等。資料分佈的捕獲結果體現在生成模型G內   總結:以上應用都是利用了GAN對目標資料的資料分佈特點捕獲的能力(個人認為也是GAN能實現資料生成最強大的地方) 四、傳統CNN實現藝術風格轉換 VS GAN框架實現藝術風格轉換
4.1 A Neural Algorithm of Artistic Style           最早使用深度學習中的CNN框架進行藝術風格轉換,利用CNN中逐級的卷積層實現對style風格圖和content底圖的區域性/全域性紋理特徵進行提取,再利用設計好的損失函式進行全域性優化,調整噪聲圖內容使得其在VGG網路對應卷積層的特徵輸出同時逼近藝術風格圖和內容圖。每進行一次反向傳播,都使得原噪聲圖得到微調,逐步逼近最終的效果圖。          其主要的缺點在於速度太慢,因為每一次生成都相當於重新訓練一個模型,線上訓練的方式使其無法滿足實時性,同時無法充分利用海量的離線資料。當需要對大量的圖片或者視訊進行藝術風格轉換時,這種傳統的方式顯然是不符合需求的。  優點在於,藝術風格的遷移訓練僅僅需要兩張圖片,不需要海量的圖片資料。 4.2 Perceptual Losses for Real-Time Style Transfer and Super-Resolution 基於GAN框架的前向藝術風格生成模型:將傳統的求解全域性最優解問題轉換成用前向網路逼近最優解,原版的方法每次要將一幅內容圖進行風格轉換,就要進行不斷的迭代,而這篇的方法是先將其進行訓練,訓練得到前向生成網路,以後再來一張內容圖,直接輸入到網路中,即得到了具有預先訓練的風格內容圖。          這種基於GAN的無監督學習訓練方法,只需要一張對應的風格圖及一批不同內容的content圖,充分利用了離線訓練的情況下海量的無標籤圖片資料,通過生成式對抗網路對資料分佈的捕獲能力,獲取藝術風格紋理分佈特點。           該模型一旦訓練好,對於輸入的內容圖就能實現模型對應的藝術風格轉換,同時保留內容圖的語義資訊。即將傳統的線上訓練模式轉換為離線訓練,線上前饋測試,大大提高了影象轉換的實時性 五、GAN框架運用思路整理及疑問          結合GAN框架對於任意生成網路與判別網路的相容性,以及零和博弈這種對抗式訓練模式對於目標資料分佈的捕獲能力,GAN框架適用於針對資料的生成與轉換,通過零和博弈獲取人工設計困難的轉換關係(如模糊影象轉高清影象,按照傳統方法,高頻分量丟失造成的資訊缺失是很難恢復,但GAN通過捕獲高清影象的資料分佈特點,實現了轉換關係的設計)。         而從訓練資料來源的角度:針對樸素GAN,僅更改訓練樣本能實現對任意圖資料的生成模型訓練,且由於無監督學習的特點,資料來源豐富。而通過在訓練過程中隱含層引入一定的標籤資訊,如影象中的位置資訊,得到的模型將 能根據輸入資料資訊,實現更細化的資料生成,如影象翻譯,文字->影象等。          因此,針對GAN的特點,目前已有的思路還是較為集中在其對資料分佈特點的捕捉能力上,能否由此發散,考慮其他影象增強和影象變換方面的運用?用於特點環境下的影象資料簡化(如去霧)或者特定影象增強(如普通影象轉熱成像),由此方便機器判斷或者個人體驗?