GAN框架研究與思路整理
阿新 • • 發佈:2019-01-23
本文內容將著重分析當前GAN原理及其應用場景,比對其相對於傳統深度學習方法在影象生成等方面的區別
輸入相應的量便能根據G捕獲的資料分佈實現相應資料的生成。
②網路在訓練過程中很難收斂,由於要平衡兩個模型G和D的最優化,因此很容易陷入區域性最優導致模型崩潰。
三、GAN應用
目前GAN主要的應用方向有:影象增強,影象變換,影象生成,核心技術仍然是利用GAN對訓練資料分佈的捕獲能力,如超解析度影象的資料分佈特點、語義分割圖的資料分佈特點,彩色圖片的資料分佈特點、藝術風格圖片的資料分佈特點等。資料分佈的捕獲結果體現在生成模型G內。
總結:以上應用都是利用了GAN對目標資料的資料分佈特點捕獲的能力(個人認為也是GAN能實現資料生成最強大的地方)
四、傳統CNN實現藝術風格轉換 VS GAN框架實現藝術風格轉換
4.1 A Neural Algorithm of Artistic Style
最早使用深度學習中的CNN框架進行藝術風格轉換,利用CNN中逐級的卷積層實現對style風格圖和content底圖的區域性/全域性紋理特徵進行提取,再利用設計好的損失函式進行全域性優化,調整噪聲圖內容使得其在VGG網路對應卷積層的特徵輸出同時逼近藝術風格圖和內容圖。每進行一次反向傳播,都使得原噪聲圖得到微調,逐步逼近最終的效果圖。
其主要的缺點在於速度太慢,因為每一次生成都相當於重新訓練一個模型,線上訓練的方式使其無法滿足實時性,同時無法充分利用海量的離線資料。當需要對大量的圖片或者視訊進行藝術風格轉換時,這種傳統的方式顯然是不符合需求的。
優點在於,藝術風格的遷移訓練僅僅需要兩張圖片,不需要海量的圖片資料。
4.2 Perceptual Losses for Real-Time Style Transfer and Super-Resolution
基於GAN框架的前向藝術風格生成模型:將傳統的求解全域性最優解問題轉換成用前向網路逼近最優解,原版的方法每次要將一幅內容圖進行風格轉換,就要進行不斷的迭代,而這篇的方法是先將其進行訓練,訓練得到前向生成網路,以後再來一張內容圖,直接輸入到網路中,即得到了具有預先訓練的風格內容圖。
這種基於GAN的無監督學習訓練方法,只需要一張對應的風格圖及一批不同內容的content圖,充分利用了離線訓練的情況下海量的無標籤圖片資料,通過生成式對抗網路對資料分佈的捕獲能力,獲取藝術風格紋理分佈特點。
該模型一旦訓練好,對於輸入的內容圖就能實現模型對應的藝術風格轉換,同時保留內容圖的語義資訊。即將傳統的線上訓練模式轉換為離線訓練,線上前饋測試,大大提高了影象轉換的實時性
五、GAN框架運用思路整理及疑問
結合GAN框架對於任意生成網路與判別網路的相容性,以及零和博弈這種對抗式訓練模式對於目標資料分佈的捕獲能力,GAN框架適用於針對資料的生成與轉換,通過零和博弈獲取人工設計困難的轉換關係(如模糊影象轉高清影象,按照傳統方法,高頻分量丟失造成的資訊缺失是很難恢復,但GAN通過捕獲高清影象的資料分佈特點,實現了轉換關係的設計)。
而從訓練資料來源的角度:針對樸素GAN,僅更改訓練樣本能實現對任意圖資料的生成模型訓練,且由於無監督學習的特點,資料來源豐富。而通過在訓練過程中隱含層引入一定的標籤資訊,如影象中的位置資訊,得到的模型將
能根據輸入資料資訊,實現更細化的資料生成,如影象翻譯,文字->影象等。
因此,針對GAN的特點,目前已有的思路還是較為集中在其對資料分佈特點的捕捉能力上,能否由此發散,考慮其他影象增強和影象變換方面的運用?用於特點環境下的影象資料簡化(如去霧)或者特定影象增強(如普通影象轉熱成像),由此方便機器判斷或者個人體驗?