生成式資料增強方法——GMM-CGAN
在有監督機器學習演算法越來越強大之時,資料便成了限制模型performance的最關鍵因素了。所以不少國內外學者的研究方向都開始轉向資料增強了。
今天看了一篇來自《計算機應用》的期刊文章(好久沒看journal了,而且還是國內的),不過這篇期刊還是有點貨的。國內的journal,咱並不期待能當演算法風向標,但可以當綜述看,也可以有一定的價值。
放一下論文連結:
《基於生成式對抗神經網路的資料增強方法》
文章還是很新的,發表於2018/07/09的14:35
資料增強分為生成式資料增強和非生成式資料增強
1. 仿射變換
仿射變換是經典的非生成式資料增強方法,是一種二維座標 (x, y)到二維座標 (u, v) 的線 性變換。θ 為影象旋 轉的角度,為影象平移的橫座標移動距離,b 為影象平移的 縱座標移動距離。
SMILES Enumeration as Data Augmentation for Nerual Network Modeling of Molecules |
---|
2. GAN和CGAN
顯然,GAN是可以進行資料增強的。對GAN和CGAN原理不清楚的,可以看我之前的博文。
3. GMM-CGAN
GMM:高斯混合模型(Gaussian Mixed Model)指的是多個高斯分佈函式的線性組合,理論上GMM可以擬合出任意型別的分佈,通常用於解決同一集合下的資料包含多個不同的分佈的情況(或者是同一類分佈但引數不一樣,或者是不同型別的分佈,比如正態分佈和伯努利分佈)。
這篇文章就是把高斯混合模型和CGAN做了一個結合。
我們知道,CGAN在生成器G生成的時候,feed的訊號是一串隨機數(準確地說,符合高斯分佈的一串隨機數)。其實高斯分佈在現實情況中,顯得特別單一,用符合單一分佈的隨機訊號去feed生成器,生成的資料也比較單一,variance比較小。
所以用高斯混合模型加強的GAN就是解決隨機訊號的單一分佈問題。
這裡使用來代替之前的,隨機變數~。這裡的和都是trainable的。做了一個稍微的改進,就讓資料增強效果好出很多。
總結
journal的內容大部分都是綜述,創新內容並不比會議論文多什麼。。