1. 程式人生 > >生成式資料增強方法——GMM-CGAN

生成式資料增強方法——GMM-CGAN

在有監督機器學習演算法越來越強大之時,資料便成了限制模型performance的最關鍵因素了。所以不少國內外學者的研究方向都開始轉向資料增強了。

今天看了一篇來自《計算機應用》的期刊文章(好久沒看journal了,而且還是國內的),不過這篇期刊還是有點貨的。國內的journal,咱並不期待能當演算法風向標,但可以當綜述看,也可以有一定的價值。
放一下論文連結:
基於生成式對抗神經網路的資料增強方法
文章還是很新的,發表於2018/07/09的14:35

資料增強分為生成式資料增強非生成式資料增強

1. 仿射變換

這裡寫圖片描述
仿射變換是經典的非生成式資料增強方法,是一種二維座標 (x, y)到二維座標 (u, v) 的線 性變換。θ 為影象旋 轉的角度,為影象平移的橫座標移動距離,b 為影象平移的 縱座標移動距離。

SMILES Enumeration as Data Augmentation for Nerual Network Modeling of Molecules

2. GAN和CGAN

這裡寫圖片描述
顯然,GAN是可以進行資料增強的。對GAN和CGAN原理不清楚的,可以看我之前的博文。

3. GMM-CGAN

GMM:高斯混合模型(Gaussian Mixed Model)指的是多個高斯分佈函式的線性組合,理論上GMM可以擬合出任意型別的分佈,通常用於解決同一集合下的資料包含多個不同的分佈的情況(或者是同一類分佈但引數不一樣,或者是不同型別的分佈,比如正態分佈和伯努利分佈)。
這篇文章就是把高斯混合模型和CGAN做了一個結合。

我們知道,CGAN在生成器G生成的時候,feed的訊號是一串隨機數(準確地說,符合高斯分佈的一串隨機數)。其實高斯分佈在現實情況中,顯得特別單一,用符合單一分佈的隨機訊號去feed生成器,生成的資料也比較單一,variance比較小。

所以用高斯混合模型加強的GAN就是解決隨機訊號的單一分佈問題
這裡寫圖片描述
這裡使用z=μi+σiδ來代替之前的z,隨機變數δ~N(0,1)。這裡的μiσi都是trainable的。做了一個稍微的改進,就讓資料增強效果好出很多。
這裡寫圖片描述

總結

journal的內容大部分都是綜述,創新內容並不比會議論文多什麼。。