1. 程式人生 > 實用技巧 >基於圖嵌入的高斯混合變分自編碼器的深度聚類(Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding, DGG)

基於圖嵌入的高斯混合變分自編碼器的深度聚類(Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding, DGG)

基於圖嵌入的高斯混合變分自編碼器的深度聚類

Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding, DGG

作者:凱魯嘎吉 - 部落格園http://www.cnblogs.com/kailugaji/

1. 引言

這篇博文主要是對論文“Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding”的整理總結,這篇文章將圖嵌入與概率深度高斯混合模型相結合,使網路學習到符合全域性模型和區域性結構約束的強大特徵表示。將樣本作為圖上的節點,並最小化它們的後驗分佈之間的加權距離,在這裡使用Jenson-Shannon散度作為距離度量。

閱讀這篇博文的前提條件是:瞭解高斯混合模型用於聚類的演演算法,瞭解變分推斷與變分自編碼器,進一步瞭解變分深度嵌入(VaDE)模型。在知道高斯混合模型(GMM)與變分自編碼器(VAE)之後,VaDE實際上是將這兩者結合起來的一個產物。與VAE相比,VaDE在公式推導中多了一個變數c。與GMM相比,變數c就相當於是GMM中的隱變數z,而隱層得到的特徵z相當於原來GMM中的資料x。而基於圖嵌入的高斯混合變分自編碼器的深度聚類(DGG)模型可以看做在VAE的基礎上結合了高斯混合模型與圖嵌入來完成聚類過程,公式推導中同樣增加了表示類別的變數c,同時,目標函式後面加了一項圖嵌入的約束項。比起VaDE來說,可以理解為多了一個約束項——圖嵌入,當然目標函式還是有所不同。

下面主要介紹DGG模型目標函式的數學推導過程。推導過程用到了概率論與數理統計的相關知識,更用到了VaDE模型推導裡面的知識,如果想要深入瞭解推導過程,請先看變分深度嵌入(VaDE)模型的相關推導。

2. 目標函式的由來與轉化

3. 目標函式具體推導

4. 引數更新過程及聚類結果

5. 我的思考

在推導過程中我與原文中的推導有不一樣的地方。

1)我的推導過程中變分下界L中第二項係數是1/2,原文直接是1,而在支撐材料裡面仍然是1/2,因此可以認為是作者筆誤造成的。

2)我的推導過程中變分下界L中的第二項與第四項都有常數項(藍框框標出的),這兩項正好正負抵消,才沒有這個引數項,而在原文支撐材料裡面直接第二四項都沒有常數項。不過這只是支撐材料的內容,在原文中沒有太大影響。

3)我用的是πk,原文用的πik。這點沒有太大影響。

6. 參考文獻

[1]Linxiao Yang, Ngai-Man Cheung, Jiaying Li, and Jun Fang, "Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding", In ICCV 2019.

[2] 論文補充材料:Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding - Supplementary

[3] DGG Python程式碼:https://github.com/ngoc-nguyen-0/DGG

[4]變分深度嵌入(Variational Deep Embedding, VaDE) - 凱魯嘎吉 - 部落格園

[5]變分推斷與變分自編碼器 - 凱魯嘎吉 - 部落格園