1. 程式人生 > >聚類演算法(四)、基於高斯混合分佈 GMM 的聚類方法(補充閱讀)

聚類演算法(四)、基於高斯混合分佈 GMM 的聚類方法(補充閱讀)

      基於高斯混合分佈的聚類,我看了很多資料,,寫的千篇一律,一律到讓人看不明白。直到認真看了幾遍周志華寫的,每看一遍,都對 GMM 聚類有一個進一步的認識。所以,如果你想了解這一塊,別看亂七八糟的部落格了,直接去看周志華的《機器學習》 P206頁。

下面是我額外看的幾篇論文,還不錯,我大致總結了一下,作為筆記。

拓展閱讀:

1、基於高斯混合模型的層次聚類演算法 瞿俊(廈門大學,2006)提到計算高斯混合分佈中每兩個組成成分的重疊度,然後根據重疊的程度,即重疊率是否大於一個閾值,決定是否將兩個分佈合併。如果合併了,就重新更新均值和方差。

2、基於高斯混合模型的引數遷移聚類 費全花(西安電子科技大學 2012)

的綜述部分敘述的還是不錯的。提到絕大多數學習方法都是基於訓練資料和測試資料都來自於相同的分佈和同一個特徵空間的假設,當資料分佈變化時,又要從頭訓練資料。此外,被廣泛應用的 EM 演算法具有對初始值敏感、容易陷入區域性最優的缺陷,提出了整合學習和遷移學習的改善思路。整合學習是將多個弱分類器整合為一個強的分類器,而遷移學習是將從一個環境中學習到的任務,用來幫助新環境的學習任務。

      理論已經證明,利用混合正態分佈模型可以逼近任何一個光滑分佈。即只要項數 k 足夠大,有限混合分佈模型可以用於描述任何複雜的現象。影象分割可歸結為一個聚類問題,對於給定的高斯混合模型,要利用該模型對資料進行聚類,還必須確定該模型中各個高斯部件所包含的未知引數,即係數、均值和方差。最常用的求解演算法是 EM 演算法,但是 EM 演算法存在對初始值敏感、容易陷入區域性最優的缺陷。

      第二章基於提出了基於空間資訊的 EMBoost 聚類演算法,用基於GMM 的 EM 演算法與整合學習結合,改善了 EM 演算法對初始值敏感以及結果不穩定的缺陷,然後加入了影象的區域性資訊以獲得更好的聚類結果。一些小點:

(1)、構造一個高精度估計器是一件非常難的事情,然而產生多個只比隨機猜測略好的粗糙估計卻很容易,整合學習就是在這種情況下產生的。

(2)【8】中對聚類整合的定義是:將多個對一組物件進行劃分的不同結果進行合併,而不使用物件原有的特徵。例:基於 Bagging 的聚類方法已經比較成熟,普遍的做法是:首先確定 Bagging 取樣概率進行多次取樣,得到多組樣本;然後使用聚類演算法對每組樣本進行單獨的聚類;最後將結果合併。文獻【30】是將 Boosting 與譜聚類相結合。此文是將 Boosting 與 EM 相結合。

(3) UCI 資料集

    第三章,基於空間資訊的 GMM 引數遷移聚類

(1)、機器學習和資料探勘領域的一個共同的假設是訓練資料和測試資料服從相同的分佈或者具有相同的特徵表示,當資料分佈變化時就要重新選擇資料。遷移學習強調的是在不同的但是具有相似性只是分別的領域、任務之間的知識的遷移。同時,遷移學習也可以避免資料重標定的巨大耗費。

(2)、遷移學習主要包括 三個方向:遷移什麼,即尋找哪些知識可以在不同的領域或任務之間進行遷移;怎樣遷移,即如何開發有效的演算法來遷移這些可以被遷移的知識;什麼時間遷移,即在什麼情況下可以使用遷移學習,什麼情況下不可以使用遷移學習。

(3)、將樣本分為確定性樣本和不確定性樣本。確定性樣本是指那些不管劃分多少次,都始終在同一個類中;不確定性樣本是指樣本被分到某一類是概率性的。文中引入聚類一致性值 CI 來判斷樣本的確定性與不確定性。所謂的聚類一致性值,是指將樣本多次聚類,該樣本屬於某個類別的概率。設定一個閾值,如果大於該閾值,那麼該樣本就屬於源域(即確定性樣本);否則屬於目標域(即不確定樣本)。源域和目標域劃分不合理的話,會產生負遷移現象。

(4)如何遷移:基於有限高斯混合模型的 EM 演算法,估計出源域的引數,包括均值和方差;然後,結合 K 近鄰 和聚類一致性,j將源域的引數遷移到目標域;然後利用高斯分佈公式,求出目標域樣本的概率值,最終計算目標域樣本的最終歸屬矩陣,得到資料劃分的結果

 第四章 基於塊的引數遷移聚類

(1)、先將圖劃分為多個小塊。比較常見的是分水嶺方法以及基於圖論的圖切割方法。

3、《基於高斯混合模型的變分自動編碼器》(2017 哈工大)

      本文研究的是生成模型。所謂生成模型,就是以滿足某個未知概率分佈的資料集作為輸入,然後學習到一個能夠表示這個概率分佈的模型。

      在聚類任務上,提取資料的特徵很關鍵。深度嵌入聚類 DEC 利用深度神經網路獲取資料特徵,然後利用聚類演算法,在資料特徵上進行聚類分析。但是 DEC 只能聚類不能生成資料樣本。為了生成有意義的資料樣本,生成模型被大量提出,這類模型有兩個目的:一是捕獲資料的統計結構,二是生成資料樣本

      生成模型的優勢有許多:能夠與強化學習想結合,在給定目前的狀態下,用於規劃的生成模型能夠學習到未來狀態的條件分佈,而用於強化學習的生成模型能夠在虛擬的環境中學習;生成模型能夠預測缺失資料。生成模型可以多模態輸出。

比如一幅影象,如果使用最小均方誤差來預測下一幀,,會很模糊,而利用生成模型預測的,一般比較清晰。

4、基於高斯混合模型聚類的變數選擇即應用

1、採用距離度量的方法,對於高維資料和大型資料效果非常不理想。這是因為:高維資料中對於資料簇的聚類資訊有很多維無關的屬性向量,破壞聚類的資訊結構;高維資料在高維空間中的分佈可能比較稀疏,不可能存在資料點對在所有維度中有距離相等的點。

而基於模型的聚類對資料的劃分,是依賴於樣本資料的概率分佈。因此,在選擇模型上, GMM 比較符合。一方面,從中心極限定理出發;另一方面(這一部分,這篇論文寫得真的是菜啊,語言各種不通順)

關於如何進行變數選擇的綜述,如下,我就直接截圖了: