R語言:EM演算法和高斯混合模型的R語言實現
本文我們討論期望最大化理論,應用和評估基於期望最大化的聚類。
軟體包
install.packages("mclust");
require(mclust)
## Loading required package: mclust
## Package 'mclust' version 5.1
## Type 'citation("mclust")' for citing this R package in publications.
資料
我們將使用mclust軟體包附帶的“糖尿病”資料。
data(diabetes)
summary(diabetes)
## class glucose insulin sspg## Chemical:36 Min. : 70 Min. : 45.0 Min. : 10.0## Normal :76 1st Qu.: 90 1st Qu.: 352.0 1st Qu.:118.0## Overt :33 Median : 97 Median : 403.0 Median :156.0## Mean :122 Mean : 540.8 Mean :186.1## 3rd Qu.:112 3rd Qu.: 558.0 3rd Qu.:221.0## Max. :353 Max. :1568.0 Max. :748.0
期望最大化(EM)
期望最大化(EM)演算法是用於找到最大似然的或在統計模型引數,其中該模型依賴於未觀察到的潛變數最大後驗(MAP)估計的迭代方法。期望最大化(EM)可能是無監督學習最常用的演算法。
似然函式
似然函式找到給定資料的最佳模型。
期望最大化(EM)演算法
假設我們翻轉硬幣並得到以下內容 - 0,1,1,0,0,1,1,0,0,1。我們可以選擇伯努利分佈
或者,如果我們有以釐米為單位的人的身高(男性和女性)的資料。高度遵循正常的分佈,但男性(平均)比女性高,因此這表明兩個高斯分佈的混合模型。
貝葉斯資訊準則(BIC)
以糖尿病資料為例
EM叢集與糖尿病資料使用mclust。
log.likelihood:這是BIC值的對數似然值
n:這是X點的數量
df:這是自由度
BIC:這是貝葉斯資訊標準; 低是好的
ICL:綜合完整X可能性 - BIC的分類版本。
clPairs(X,class.d)
EM的繪圖命令會生成以下四個繪圖:
BIC值用於選擇簇的數量
聚類圖
分類不確定性的圖表
簇的軌道圖
參考
C. Fraley,AE Raftery,TB Murphy和L. Scrucca(2012年)。用於R的mclust版本4:用於基於模型的聚類,分類和密度估計的正常混合建模。華盛頓大學統計系技術報告第597號。
C. Fraley和AE Raftery(2002)。基於模型的聚類,判別分析和密度估計。Journal of the American Statistical Association 97:611:631。
C. Fraley和AE Raftery(2005年,2009年修訂)。正態混合估計和基於模型的聚類的貝葉斯正則化。技術報告,華盛頓大學統計系。
C. Fraley和AE Raftery(2007)。正態混合估計和基於模型的聚類的貝葉斯正則化。Journal of Classification 24:155-181。
▍關注我們
大資料部落 -中國專業的第三方資料服務提供商,提供定製化的一站式資料探勘和統計分析和資料探勘諮詢服務:y0.cn/teradat(諮詢服務請聯絡官網客服)QQ: 3025393450【服務場景】 科研專案; 公司專案外包;線上線下一對一培訓;學術研究。【大資料部落】提供定製化的一站式資料探勘和統計分析諮詢服務分享最新的大資料資訊,每天學習一點資料分析,讓我們一起做有態度的資料人微信客服號:lico_9eQQ交流群:186388004 歡迎關注微信公眾號,瞭解更多資料乾貨資訊!