1. 程式人生 > >EM演算法之高斯混合模型(一)

EM演算法之高斯混合模型(一)

單個高斯模型

如果我們有一堆資料,其分佈屬於一個高斯模型,那麼有

p(X)=N(x|μ,Σ)=1(2π)m|Σ|exp[12(xμ)TΣ1(xμ)](1.1)
這樣子的話,對於單個高斯,我們可以直接對其引數 μ Σ
進行求導,求出對應的引數。
那麼現在有一堆資料,其分佈如下所示,
這裡寫圖片描述

那麼我們需要用多個高斯對資料的分佈進行描述。接下來我們看看多個高斯混合模型.

混合高斯模型

每個GMM由K個Gaussian分佈組成,每個高斯分佈(Gaussian)稱為一個“Component”,這些Component 線性加成在一起就組成了 GMM 的概率密度函式:

p(x)=k=1Kp(k)p(x|k)=k=1KπkNk(x|μk,Σk)(2.1)

上式中 Kk=1πk=1 ,其中:
Nk(x|μk,Σk)=1(2π)m|Σk|exp[12(xμk)TΣ1k(xμk)](2.2)
這邊我們的引數可以用 θ
來表示:
θ={μ1,μ2...μk,Σ1,Σ2,...,Σk,π1,π2,...,πk}

這邊的 πi 表示的是每個高斯分佈對資料分佈的權重, kiπi=1

那我們如何從分佈中取一點嗎?我們可以分成兩步,首先 πk 的概率選擇一個component(每個component就是一個聚類中心),然後再從選中的這個歌高斯分佈中抽取一個點。

高斯混合模型引數估計與似然函式

如果我們直接按照單個高斯分佈那樣直接對高斯混合模型使用Maximum Likelihood來求解的話:

θMLE=argmaxθ{iNln[ikπlN(μl,Σl)]}(3.1)
分別對每個高斯進行求導,式子中log裡面的都是求和,這樣子分別求導是很困難的。

EM演算法進行引數求解

最近看到一篇深入講解EM演算法的文章(連結在最後),然後趕緊把其中的東西拿過來補充一下EM演算法。
EM演算法就是E 期望 + M 最大化兩步。那麼我們先看一個直觀的例子:

最經典的例子就是拋3個硬幣,跑I硬幣決定C1和C2,然後拋C1或者C2決定正反面, 然後估算3個硬幣的正反面概率值。
這裡寫圖片描述
這個例子為什麼經典, 因為它告訴我們,當存在隱變數I的時候, 直接的最大似然估計無法直接搞定。
這裡寫圖片描述
這裡寫圖片描述

EM演算法
輸入:觀測資料X,隱變數資料Z,聯合分佈P(X,Z| θ ),條件分佈P(Z|X, θ );
輸出模型引數: θ
1. 選擇初始引數 θ(0) ,開始迭代;
2. E step:記 θ(i) 為第i次迭代時 θ 的引數估計,那麼第i+1步迭代記做:
Q(θ,θ(i))=Ez[log(X,Z|θ)|X,θ(i)]=zlogP(X,Z|θ)P(Z|X,θ(i))
這裡的 Q(θ,θ(i)) 是對數似然函式 logP(X,Z|θ) 關於在給定觀測資料X和當前引數 θ(i) 下對未觀測資料Z的條件概率分佈 P(Z|Y,θ(i)) 。這邊如果隱含變數Z是連續的話,我們可以使用積分 z 而不是求和 z
3. M step:求 Q(θ,θ(i)

相關推薦

EM演算法混合模型

單個高斯模型 如果我們有一堆資料,其分佈屬於一個高斯模型,那麼有 p(X)=N(x|μ,Σ)=1(2π)m|Σ|‾‾‾‾‾‾‾‾√exp[−12(x−μ)TΣ−1(x−μ)](1.1) p(X) = N(x|\mu,\Sigma) = \

EM演算法混合模型(二)

EM引數求解 我們將GMM帶入 θ(g+1) \theta^{(g+1)}中 θ(g+1)=argmaxθ∫zln{P(X,z|θ)P(z|X,θ(g))}dz(6.1) \theta^{(g+1)} = {argm

混合模型GMM及其EM演算法的理解

一個例子 高斯混合模型(Gaussian Mixed Model)指的是多個高斯分佈函式的線性組合,理論上GMM可以擬合出任意型別的分佈,通常用於解決同一集合下的資料包含多個不同的分佈的情況(或者是同一類分佈但引數不一樣,或者是不同型別的分佈,比如正態分佈和伯

混合模型GMM及其求解期望最大化EM演算法

1、高斯混合模型的公式表達 高斯混合模型是指隨機變數x具有如下形式的分佈(概率密度函式): (公式1) 其中,引數θθ代表所有混合成分的引數(均值向量μ與協方差矩陣Σ)的集合: (公式2) 每個混合成分的概率密度函式為:

[R][原始碼]EM演算法實現基於混合模型GMM的聚類

要求:用EM演算法實現基於GMM的聚類演算法。一、實驗資料參考[1] 3.3.2章節。由兩個二維高斯分佈混合生成1000個數據,混合係數分別是0.4、0.6,均值和方差如下:mu1=[-2,-2]sigma1=[1.2, 0.5, 0.5, 1]mean2=[2,2]sigm

EM演算法混合模型中的應用詳細解釋與求解

1、高斯混合模型GMM 是指具有以下概率分佈的模型: P ( y

混合模型GMMEM演算法實現

在 聚類演算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut一文中我們給出了GMM演算法的基本模型與似然函式,在EM演算法原理中對EM演算法的實現與收斂性證明進行了詳細說明。本文主要針對如何用EM演算法在混合高

【機器學習】EM演算法混合模型學習中的應用

前言 EM演算法,此部落格介紹了EMEM演算法相關理論知識,看本篇部落格前先熟悉EMEM演算法。 本篇部落格打算先從單個高斯分佈說起,然後推廣到多個高斯混合起來,最後給出高斯混合模型引數求解過程。 單個高斯分佈 假如我們有一些資料,這些資料來自同一個

EM演算法混合模型

      由k個高斯模型加權組成,α是各高斯分佈的權重,Θ是引數。對GMM模型的引數估計,就要用EM演算法。更一般的講,EM演算法適用於帶有隱變數的概率模型的估計,即不同的高斯分佈所對應的類別變數。   為何不能使用極大似然估計,如果直接使用極大似然估計

聚類混合模型Gaussian Mixture Model

k-means應該是原來級別的聚類方法了,這整理下一個使用後驗概率準確評測其精度的方法—高斯混合模型。 我們談到了用 k-means 進行聚類的方法,這次我們來說一下另一個很流行的演算法:Gaussian Mixture Model (GMM)。事實上,GMM

聚類混合模型Gaussian Mixture Model【轉】

k-means應該是原來級別的聚類方法了,這整理下一個使用後驗概率準確評測其精度的方法—高斯混合模型。 我們談到了用 k-means 進行聚類的方法,這次我們來說一下另一個很流行的演算法:Gaussian Mixture Model (GMM)。事實上,GMM 和 k-means 很像,不過 GMM 是學習

R語言:EM演算法混合模型的R語言實現

本文我們討論期望最大化理論,應用和評估基於期望最大化的聚類。軟體包install.packages("mclust");require(mclust)## Loading required package: mclust## Package 'mclust' version

斯坦福大學機器學習——EM演算法求解混合模型

EM演算法(Expection-Maximizationalgorithm,EM)是一種迭代演算法,通過E步和M步兩大迭代步驟,每次迭代都使極大似然函式增加。但是,由於初始值的不同,可能會使似然函式陷入區域性最優。辜麗川老師和其夫人發表的論文:基於分裂EM演算法的GMM引數

EM演算法混合模型GMM介紹

EM演算法 EM演算法主要用於求概率密度函式引數的最大似然估計,將問題$\arg \max _{\theta_{1}} \sum_{i=1}^{n} \ln p\left(x_{i} | \theta_{1}\right)$轉換為更加易於計算的$\sum_{i=1}^{n} \ln p\left(x_{i}

混合模型GMM介紹以及學習筆記

1.高斯混合模型概述 高斯密度函式估計是一種引數化模型。高斯混合模型(Gaussian Mixture Model, GMM)是單一高斯概率密度函式的延伸,GMM能夠平滑地近似任意形狀的密度分佈。高斯混合模型種類有單高斯模型(Single Gaussian Model, S

EM(期望最大演算法)在混合模型中的python實現

以下程式碼僅實現了兩個高斯混合模型在均勻分佈條件下的引數估計,想要實現完全隨機的非均勻分佈的多高斯混合模型,可在上面加以修改。具體參考書中的9.3.2節 ##python實現## import math #import copy import numpy

【機器學習】機器學習十二、十三:K-means演算法混合模型

簡介:         本節介紹STANFORD機器學習公開課中的第12、13集視訊中的演算法:K-means演算法、高斯混合模型(GMM)。(9、10、11集不進行介紹,略過了哈) 一、K-means演算法         屬於無監督學習的聚類演算法,給定一組未標定的資料

混合模型Gaussian Mixture Model,GMM

先從簡單的離散型隨機變數看起 離散型隨機變數P{X=ak}=pk,k=1,2,3,...,n 其中:∑i=1npi=1 那麼它的期望值是:E(X)=∑kakpk 以上都是中學數學知識,那麼到了高等數學的概率論與數理統計這門課才開始討論連續隨機變數的情況。

背景建模混合模型

在運動目標檢測提取中,背景目標對於目標的識別和跟蹤至關重要。而建模正是背景目標提取的一個重要環節。 前景是指在假設背景為靜止的情況下,任何有意義的運動物體即為前景。 運動物體檢測的問題主要分為兩類,攝像機固定和攝像機運動。對於攝像機運動的運動物體檢測問題,比較著名的解決方

混合模型GMM model以及梯度下降法gradient descent更新引數

關於GMM模型的資料和 EM 引數估算的資料,網上已經有很多了,今天想談的是GMM的協方差矩陣的分析、GMM的引數更新方法 1、GMM協方差矩陣的物理含義 涉及到每個元素,是這樣求算: 用中文來描述就是: 注意後面的那個除以(樣本數-1),就是大括號外面的E求期望 (這叫