1. 程式人生 > >DPMM(狄利克雷過程混合模型)淺解和新增似然函式的問題

DPMM(狄利克雷過程混合模型)淺解和新增似然函式的問題

先說說Dirichlet Process

要了解DP,推薦兩篇文章Redford Neal的Markov Chain Sampling Methods for Dirichlet Process Mixture Models 和 Xiaodong Yu的 Gibbs Sampling Methods for Dirichlet Process Mixture Model: Technical Details. 第二篇文章是第一篇文章的解釋,Neal的文章寫的很好,但是對於新手來說跨度很大。Xiaodong Yu的這篇文章解釋的很好。
狄利克雷過程(DP)是非引數貝葉斯的基礎。基本上可以理解為一個離散化一個分佈的過程。一個連續的分佈被放到這個DP裡面出來的就是一個離散的分佈。同樣一個離散的分佈被放倒這個DP後就會更加離散。
離散化一個分佈的好處就是可以用來聚類。一個連續性的分佈不可能有兩個點的概率是完全一樣的,離散化之後就可以使兩個或多個點有同樣的概率,這樣就可以把這幾個點放到一起作為一個類。

DP的引數

DP可以寫為:

GDP(α0,G0)
裡面有兩個引數
G0 叫做基礎測度,就是剛才說的待離散化的分佈。
α0叫Concentration parameter, 用來表示這個離散化過程有多大。

中國餐館問題

問題描述是這樣的,一個人去選一個餐館吃飯,按照葛優的說法就是得選人多的餐館。但是有時候又想嘗試些新的口味,還可以選一個新的沒人的餐館。這個就是一個DP的問題。選擇一個已經有人的餐館就是剛才的離散化問題中的聚類問題,選擇新的餐館的時候是根據已有人數的大小來確定自己的選擇。但是如果一開始沒有人那就沒法選擇了,所以一開始的時候是根據基礎測度G0的分佈來選擇一個新的餐館。
詳細解釋參見這兩篇文章。
最終數學化的表示是:
去一個新餐館的概率:

p(new)α0α0+n1
去一個已經有人的參觀的概率:
p(exist)nkα0+n1
nk是第k個餐館的人數, n是總人數。

新增概率分佈

這裡面還有個問題就是Stick breaking來構建一個DP的過程,這個可以看文章,這裡要提一下δ()函式的意義。δ()函式是一個指示函式,裡面條件滿足就是1,否則是0。
根據SB構建的DP有下面的形式:

ϕi=ϕ|ϕiα0G0(ϕ)α0+n1+Σjiδ(ϕϕj)α0+n1(1)
ϕ是從DP中取出來的隨機測度,就是離散化之後分佈中的某一個值。

然後就要新增似然函數了。

似然的新增

為什麼要新增似然函式?

似然指的是一些資料有多像後驗的引數。貝葉斯公式中:

P(θ|y)=P(y|θ)P(θ)P(y)
其中P(y|θ)就是指得似然函式。它的作用是連線模型的資料部分與分佈的引數部分。有了它之後就能把資料放到我們要求的模型中來計算模型的後驗分佈。
根據前面的兩篇文章,後驗的分佈為:
p(ϕi|ϕi,xi)=bα0q0H(ϕ|xi)+bΣjiF(xi|ϕj)δ(ϕiϕj)(2) H(ϕi|xi)=G0(ϕi)F(xi|ϕi)ϕG0(ϕ)F(xi|ϕj)(3) q0=ϕG0(ϕ)F(xi|ϕj)(4) b=(α0q0+ΣjiF(xi|ϕj))1

相關推薦

DPMM(過程混合模型)新增函式的問題

先說說Dirichlet Process 要了解DP,推薦兩篇文章Redford Neal的Markov Chain Sampling Methods for Dirichlet Process Mixture Models 和 Xiaodong Yu的 Gi

分佈的matlab程式碼實現R語言函式呼叫

主要參考的是:https://www.douban.com/note/45584915/ 和 http://www.biostatistic.net/thread-33740-1-1.html 最近需要用到狄利克雷分佈,但是找了半天發現matlab沒有現成的工具可用。只

過程模型(一):非引數貝葉斯無限混合模型Dirichlet過程

[作者按] 這篇文章是根據edwin Chen的部落格 http://blog.echen.me/2012/03/20/infinite-mixture-models-with-nonparametric-bayes-and-the-dirichlet-process/ 和

過程模型(二):過程分佈的三個經典類比

       關於DPP的三個經典類比,在本文中依次進行說明:        首先是折棍子模型:        將觀測資料分配到不同群中的生成模型,就是一個折棍子的過程,它將一個變數的支援度(所謂支援度,採用了資料探勘中關聯規則抽取的術語了,意思就是概率,搞不明白為毛用支援

主題模型TopicModel:隱含分佈LDA

主題模型LDA簡介隱含狄利克雷分佈簡稱LDA(Latent Dirichlet allocation),首先由Blei, David M.、吳恩達和Jordan, Michael I於2003年提出,目前在文字挖掘領域包括文字主題識別、文字分類以及文字相似度計算方面都有應用。

卷積&&杜教篩&&莫比烏斯反演

pos cnblogs title tar sdn aid www. article 前綴 狄利克雷卷積和莫比烏斯反演:鏈接 淺談一類積性函數的前綴和: 鏈接 賈誌鵬線性篩: 鏈接   讀賈誌鵬線性篩有感 (莫比烏斯函數的應用)   莫比烏斯函數 狄利

洛谷P3768 簡單的數學題(莫比烏斯反演+卷積+杜教篩)

ostream str lar .com 數學 logs tomato define show 傳送門 不會…… 兩篇加在一起都看不懂…… https://www.cnblogs.com/cellular-

【學習筆記】 與莫比烏斯

數論 學習筆記 卷積 加法 結果 整數 class 知識 rac Ahead 10.9.2018 前置知識 數論函數 指一個正整數集對一個數集的映射 可以看成 N+->R 加法 若函數 \(f(x) + g(x) = h(x)\) 那麽 \(h(x) = \sum_{

卷積與莫比烏斯反演

- 概念引入   - 數論函式     指定義域為正整數的函式     定義其加法為逐項相加,即$(f + g)(n) = f(n) + g(n)$     定義其數乘為逐項相乘,即$(xf)(n) = x × f(n)$   - 單位元     單位元是集合中一種特別的元素,當單位元與其它元素

莫比烏斯反演 卷積 杜教篩 學習筆記

前置知識:一些數論函式,比如尤拉函式、莫比烏斯函式的一些性質,積性函式及性質,整除分塊。 這裡預設大家會前置知識,如果不會請自行學習。 之前嘗試看過,結果後來都忘光了,於是還是決定應該寫個學習筆記記錄一下。 首先開始介紹莫比烏斯反演。 我們設

卷積到杜教篩

狄利克雷卷積 積性函式 定義: 對於數論函式\(f\),若對於任意互質的數\(x,y\),滿足\(f(x*y)=f(x)*f(y)\),則\(f\)為一個積性函式。 事實上,我們見過的大部分數論函式都是積性函式,常見的如: \(\mu(x)\),莫比烏斯函式,在莫比烏斯反演有討論過。

杜教篩(整除分塊,積性函式,尤拉與莫比烏斯,卷積)

參考資料 整除分塊: 當我們求∑ni=1f([ni])∑i=1nf([ni])的時候,如果1到n求一遍感覺太傻了,因為會有很多重複的計算,例如:n=10000時,i在[101,111]時,都有[ni]=9[ni]=9,所以我們只需要對所有數分成如上的一個

伯努分佈、二項分佈、多項分佈、貝塔分佈、分佈、高斯分佈

伯努利分佈: 伯努利分佈(Bernoulli distribution)又名兩點分佈或0-1分佈,介紹伯努利分佈前首先需要引入伯努利試驗(Bernoulli trial)。 伯努利試驗是隻有兩種可能結果的單次隨機試驗,即對於一個隨機變數X而言: 伯努利試驗都可以表達為“是或否”

卷積學習筆記

狄利克雷卷積 得記下來,不然很容易忘記呀 數論函式 數論函式:定義域是正整數,值域是一個數集 兩個數論函式加法 ,逐項相加 $(f+g)(n) = f(n) + g(n)$ 數乘 , 這個數和每一項乘:$(xf)(n)=x*f(n)$ 積性函式:對於一個數論函式f滿足對於任意$(x,y)=1$,有$f(

(數論一)積性函式卷積

​ 今天做的一道題就是有關積性函式與狄利克雷卷積的,很懵逼。覺得有必要學一手了 一. 積性函式是什麼呢? ​ 對於函式f,對於任意的a,b互質,都有: f(a * b) = f(a) * f(b) ​ 這樣的函式f就稱為積性函式,若a,b不互質也滿足上述條

BZOJ3601. 一個人的數論(高斯消元+卷積)

isp 一個 swap 由於 oid rac mod -m bzoj3 題目鏈接 https://www.lydsy.com/JudgeOnline/problem.php?id=3601 題解 首先還是基本的推式子: \[\begin{aligned}f_d(n) &am

BZOJ3601. 一個人的數論(高斯消元+卷積)及關於「前 $n$ 個正整數的 $k$ 次冪之和是 $k+1$ 次多項式」的證明

題目連結 https://www.lydsy.com/JudgeOnline/problem.php?id=3601 題解 首先還是基本的推式子: \[\begin{aligned}f_d(n) &= \sum_{i = 1}^n [{\rm gcd}(i, n) = 1]i^d \\ &am

P3768 簡單的數學題 [卷積,杜教篩,莫比烏斯反演]

簡單的數學題 題目連線 題目描述 輸入一個正整數n,n≤1010n,n\le 10^{10}n,n≤1010和p,p≤1.1×109p,p \le 1.1 \times 10^9p,p≤1.1×109

python資料分析:內容資料化運營(中)——基於潛在分配(LDA)的內容主體挖掘

案例背景 本案例是從一堆新聞檔案中建立相應的主題模型,然後得到不同模型的主題特點,並通過對新文字資料集的預測得到其可能的主題分類。 相關知識 TF-IDF TF-IDF(term frequency–inverse document frequency)是一種針對關鍵字的

線性篩,積性函式,卷積,常見積性函式的篩法

一些性質 積性函式:對於函式\(f(n)\),若滿足對任意互質的數字\(a,b,a*b=n\)且\(f(n)=f(a)f(b)\),那麼稱函式f為積性函式。 狄利克雷卷積:對於函式f,g,定義它們的卷積為 \((f∗g)(n)=\sum_{d|n}f(d)g(\frac{n}{d})\)。 狄利克雷卷積滿足