先說說Dirichlet Process

要了解DP，推薦兩篇文章Redford Neal的Markov Chain Sampling Methods for Dirichlet Process Mixture Models 和 Xiaodong Yu的 Gibbs Sampling Methods for Dirichlet Process Mixture Model: Technical Details. 第二篇文章是第一篇文章的解釋，Neal的文章寫的很好，但是對於新手來說跨度很大。Xiaodong Yu的這篇文章解釋的很好。
狄利克雷過程（DP）是非引數貝葉斯的基礎。基本上可以理解為一個離散化一個分佈的過程。一個連續的分佈被放到這個DP裡面出來的就是一個離散的分佈。同樣一個離散的分佈被放倒這個DP後就會更加離散。
離散化一個分佈的好處就是可以用來聚類。一個連續性的分佈不可能有兩個點的概率是完全一樣的，離散化之後就可以使兩個或多個點有同樣的概率，這樣就可以把這幾個點放到一起作為一個類。

DP的引數

DP可以寫為：

G∼DP(α0,G0)
裡面有兩個引數
G0 叫做基礎測度，就是剛才說的待離散化的分佈。
α0叫Concentration parameter, 用來表示這個離散化過程有多大。

中國餐館問題

問題描述是這樣的，一個人去選一個餐館吃飯，按照葛優的說法就是得選人多的餐館。但是有時候又想嘗試些新的口味，還可以選一個新的沒人的餐館。這個就是一個DP的問題。選擇一個已經有人的餐館就是剛才的離散化問題中的聚類問題，選擇新的餐館的時候是根據已有人數的大小來確定自己的選擇。但是如果一開始沒有人那就沒法選擇了，所以一開始的時候是根據基礎測度G0的分佈來選擇一個新的餐館。
詳細解釋參見這兩篇文章。
最終數學化的表示是：
去一個新餐館的概率：

p(new)∼α0α0+n−1
去一個已經有人的參觀的概率：
p(exist)∼nkα0+n−1
nk是第k個餐館的人數, n是總人數。

新增概率分佈

這裡面還有個問題就是Stick breaking來構建一個DP的過程，這個可以看文章，這裡要提一下δ()函式的意義。δ()函式是一個指示函式，裡面條件滿足就是1，否則是0。
根據SB構建的DP有下面的形式：

ϕi=ϕ|ϕ−i∼α0G0(ϕ)α0+n−1+Σj≠iδ(ϕ−ϕj)α0+n−1(1)
ϕ是從DP中取出來的隨機測度，就是離散化之後分佈中的某一個值。

然後就要新增似然函數了。

似然的新增

為什麼要新增似然函式？

似然指的是一些資料有多像後驗的引數。貝葉斯公式中：

DPMM(狄利克雷過程混合模型)淺解和新增似然函式的問題

先說說Dirichlet Process

DP的引數

中國餐館問題

新增概率分佈

似然的新增

為什麼要新增似然函式？

DPMM(狄利克雷過程混合模型)淺解和新增似然函式的問題

狄利克雷分佈的matlab程式碼實現和R語言函式呼叫

狄利克萊過程模型(一)：非引數貝葉斯無限混合模型和Dirichlet過程

狄利克萊過程模型(二)：狄利克萊過程分佈的三個經典類比

主題模型TopicModel：隱含狄利克雷分佈LDA

狄利克雷卷積&&杜教篩&&莫比烏斯反演

洛谷P3768 簡單的數學題（莫比烏斯反演+狄利克雷卷積+杜教篩）

【學習筆記】狄利克雷與莫比烏斯

狄利克雷卷積與莫比烏斯反演

莫比烏斯反演狄利克雷卷積杜教篩學習筆記

從狄利克雷卷積到杜教篩

杜教篩（整除分塊，積性函式，尤拉與莫比烏斯，狄利克雷卷積）

伯努利分佈、二項分佈、多項分佈、貝塔分佈、狄利克雷分佈、高斯分佈

狄利克雷卷積學習筆記

（數論一）積性函式與狄利克雷卷積

BZOJ3601. 一個人的數論（高斯消元＋狄利克雷卷積）

BZOJ3601. 一個人的數論（高斯消元＋狄利克雷卷積）及關於「前 $n$ 個正整數的 $k$ 次冪之和是 $k+1$ 次多項式」的證明

P3768 簡單的數學題 [狄利克雷卷積,杜教篩,莫比烏斯反演]

python資料分析：內容資料化運營（中）——基於潛在狄利克雷分配（LDA）的內容主體挖掘

線性篩,積性函式,狄利克雷卷積,常見積性函式的篩法

DPMM(狄利克雷過程混合模型)淺解和新增似然函式的問題

先說說Dirichlet Process

DP的引數

中國餐館問題

新增概率分佈

似然的新增

為什麼要新增似然函式？

相關推薦