1. 程式人生 > >PRML讀書筆記——圖模型

PRML讀書筆記——圖模型

本章主要分析貝葉斯網路、條件獨立、馬爾科夫隨機場和圖模型的推斷

0 前言

概率圖模型:用概率分佈的圖形表示變數之間的依賴關係

⼀個圖由結點(nodes)和它們之間的連結(links)組成。在概率圖模型中,每個結點表⽰⼀個隨機變數(或⼀組隨機變數),連結表⽰這些變數之間的概率關係。這樣,圖描述了聯合概率分佈在所有隨機變數上能夠分解為⼀組因⼦的乘積的⽅式,每個因⼦只依賴於隨機變數的⼀個⼦集。

1 貝葉斯網路

貝葉斯網路是一個有向圖模型,一個簡單的示例如下:

這裡寫圖片描述

就上圖而言,連結的起點就是條件概率的條件中的隨機變數對應的結果,因此上圖對應概率形式可以表示如下:

p(x1)p(
x2)p(x3)p(x4|x1,x2,x3)p(x5|x1,x3)p(x6|x4)p(x7|x4,x5)

顯然,真正傳遞出圖表示的概率分佈的有趣資訊的是圖中連結的缺失。

下面給出更一般的形式,對於一個有K個結點的圖,聯合概率為:

p(x)=k=1Kp(xk|pak)

其中,pak表示xk的父結點的集合,x={x1,...,xk}。這個關鍵的方程表示有向圖模型的聯合概率分佈的分解屬性。

這裡,貝葉斯網路對應的有向圖是有向無環圖(DAG)。這等價於存在一個對所有點的排序,使得不存在從某個結點到序號較小的結點的連結。

多項式迴歸的例子

多項式迴歸的概率形式為:

p(t,
w|x,α,σ2)=p(w|α)n=1Np(tn|w,xn,σ2)

一般而言,會用給對應結點加上陰影的方式表示觀測變數。因此,以t為觀測變數,上述概率形式用圖模型表示如下:

這裡寫圖片描述

生成式模型的例子

這裡分析的是圖模型與取樣方法的關係。對應於⼀個有向⽆環圖。我們假設變數已經進⾏了排序,從⽽不存在從某個結點到序號較低的結點的連結。換句話說,每個結點的序號都⼤於它的⽗結點。我們的⽬標是從這樣的聯合概率分佈中取樣x1ˆ,...,xkˆ。這裡,假設我們已知第一個樣本的初始概率分佈。那麼,圖模型對應的就是祖先採樣

祖先採樣:我們⾸先選出序號最⼩的結點,按照概率分佈p(x1)取樣,記作x1。然後,我們順序計算每個結點,使得對於結點n,我們根據條件概率p

(xn|pan)進⾏取樣,其中⽗結點的變數被設定為它們的取樣值。注意,在每個階段,這些⽗結點的變數總是可以得到的,因為它們對應於已經取樣過的序號較⼩的結點。⼀旦我們對最後的變數xK取樣結束,我們就達到了根據聯合概率分佈取樣的⽬標。為了從對應於變數的⼦集的邊緣概率分佈中取樣,我們簡單地取要求結點的取樣值,忽略剩餘結點的取樣值。

離散變數的例子

對於一個有K個可能狀態的一元離散變數x,概率p(x|u)為:

p(x|u)=k=1Kuxkk

其中,引數u=(u1,...,uK)T,由於限制條件kuk=1的存在,實際上定義這個概率分佈,只需要K-1個引數即可。

這裡討論引數個數是因為,對離散變數採用圖模型表示時,隱含的引數數量隨著結點個數的增長迅速增長。

比如,考慮一般的情形,如果我們有M個離散變數x1,...,xM,我們可以用有向圖來對聯合概率分佈建模,每個變數一個結點。假如考慮鏈式的連結形式(如下圖),那麼整個圖的概率分佈所需要的引數數量為K1+(M1)K(K1)

這裡寫圖片描述

有效減少模型中獨立引數的方法有兩個:

(1)引數共享。比如為引數引入先驗,或者對每個結點包含的引數增加約束

(2)對條件概率分佈使用引數化的模型,而不是使用條件概率的完整表示。

2 條件獨立

條件獨立

多變數概率的分佈的一個重要概念是條件獨立,這在圖模型中很容易看出來,實現聯合概率分佈條件獨立的方法被稱為d-劃分(d-separation)

所謂的條件獨立,是指:

考慮三個變數a,b,c,如果其聯合概率存在下面的形式:

p(a,b|c)=p(a|b,c)p(b|c)=p(a|c)p(b|c)

那麼,我們說在給定c的條件下,a條件獨立於b

三種基本情況

(1)tail-to-tail

這裡寫圖片描述
假設以變數c為條件,則有:

p(a,b|c)