PRML讀書筆記——圖模型
本章主要分析貝葉斯網路、條件獨立、馬爾科夫隨機場和圖模型的推斷
0 前言
概率圖模型:用概率分佈的圖形表示變數之間的依賴關係
⼀個圖由結點(nodes)和它們之間的連結(links)組成。在概率圖模型中,每個結點表⽰⼀個隨機變數(或⼀組隨機變數),連結表⽰這些變數之間的概率關係。這樣,圖描述了聯合概率分佈在所有隨機變數上能夠分解為⼀組因⼦的乘積的⽅式,每個因⼦只依賴於隨機變數的⼀個⼦集。
1 貝葉斯網路
貝葉斯網路是一個有向圖模型,一個簡單的示例如下:
就上圖而言,連結的起點就是條件概率的條件中的隨機變數對應的結果,因此上圖對應概率形式可以表示如下:
顯然,真正傳遞出圖表示的概率分佈的有趣資訊的是圖中連結的缺失。
下面給出更一般的形式,對於一個有K個結點的圖,聯合概率為:
其中,
這裡,貝葉斯網路對應的有向圖是有向無環圖(DAG)。這等價於存在一個對所有點的排序,使得不存在從某個結點到序號較小的結點的連結。
多項式迴歸的例子
多項式迴歸的概率形式為:
一般而言,會用給對應結點加上陰影的方式表示觀測變數。因此,以t為觀測變數,上述概率形式用圖模型表示如下:
生成式模型的例子
這裡分析的是圖模型與取樣方法的關係。對應於⼀個有向⽆環圖。我們假設變數已經進⾏了排序,從⽽不存在從某個結點到序號較低的結點的連結。換句話說,每個結點的序號都⼤於它的⽗結點。我們的⽬標是從這樣的聯合概率分佈中取樣
祖先採樣:我們⾸先選出序號最⼩的結點,按照概率分佈
離散變數的例子
對於一個有K個可能狀態的一元離散變數
其中,引數
這裡討論引數個數是因為,對離散變數採用圖模型表示時,隱含的引數數量隨著結點個數的增長迅速增長。
比如,考慮一般的情形,如果我們有M個離散變數
有效減少模型中獨立引數的方法有兩個:
(1)引數共享。比如為引數引入先驗,或者對每個結點包含的引數增加約束
(2)對條件概率分佈使用引數化的模型,而不是使用條件概率的完整表示。
2 條件獨立
條件獨立
多變數概率的分佈的一個重要概念是條件獨立,這在圖模型中很容易看出來,實現聯合概率分佈條件獨立的方法被稱為d-劃分(d-separation)
所謂的條件獨立,是指:
考慮三個變數
那麼,我們說在給定c的條件下,a條件獨立於b
三種基本情況
(1)tail-to-tail
假設以變數c為條件,則有: