概率圖模型基礎
概率圖模型
概率圖模型把基於圖的表示作為在高維空間上緊湊編碼復雜分布的基礎. 下圖中, 節點 (或橢圓) 與問題中的變量對應, 而邊與它們之間的直接概率交互對應:
- 在線查詢: http://pgm.stanford.edu/
- 中譯本: 概半圖模型:原理與技術 / (美國) Kollcr D., (以) Friedman N. 著, 王飛躍, 韓素青譯. 北京: 清華大學出版社, 2015.
基礎知識
概率論
事件空間
形式上, 我們通過假定存在一個可能結果的約定空間 (space) 來定義事件 (event), 並記作 \(\Omega\).
隨機變量
我們使用大寫的羅馬字母 \(X, Y, Z\)
定義了隨機變量 \(X\), 我們可以考慮其分布, 通常稱為 \(X\) 的邊緣分布 (margin distribution), 記作 \(P(X)\). 隨機變量集 \(\mathcal{X} = \{X_1, X_2, \cdots, X_n\}\) 上的聯合分布 (joint distribution) 由 \(P(X_1, X_2, \cdots, X_n)\) 表示, 並且它是為依據這些隨機變量具體指定的事件確定概率的分布. 我們使用 \(\xi\) 表示對 \(\mathcal{X}\)
通常使用符號 \(P(X|Y)\) 表示條件概率分布的集合. 直覺上, 就是對 \(Y\) 的每一個值, 用條件概率為 \(X\) 的每一個取值指定一個概率. 這個符號使得鏈式法則可以簡寫為 \(P(X,Y) = P(X)P(Y|X)\), 並且可以擴展為:
\[ P(X_1,\cdots, X_k) = P(X_1)P(X_2|X_1)\cdots P(X_K|X_{k-1}) \]
類似地, 可以使用條件概率分布表示貝葉斯規則:
\[ P(X|Y) = \frac{P(X)P(Y|X)}{P(Y)} \]
獨立性
定義1: 假如 \(P(\alpha|\beta) = P(\alpha)\) 或者 \(P(\beta)=0\), 則稱事件 \(\alpha\) 和事件 \(\beta\) 在 \(P\) 中獨立, 記作 \(P \models (\alpha \bot \beta)\).
命題1: 分布 \(P\) 滿足 \((\alpha \bot \beta)\) 當且僅當 \(P(\alpha\cap \beta) = P(\alpha)P(\beta)\).
定義2: 假如 \(P(\alpha|\beta \cap \nu) = P(\alpha|\nu)\) 或者 \(P(\beta \cap \nu)=0\), 則稱事件 \(\alpha\) 在給定事件 \(\nu\) 時在分布 \(P\) 中條件獨立於事件 \(\beta\), 記作 \(P \models (\alpha \bot \beta|\nu)\).
命題2: 分布 \(P\) 滿足 \((\alpha \bot \beta|\nu)\) 當且僅當 \(P(\alpha\cap \beta|\nu) = P(\alpha|\nu)P(\beta|\nu)\).
隨機變量的獨立性
定義3: 令 \(\boldsymbol{X, Y, Z}\) 表示隨機變量的集合. 在給定 \(\boldsymbol{Z}\) 時, 假如對於所有的值 \(x\in Val(\boldsymbol{X}), y \in Val(\boldsymbol{Y})\) 以及 \(z \in Val(\boldsymbol{Z})\), \(P\) 滿足 \(\boldsymbol{(X=x \bot Y=y |Z=z)}\), 則稱集合 \(\boldsymbol{X}\) 與 \(\boldsymbol{Y}\) 在分布 \(P\) 中條件獨立. 集合 \(\boldsymbol{Z}\) 中的變量通常稱為觀測 (observed) 變量. 如若集合 \(\boldsymbol{Z}\) 是空集, 可以把 \(\boldsymbol{(X\bot Y|?)}\) 記作 \(\boldsymbol{(X \bot Y)}\), 並稱 \(\boldsymbol{X}\) 與 \(\boldsymbol{Y}\) 是邊緣獨立的 (marginally independent).
因此, 有關隨機變量獨立性的陳述是關於隨機變量所有可能值的一個通用的量化.
命題3: 分布 \(P\) 滿足 \(\boldsymbol{(X \bot Y|Z)}\) 當且僅當 \(P(\boldsymbol{X,Y|Z}) = P(\boldsymbol{X|Z})P(\boldsymbol{Y|Z})\)
一些有用的性質:
- 對稱 (symmetry): \(\boldsymbol{(X \bot Y|Z) \Rightarrow (Y \bot X|Z)}\);
- 分解 (decomposition): \(\boldsymbol{(X \bot Y, W|Z) \Rightarrow (X \bot Y|Z) }\);
- 弱聯合 (weak union): \(\boldsymbol{(X \bot Y, W|Z) \Rightarrow (X \bot Y|Z, W) }\);
- 收縮 (contraction): \(\boldsymbol{(X \bot W|Z, Y) \,\&\, (X \bot Y|Z)\Rightarrow (X \bot Y, W|Z) }\).
定義4: 若對於所有滿足 \(\alpha \neq 0\) 的事件 \(\alpha \in \mathcal{S}, P(\alpha) > 0\) 成立, 則稱 \(P\) 為正分布 (positive distribution).
查詢一個分布
概率查詢
概率查詢 由兩個部分組成:
- 證據: 模型中隨機變量的子集 \(\boldsymbol{E}\), 以及這些變量的實例 \(\boldsymbol{e}\);
- 查詢變量: 網絡中隨機變量的子集 \(\boldsymbol{Y}\).
任務是計算
\[ P(\boldsymbol{Y|E=e}) \]
即, \(\boldsymbol{Y}\) 的值 \(\boldsymbol{y}\) 上的後驗概率分布取決於 \(\boldsymbol{E=e}\). 這個表達式也可以看作是以 \(\boldsymbol{e}\) 為條件作用獲得的分布中 \(\boldsymbol{Y}\) 上的邊緣.
最大後驗概率 (MAP) 查詢
也稱為最可能解釋 (MPE), 其目的是找到 MAP 賦值——對所有 (非證據) 變量最可能的賦值. 更精確地, 若令 \(\boldsymbol{W} = \mathcal{X} - \boldsymbol{E}\), 那麽在給定證據 \(\boldsymbol{E=e}\) 的條件下, 我們的任務是為 \(\boldsymbol{W}\) 中的變量找到最可能的賦值:
\[ MAP(\boldsymbol{W|e}) = \arg \max_w P(\boldsymbol{W,e}) \]
更多見 概率圖模型基礎
概率圖模型基礎