模式識別與機器學習 上課內容 I
打算總結一下之前學習的內容, 說是總結, 也是複習, 也是預習. 所以會不定期更新文件.
統計判別
統計是什麼?
當你買了一臺電腦時, 被告知三年內可以免費保修. 你想過廠家憑什麼這樣說嗎? 說多了, 廠家損失; 說少了, 失去競爭也是損失.
統計學是用以收集資料, 分析資料和由資料得出結論的一組概念, 原則和方法.
模式識別的目的就是要確定某一個給定的模式樣本屬於哪一類.
但在現實世界中, 有許多客觀現象的發生, 就每一次觀察和測量來說, 即使在基本條件保持不變的情況下也具有不確定性. 只有在大量重複的觀察下, 其結果才能呈現出某種規律性, 即對它們觀察到的特徵具有統計特性. 特徵的值不再是一個確定的向量, 而是一個隨機向量. 此時, 只能利用模式集的統計特性來分類, 以使分類器發生錯誤的概率最小.
統計判別問題的模式分類
給定觀測值\(x\), 判斷其屬於\(\omega_1\)類還是\(\omega_2\)類, 做出某次判斷時的錯誤率為:
\[P(error|x) = \left\{\begin{matrix}P(\omega_1|x),x\in\omega_2\\P(\omega_2|x),x\in\omega_1 \end{matrix}\right. \]最小化誤差的概率條件下, 決策規則為 \(P(\omega_1|x)>P(\omega_2|x)\), 則判斷 \(x\in \omega_1\), 否則判斷 \(x\in \omega_2\).
貝葉斯判別
由貝葉斯定理, 後驗概率\(P(\omega_i|x)\)
這裡, \(P(x|\omega_i)\)也稱為似然函式(likelihood function). 將該式代入上述判別式, 有:
若\(P(x|\omega_1)P(\omega_1) > P(x|\omega_2)P(\omega_2)\)
若\(P(x|\omega_1)P(\omega_1) < P(x|\omega_2)P(\omega_2)\), 則\(x \in \omega_2\).
或者: 若\(l_{12} =\frac{P(x|\omega_1)}{P(x|\omega_2)}>\frac{P(\omega_2)}{P(\omega_1)}\), 則\(x \in \omega_1\). 若\(l_{12} =\frac{P(x|\omega_1)}{P(x|\omega_2)}<\frac{P(\omega_2)}{P(\omega_1)}\), 則\(x \in \omega_2\).
其中, \(l_{12}\)稱為似然比, \(P(\omega_2)/P(\omega_1) = \theta_{21}\)稱為似然比的判決閾值, 此判別稱為貝葉斯判別.
將貝葉斯判別進行推廣:
- 允許使用多於一個特徵.
- 允許多於兩種類別狀態的情形.
- 允許有其他行為而不僅僅是判定類別: 如後驗概率接近的情況下, 如果因此付出的代價不大的話, 拒絕做判決.
- 通過引入一個更一般的損失函式來代替誤差概率.
樸素貝葉斯
在特徵\(x=(x_1, x_2, ..., x_D)\)是多維向量時, 樸素貝葉斯演算法是假設各個特徵之間相互獨立.
\[P(x_1, x_2, ..., x_D|\omega)=\Pi_{i=1}^{D}P(x_i|\omega) \]貝葉斯最小風險判別
-
對於來自\(\omega_i\)類的模式\(x\)來說, 它來自\(\omega_i\)的概率應該為\(P(\omega_i|x)\).
-
如果分類器判斷\(x\)屬於\(\omega_j\)類, 但是它實際上是來自\(\omega_i\)類. 這時, \(L_{ij}\)為失分, 對應的條件風險為後驗概率進行\(L_{ij}\)的加權運算.
-
由於\(x\)可能來自於\(M\)中的任意一類, 因此可將觀察樣本指定為\(\omega_j\)類的條件平均風險用\(r_j(x)\)的公式運算.
當考慮到對於某一類的錯誤判決要比對另一類的判決更加關鍵時, 就需要把最小錯誤概率的貝葉斯判別做一些修正, 提出條件平均風險\(r_j(x)\).
- \(M\)類分類問題的條件平均風險\(r_j(x)\)
對\(M\)類問題, 如果觀察樣本被判定屬於\(\omega_j\)類, 則條件平均風險為:\(r_j=\Sigma_{i=1}^{M}L_{ij}P(\omega_i|x)\).
\(L_{ij}\)稱為將來自\(\omega_i\)類的模式判斷為來自\(\omega_j\)類的是非代價.
當\(i=j\)時, \(L_{ij}\)可以取負值或零, 表示不失分, 判斷正確. 當\(i\neq j\)時, 判斷錯誤, \(L_{ij}\)一般取正值.
- 最小平均條件風險分類器
分類器對每一個模式\(x\)都有\(M\)種可能的選擇.
若對每一\(x\)計算出所有類別的平均風險值\(r_1(x), r_2(x), ..., r_M(x)\), 並且將\(x\)指定為具有最小風險值的那一類, 則這種分類器稱為最小平均條件風險分類器. 按照貝葉斯公式, 其表示式可表示為:
\[r_j=\frac{\Sigma_{i=1}^{M}L_{ij}P(x|\omega_i)P(\omega_i)}{P(x)} \]因為 \(\frac{1}{P(x)}\)為公共項, 因此可以省略. 上式可以簡化為:
\[r_j=\Sigma_{i=1}^{M}L_{ij}P(x|\omega_i)P(\omega_i) \]這也是一個貝葉斯分類器, 只是它的判別方法不是按照錯誤概率最小作為標準, 而是按照平均條件風險作為標準.
\(M=2\)時的貝葉斯最小風險判別
當分類器將\(x\)判別為\(\omega_1\)時, 平均風險可以寫為:
\[r_1(x)=L_{11}P(x|\omega_1)P(\omega_1)+L_{21}P(x|\omega_2)P(\omega_2). \]當分類器將\(x\)判別為\(\omega_2\)時, 平均風險可以寫為:
\[r_2(x)=L_{12}P(x|\omega_1)P(\omega_1)+L_{22}P(x|\omega_2)P(\omega_2). \]若\(r_1(x)<r_2(x)\), 則\(x\)被判斷為屬於\(\omega_1\), 此時:
\[L_{11}P(x|\omega_1)P(\omega_1)+L_{21}P(x|\omega_2)P(\omega_2)<L_{12}P(x|\omega_1)P(\omega_1)+L_{22}P(x|\omega_2)P(\omega_2) \]即
\[(L_{21}-L_{22})P(x|\omega_2)P(\omega_2) < (L_{12}-L_{11})P(x|\omega_1)P(\omega_1). \]通常取\(L_{ij}>L_{ii}\), 有:
\[l_{12}=\frac{P(x|\omega_1)}{P(x|\omega_2)}>\frac{P(\omega_2)}{P(\omega_1)}\bullet \frac{L_{21}-L_{22}}{L_{12}-L_{11}}=\theta_{21} \]該不等式左邊為似然比, 右邊為閾值. 故兩類模式的貝葉斯判別條件為:
- 若\(l_{12}>\theta_{21}\), 則\(x\in \omega_1\).
- 若\(l_{12}<\theta_{21}\), 則\(x\in \omega_2\).
- 若\(l_{12}=\theta_{21}\), 則可做任意判別.
多類(\(M\)類)情況的貝葉斯最小風險判別
對於\(M\)類情況, 若\(r_i(x)<r_j(x) (j\in M, j\neq i)\), 則\(x \in \omega_i\). \(L_{ij}\)可在\(i=j\)時取\(1\), \(i\neq j\)時取\(0\).
則條件平均風險可寫為:
\[r_j=\Sigma_{i=1}^{M}L_{ij}P(x|\omega_i)P(\omega_i)=L_{1j}P(x|\omega_1)P(\omega_1)+...+L_{jj}P(x|\omega_j)P(\omega_j)+...+L_{Mj}P(x|\omega_M)P(\omega_M)\\ =\Sigma_{i=1}^MP(x|\omega_i)P(\omega_i)-P(x|\omega_j)P(\omega_j)=P(x)-P(x|\omega_j)P(\omega_j) \]由\(r_i(x)<r_j(x)\), 有當\(P(x|\omega_i)P(\omega_i) > P(x|\omega_j)P(\omega_j)\)時, \(x \in \omega_i\).
正態分佈模式的貝葉斯分類器
當已知或者有理由假設類概率密度函式是多變數的正態分佈時, 上面介紹的貝葉斯分類器可以匯出一些簡單的判別函式.
\(M\)種模式類別的多變數正態類密度函式為:
\[P(x|\omega_i)=\frac{1}{(2\pi)^{\frac{n}{2}}|C_i|^{\frac{1}{2}}}e^{-\frac{1}{2}(x-m_i)^TC_i^{-1}(x-m_i)},i\in M \]其中:
\[m_i= E_i(x)\\ C_i=E_i((x-m_i)(x-m_i)^T) \]已知類別\(\omega_i\)的判別函式可寫成如下形式:
\[d_i(x)=P(x|\omega_i)P(\omega_i)\quad i\in M \]對於正態密度函式, 可取對數的形式方便計算, 則有:
\[d_i(x)=lnP(x|\omega_i)+lnP(\omega_i)\quad i\in M \]代入正態類密度函式這有:
\[d_i(x)=lnP(\omega_i)-\frac{n}{2}ln(2\pi)-\frac{1}{2}ln|C_i|-\frac{1}{2}(x-m_i)C_i^{-1}(x-m_i)\quad i\in M \]去掉與\(i\)無關的項則有:
\[d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C_i|-\frac{1}{2}(x-m_i)C_i^{-1}(x-m_i)\quad i\in M \]即為正態分佈模式的貝葉斯判別函式, 是一個二次曲面.
兩類問題且類模式都是正態分佈
當\(C_1\neq C_2\)時, \(\omega_1,\omega_2\)對應的判別函式為:
\[d_1(x)=lnP(\omega_1)-\frac{1}{2}ln|C_1|-\frac{1}{2}(x-m_1)C_1^{-1}(x-m_1)\\ d_2(x)=lnP(\omega_2)-\frac{1}{2}ln|C_2|-\frac{1}{2}(x-m_2)C_2^{-1}(x-m_2)\\ d_1(x)-d_2(x)=\left\{\begin{matrix}>0\quad x\in \omega_1\\ <0\quad x\in\omega_2 \end{matrix}\right. \]當\(C_1=C_2=C\)時, 有:
\[d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C|-\frac{1}{2}x^TC^{-1}x+\frac{1}{2}x^TC^{-1}m_i+\frac{1}{2}m_i^TC^{-1}x-\frac{1}{2}m_i^TC^{-1}m_i\quad i=1,2 \]因為\(C\)為對稱矩陣, 上式可以簡化為:
\[d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C|-\frac{1}{2}x^TC^{-1}x+m_i^TC^{-1}x-\frac{1}{2}m_i^TC^{-1}m_i\quad i=1,2 \]由此可以匯出\(\omega_1,\omega_2\)的判別介面為:
\[d_1(x)-d_2(x)=lnP(\omega_1)-lnP(\omega_2)+(m_1-m_2)^TC^{-1}x-\frac{1}{2}m_1^TC^{-1}m_1+\frac{1}{2}m_2^TC^{-1}m_2=0. \]貝葉斯分類規則是基於統計概念的, 如果只有少量的模式樣本, 一般較難獲得最優的結果.
均值向量和協方差矩陣的引數估計
在貝葉斯分類器中, 構造分類器需要知道類的概率密度函式\(P(x|\omega_i)\). 如果按先驗知識已知其分佈, 則只需要知道分佈的引數即可.
對均值向量和協方差矩陣的估計為貝葉斯分類器中的一種引數估計問題. 引數估計一共有兩種方式, 第一種是將引數作為非隨機變數來處理, 例如矩估計. 另一種是隨機引數估計, 把這些引數看成是隨機變數, 例如貝葉斯引數估計.
均值和協方差矩陣的估計量定義
設模式的類概率密度函式為\(P(x)\), 其均值向量定義為\(m=E(x)=\int_xxP(x)dx\). 其中樣本\(x\)和均值向量\(m\)為\(n\)維向量, 即\(x=(x_1,x_2,...,x_n)^T, m=(m_1,m_2,...,m_n)^T\). 若以樣本的均值作為均值向量的近似值, 則均值估計量\(\hat{m}=\frac{1}{N}\Sigma_{j=1}^{N}x^j\).
協方差矩陣為:
\[C=\left( \begin{matrix} c_{11} &.&.&.&c_{1n}\\ . &.&.&.&.\\ . &.&.&.&. \\ . &.&.&.&. \\ c_{n1} &.&.&.& c_{nn}\end{matrix}\right) \]其中每個元素\(c_{lk}\)定義為:
\[c_{lk}=E((x_l-m_l)(x_k-m_k))=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x_l-m_l)(x_k-m_k)P(x_l,x_k)dx_ldx_k \]協方差矩陣寫成向量形式為:
\[C=E((x-m)(x-m)^T)=E(xx^T)-mm^T \]協方差矩陣的估計量為:
\[\hat{C}\approx\frac{1}{N}(x^j-\hat{m})(x^j-\hat{m})^T \]由於\(\hat{m}\)並不是真實的均值向量, 所以會有偏差.
假設現在已經計算了\(N\)個樣本的均值估計量, 若再加上一個樣本, 其新的均值估計量為:
\[\frac{1}{N+1}\Sigma_{j=1}^{N+1}x^j=\frac{1}{N+1}(\Sigma_{j=1}^{N}x^j+x^{N+1})=\frac{1}{N+1}(N\hat{m}+x^{N+1}) \]協方差矩陣估計量的迭代運算與上述類似, 取\(\hat{C}(N)\)表示\(N\)個樣本時的估計量為:
\[\hat{C}(N)=\frac{1}{N}\Sigma_{j=1}^{N}x^j(x^j)^T-\hat{m}\hat{m}^T \]加入一個新的樣本:
\[\hat{C}(N+1)=\frac{1}{N+1}\Sigma_{j=1}^{N+1}x^j(x^j)^T-\hat{m}(N+1)\hat{m}^T(N+1)\\ =\frac{1}{N+1}(\Sigma_{j=1}^Nx^j(x^j)^T+x^{N+1}(x^{N+1})^T)-\hat{m}(N+1)\hat{m}^T(N+1)\\ =\frac{1}{N+1}(N\hat{C}(N)+N\hat{m}(N)\hat{m}^T(N)+x^{N+1}(x^{N+1})^T)-\frac{1}{(N+1)^2}(N\hat{m}(N)+x^{N+1})(N\hat{m}(N)+x^{N+1})^T \]其中, \(\hat{C}(1)=x^1(x^1)^T,\quad \hat{m}(1)=x^1\).
均值向量和協方差矩陣的貝葉斯學習
一般概念
設\(\{x^1, x^2,...,x^N\}\)為\(N\)個用於估計一 未知引數\(\theta\)的密度函式的樣本, \(x^i\)被一個接一個的給出. 在給定了\(x^1, x^2,...,x^N\)後, \(\theta\)的後驗概率密度的迭代表達式為:
\[P(\theta|(x^1, x^2,...,x^N))=\frac{P(x^N|(\theta,x^1,...,x^{N-1}))P(\theta,x^1,...,x^{N-1})}{P(x^1,...,x^N)} \\ =\frac{P(x^N|(\theta,x^1,...,x^{N-1}))P(\theta|(x^1,...,x^{N-1}))P(x^1,...,x^{N-1})}{P(x^N|(x^1, x^2,...,x^{N-1}))P(x^1,...,x^{N-1})} \\ =\frac{P(x^N|(\theta,x^1, x^2,...,x^{N-1}))P(\theta|(x^1, x^2,...,x^{N-1}))}{P(x^N|(x^1, x^2,...,x^{N-1}))} \]對於\(P(\theta|(x^1, x^2,...,x^N))\)而言, \(P(\theta|(x^1, x^2,...,x^{N-1}))\)是它的先驗概率, 當加入新的樣本\(x^N\)後, 得到經過修正的概率密度\(P(\theta|(x^1, x^2,...,x^N))\). 由此一步一步向前推, 則\(P(\theta)\)為最開始的先驗概率密度, 當讀入第一個樣本\(x^1\)時, 經過貝葉斯定理計算得到後驗概率密度\(P(\theta|x^1)\)...以此類推得到最終結果.
這裡需要知道最開始的概率密度函式\(P(\theta)\). 全概率公式如下:
\[P(x^N|(x^1, x^2,...,x^{N-1}))=\int_xP(x^N|(\theta,x^1,...,x^{N-1}))P(\theta|(x^1,...,x^{N-1}))d\theta \]公式的值與未知量\(\theta\)無關, 可認為是一個定值.
單變數正態密度函式的均值學習
設一個模式樣本集, 其類概率密度函式是單變數正態分佈\(N(\theta, \sigma^2)\), 均值\(\theta\)待求, 即:
\[P(x|\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\theta}{\sigma})^2} \]設最初的先驗概率密度為\(P(\theta)=N(\theta_0, \sigma^2_0)\). 因為均值的估計量是樣本的線性函式, 樣本\(x\)是正態分佈的, 所以可以假設\(P(\theta)\)為正態分佈.
初始條件已知, \(P(\theta)=N(\theta_0, \sigma^2_0), P(x^1|\theta)=N(\theta, \sigma^2)\). 由貝葉斯公式\(P(\theta|x^1)=aP(x^1|\theta)P(\theta)\)可知:
\[P(\theta|x^1)=a\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x^1-\theta}{\sigma})^2}\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{1}{2}(\frac{\theta-\theta_0}{\sigma_0})^2} \]其中, \(a\)是一固定值. 由貝葉斯法則有:
\[P(\theta|(x^1,...,x^{N}))=\frac{P((x^1,...,x^N)|\theta)P(\theta)}{\int_{\phi}P((x^1,...,x^N)|\theta)P(\theta)d\theta} \]這裡\(\phi\)表示全體模式空間, 由於每一次迭代是從樣本子集中抽取一個變數, 所以\(N\)次運算是獨立的抽取\(N\)個變數, 因此上式可以寫成:
\[P(\theta|(x^1,...,x^{N}))=a(\Pi_{k=1}^NP(x^k|\theta)P(\theta)) \]代入\(P(x^k|\theta),P(\theta)\)的值, 有:
\[P(\theta|(x^1,...,x^{N}))=a(\Pi_{k=1}^N\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x^k-\theta}{\sigma})^2})\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{1}{2}(\frac{\theta-\theta_0}{\sigma_0})^2}\\ =a^{'}e^{(-\frac{1}{2}(\Sigma_{k=1}^N(\frac{x^k-\theta}{\sigma})^2))+(\frac{\theta-\theta_0}{\sigma_0})^2}\\ =a^{''}e^{-\frac{1}{2}((\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2})\theta^2-2(\frac{1}{\sigma^2}\Sigma_{k=1}^Nx^k+\frac{\theta_0}{\sigma_0^2})\theta)} \]上式每一步中與\(\theta\)無關的項都併入\(a^{'},a^{''}\), 這樣\(P(\theta|(x^1,...,x^{N}))\)仍然是正態密度函式, 將它寫成\(N(\theta_N,\sigma^2_N)\)的形式.
\[P(\theta|(x^1,...,x^{N}))=\frac{1}{\sqrt{2\pi}\sigma_N}e^{-\frac{1}{2}(\frac{\theta-\theta_N}{\sigma_N})^2}\\ =a^{'''}e^{-\frac{1}{2}(\frac{\theta^2}{\sigma^2_N}-2\frac{\theta_N\theta}{\sigma_N^2})} \]比較上面兩式:
\[\frac{1}{\sigma_N^2}=\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}\\ \frac{\theta_N}{\sigma_N^2}=\frac{1}{\sigma^2}\Sigma_{k=1}^{N}x^k+\frac{\theta_0}{\sigma_0^2}=\frac{N}{\sigma^2}\hat{m}_N+\frac{\theta_0}{\sigma_0^2} \]解得:
- \[\theta_N=\frac{N\sigma^2_0}{N\sigma_0^2+\sigma^2}\hat{m}_N+\frac{\sigma^2}{N\sigma_0^2+\sigma^2}\theta_0\\ \sigma_N^2=\frac{\sigma_0^2\sigma^2}{N\sigma^2_0+\sigma^2} \]
根據對訓練樣本集\(x^1,x^2,...,x^N\)的觀察, 求得均值\(\theta\)的後驗概率密度\(P(\theta|x^i)\)為\(N(\theta_N,\sigma_N^2)\). 其中\(\theta_N\)是經過\(N\)個樣本觀察之後對均值的最好估計. \(\sigma_N^2\)是對這個估計的不確定性的度量, 因\(\sigma_N^2\)隨\(N\)的增加而減小, 當\(N\)趨向於無窮時, \(\sigma_N^2\)趨向於\(0\). 由於\(\theta_N\)是\(\hat{m}_N, \theta_0\)的線性組合, 兩者的係數都非負, 且和為\(1\). 因此只要\(\sigma_0\neq 0\), 當\(N\)趨向於無窮時, \(\theta_N\)就趨向於樣本均值的估計量\(\hat{m}_N\).
貝葉斯引數估計
-
確定引數\(\theta\)的先驗分佈\(P(\theta)\).
-
由樣本集\(D=\{x^1,x^2,...,x^N\}\), 求出樣本的聯合分佈\(P(D|\theta)=\Pi_{n=1}^NP(x^n|\theta)\).
-
利用貝葉斯公式, 求\(\theta\)的後驗分佈
- 求出貝葉斯估計值.
相關數學概念
1. 數學期望(均值)和方差
隨機變數\(X\)的數學期望(或稱均值)記作\(E(X)\), 它描述了隨機變數的取值中心. 隨機變數\((X-E(X))^2\)的數學期望稱為\(X\)的方差, 記作\(\sigma^2\), 而\(\sigma\)稱為\(X\)的標準差(均方差). 它們描述了隨機變數的可能取值與均值的偏差的疏密程度.
若\(X\)是連續性隨機變數, 其分佈密度為\(p(x)\), 當積分絕對收斂時:
\[m=E(x) = \int_{-\infty}^{\infty}xp(x)dx\\ \sigma^2=E[(X-m)^2]=\int_{-\infty}^{\infty}(x-m)^2p(x)dx \]若\(X\)是離散型隨機變數, 其可能取值為\(x_k(k=1,2,...)\)且\(P(X=x_k)=p_k\), 當級數絕對收斂時:
\[m = E(X)=\Sigma_{k=1}^{\infty}x_kp_k\\ D(X) = \Sigma_{k=1}^{\infty}(x_k-m)^2p_k \]2. 一維正態密度函式
一維隨機變數\(X\)的正態密度函式表示為:
\[p(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x-m)^2}{2\sigma^2}} \]其中, 均值\(m\)為:
\[E(x) = \int_{-\infty}^{\infty}xp(x)dx \]方差\(\sigma^2\)為:
\[\sigma^2=E[(X-m)^2]=\int_{-\infty}^{\infty}(x-m)^2p(x)dx \]在\(m\)左右\(k\sigma\)的範圍內的概率為:
\[p\{m-k\sigma\leq x\leq m+k\sigma\} = \int_{m-k\sigma}^{m+k\sigma}\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}(\frac{x-m}{\sigma})^2}dx=\frac{1}{\sqrt{2\pi}}\int_{-k}^{k}e^{-\frac{y^2}{2}}dy \]其中, \(y=\frac{(x-m)}{\sigma}\). 此時\(p, k\)的關係為:
\[p\{m-k\sigma\leq x\leq m+k\sigma\} = \left\{\begin{matrix}0.683\qquad k=1\\ 0.954\qquad k=2\\0.997\qquad k=3\end{matrix}\right. \]因此, 在區間\(\abs{x-m}\leq3\sigma\)內, 幾乎包含了所有由正態樣本取樣的例子. 因此可用如下表示:
\[p(x)\approx N(m, \sigma^2) \]3. 協方差矩陣
協方差矩陣說明隨機向量\(X\)的各分量的分散情況, 定義為:
\[C=E\{(X-m)(X-m)^T\}=E\{\left(\begin{matrix}(x_1-m_1)\\.\\.\\.\\(x_n-m_n)\end{matrix}\right)((x_1-m_1),...,(x_n-m_n))\}\\=\left(\begin{matrix}E((x_1-m_1)(x_1-m_1))&.&.&.&E((x_1-m_1)(x_n-m_n))\\.&.&.&.&.\\.&.&.&.&.\\.&.&.&.&.\\E((x_n-m_n)(x_1-m_1))&.&.&.&E((x_n-m_n)(x_n-m_n))\end{matrix}\right)=\left(\begin{matrix}\lambda_{11}&.&.&.&\lambda_{1n}\\.&.&.&.&.\\ .&.&.&.&.\\.&.&.&.&.\\\lambda_{n1}&.&.&.&\lambda_{nn}\end{matrix}\right) \]其中, 協方差矩陣的各分量為:
\[\lambda_{ij}=E((x_i-m_i)(x_j-m_j)) \]當\(i\neq j\)時, 則\(\lambda_{ij}\)為\(X\)的第\(i\)個分量與第\(j\)個分量的協方差.
當\(i=j\)時, 則\(\lambda_{ij}\)是隨機變數\(x_i\)的方差.
4. 多維正態密度函式
\(n\)維隨機變數向量的正態密度函式表示為:
\[p(x)=\frac{1}{(\sqrt{2\pi})^{\frac{n}{2}}\abs{C}^{\frac{1}{2}}}e^{-\frac{(x-m)^TC^{-1}(x-m)}{2}} \]其中:
\[x = \left( \begin{matrix} x_1 \\ . \\ . \\ . \\ x_n \end{matrix}\right), \qquad m = \left( \begin{matrix} m_1 \\ . \\ . \\ . \\ m_n \end{matrix}\right), \qquad C = \left( \begin{matrix} \sigma_{11}^2 &.&.&.&\sigma_{1n}^2\\ . &.&.&.&.\\ . &.&.&.&. \\ . &.&.&.&. \\ \sigma_{n1}^2 &.&.&.& \sigma_{nn}^2\end{matrix}\right) \]\(|C|\)為協方差矩陣\(C\)的行列式.
多維正態密度函式由其均值\(m\)和協方差矩陣\(C\)確定, 因此可用下式表示:
\[p(x) \approx N(m, C) \]