模式識別與機器學習上課內容 I

阿新 • • 發佈：2021-12-09

打算總結一下之前學習的內容, 說是總結, 也是複習, 也是預習. 所以會不定期更新文件.

統計判別

統計是什麼?

當你買了一臺電腦時, 被告知三年內可以免費保修. 你想過廠家憑什麼這樣說嗎? 說多了, 廠家損失; 說少了, 失去競爭也是損失.

統計學是用以收集資料, 分析資料和由資料得出結論的一組概念, 原則和方法.

模式識別的目的就是要確定某一個給定的模式樣本屬於哪一類.

但在現實世界中, 有許多客觀現象的發生, 就每一次觀察和測量來說, 即使在基本條件保持不變的情況下也具有不確定性. 只有在大量重複的觀察下, 其結果才能呈現出某種規律性, 即對它們觀察到的特徵具有統計特性. 特徵的值不再是一個確定的向量, 而是一個隨機向量. 此時, 只能利用模式集的統計特性來分類, 以使分類器發生錯誤的概率最小.

統計判別問題的模式分類

給定觀測值\(x\), 判斷其屬於\(\omega_1\)類還是\(\omega_2\)類, 做出某次判斷時的錯誤率為:

\[P(error|x) = \left\{\begin{matrix}P(\omega_1|x),x\in\omega_2\\P(\omega_2|x),x\in\omega_1 \end{matrix}\right. \]

最小化誤差的概率條件下, 決策規則為 \(P(\omega_1|x)>P(\omega_2|x)\), 則判斷 \(x\in \omega_1\), 否則判斷 \(x\in \omega_2\).

貝葉斯判別

由貝葉斯定理, 後驗概率\(P(\omega_i|x)\)

可由類別\(\omega_i\)的先驗概率\(P(\omega_i)\)和\(x\)的條件概率密度\(P(x|\omega_i)\)來計算,即:

\[P(\omega_i|x)=\frac{P(x|\omega_i)P(\omega_i)}{P(x)}=\frac{P(x|\omega_i)P(\omega_i)}{\Sigma_{i=1}^{2}P(x|\omega_i)P(\omega_i)} \]

這裡, \(P(x|\omega_i)\)也稱為似然函式(likelihood function). 將該式代入上述判別式, 有:

若\(P(x|\omega_1)P(\omega_1) > P(x|\omega_2)P(\omega_2)\)

, 則\(x \in \omega_1\),

若\(P(x|\omega_1)P(\omega_1) < P(x|\omega_2)P(\omega_2)\), 則\(x \in \omega_2\).

或者: 若\(l_{12} =\frac{P(x|\omega_1)}{P(x|\omega_2)}>\frac{P(\omega_2)}{P(\omega_1)}\), 則\(x \in \omega_1\). 若\(l_{12} =\frac{P(x|\omega_1)}{P(x|\omega_2)}<\frac{P(\omega_2)}{P(\omega_1)}\), 則\(x \in \omega_2\).

其中, \(l_{12}\)稱為似然比, \(P(\omega_2)/P(\omega_1) = \theta_{21}\)稱為似然比的判決閾值, 此判別稱為貝葉斯判別.

將貝葉斯判別進行推廣:

允許使用多於一個特徵.
允許多於兩種類別狀態的情形.
允許有其他行為而不僅僅是判定類別: 如後驗概率接近的情況下, 如果因此付出的代價不大的話, 拒絕做判決.
通過引入一個更一般的損失函式來代替誤差概率.

樸素貝葉斯

在特徵\(x=(x_1, x_2, ..., x_D)\)是多維向量時, 樸素貝葉斯演算法是假設各個特徵之間相互獨立.

\[P(x_1, x_2, ..., x_D|\omega)=\Pi_{i=1}^{D}P(x_i|\omega) \]

貝葉斯最小風險判別

對於來自\(\omega_i\)類的模式\(x\)來說, 它來自\(\omega_i\)的概率應該為\(P(\omega_i|x)\).
如果分類器判斷\(x\)屬於\(\omega_j\)類, 但是它實際上是來自\(\omega_i\)類. 這時, \(L_{ij}\)為失分, 對應的條件風險為後驗概率進行\(L_{ij}\)的加權運算.
由於\(x\)可能來自於\(M\)中的任意一類, 因此可將觀察樣本指定為\(\omega_j\)類的條件平均風險用\(r_j(x)\)的公式運算.

當考慮到對於某一類的錯誤判決要比對另一類的判決更加關鍵時, 就需要把最小錯誤概率的貝葉斯判別做一些修正, 提出條件平均風險\(r_j(x)\).

\(M\)類分類問題的條件平均風險\(r_j(x)\)

對\(M\)類問題, 如果觀察樣本被判定屬於\(\omega_j\)類, 則條件平均風險為:\(r_j=\Sigma_{i=1}^{M}L_{ij}P(\omega_i|x)\).

\(L_{ij}\)稱為將來自\(\omega_i\)類的模式判斷為來自\(\omega_j\)類的是非代價.

當\(i=j\)時, \(L_{ij}\)可以取負值或零, 表示不失分, 判斷正確. 當\(i\neq j\)時, 判斷錯誤, \(L_{ij}\)一般取正值.

最小平均條件風險分類器

分類器對每一個模式\(x\)都有\(M\)種可能的選擇.

若對每一\(x\)計算出所有類別的平均風險值\(r_1(x), r_2(x), ..., r_M(x)\), 並且將\(x\)指定為具有最小風險值的那一類, 則這種分類器稱為最小平均條件風險分類器. 按照貝葉斯公式, 其表示式可表示為:

\[r_j=\frac{\Sigma_{i=1}^{M}L_{ij}P(x|\omega_i)P(\omega_i)}{P(x)} \]

因為 \(\frac{1}{P(x)}\)為公共項, 因此可以省略. 上式可以簡化為:

\[r_j=\Sigma_{i=1}^{M}L_{ij}P(x|\omega_i)P(\omega_i) \]

這也是一個貝葉斯分類器, 只是它的判別方法不是按照錯誤概率最小作為標準, 而是按照平均條件風險作為標準.

\(M=2\)時的貝葉斯最小風險判別

當分類器將\(x\)判別為\(\omega_1\)時, 平均風險可以寫為:
\[r_1(x)=L_{11}P(x|\omega_1)P(\omega_1)+L_{21}P(x|\omega_2)P(\omega_2). \]
當分類器將\(x\)判別為\(\omega_2\)時, 平均風險可以寫為:
\[r_2(x)=L_{12}P(x|\omega_1)P(\omega_1)+L_{22}P(x|\omega_2)P(\omega_2). \]
若\(r_1(x)<r_2(x)\), 則\(x\)被判斷為屬於\(\omega_1\), 此時:
\[L_{11}P(x|\omega_1)P(\omega_1)+L_{21}P(x|\omega_2)P(\omega_2)<L_{12}P(x|\omega_1)P(\omega_1)+L_{22}P(x|\omega_2)P(\omega_2) \]
即
\[(L_{21}-L_{22})P(x|\omega_2)P(\omega_2) < (L_{12}-L_{11})P(x|\omega_1)P(\omega_1). \]
通常取\(L_{ij}>L_{ii}\), 有:
\[l_{12}=\frac{P(x|\omega_1)}{P(x|\omega_2)}>\frac{P(\omega_2)}{P(\omega_1)}\bullet \frac{L_{21}-L_{22}}{L_{12}-L_{11}}=\theta_{21} \]
該不等式左邊為似然比, 右邊為閾值. 故兩類模式的貝葉斯判別條件為:

若\(l_{12}>\theta_{21}\), 則\(x\in \omega_1\).

若\(l_{12}<\theta_{21}\), 則\(x\in \omega_2\).

若\(l_{12}=\theta_{21}\), 則可做任意判別.

多類(\(M\)類)情況的貝葉斯最小風險判別

對於\(M\)類情況, 若\(r_i(x)<r_j(x) (j\in M, j\neq i)\), 則\(x \in \omega_i\). \(L_{ij}\)可在\(i=j\)時取\(1\), \(i\neq j\)時取\(0\).

則條件平均風險可寫為:
\[r_j=\Sigma_{i=1}^{M}L_{ij}P(x|\omega_i)P(\omega_i)=L_{1j}P(x|\omega_1)P(\omega_1)+...+L_{jj}P(x|\omega_j)P(\omega_j)+...+L_{Mj}P(x|\omega_M)P(\omega_M)\\ =\Sigma_{i=1}^MP(x|\omega_i)P(\omega_i)-P(x|\omega_j)P(\omega_j)=P(x)-P(x|\omega_j)P(\omega_j) \]
由\(r_i(x)<r_j(x)\), 有當\(P(x|\omega_i)P(\omega_i) > P(x|\omega_j)P(\omega_j)\)時, \(x \in \omega_i\).

正態分佈模式的貝葉斯分類器

當已知或者有理由假設類概率密度函式是多變數的正態分佈時, 上面介紹的貝葉斯分類器可以匯出一些簡單的判別函式.

\(M\)種模式類別的多變數正態類密度函式為:

\[P(x|\omega_i)=\frac{1}{(2\pi)^{\frac{n}{2}}|C_i|^{\frac{1}{2}}}e^{-\frac{1}{2}(x-m_i)^TC_i^{-1}(x-m_i)},i\in M \]

其中:

\[m_i= E_i(x)\\ C_i=E_i((x-m_i)(x-m_i)^T) \]

已知類別\(\omega_i\)的判別函式可寫成如下形式:

\[d_i(x)=P(x|\omega_i)P(\omega_i)\quad i\in M \]

對於正態密度函式, 可取對數的形式方便計算, 則有:

\[d_i(x)=lnP(x|\omega_i)+lnP(\omega_i)\quad i\in M \]

代入正態類密度函式這有:

\[d_i(x)=lnP(\omega_i)-\frac{n}{2}ln(2\pi)-\frac{1}{2}ln|C_i|-\frac{1}{2}(x-m_i)C_i^{-1}(x-m_i)\quad i\in M \]

去掉與\(i\)無關的項則有:

\[d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C_i|-\frac{1}{2}(x-m_i)C_i^{-1}(x-m_i)\quad i\in M \]

即為正態分佈模式的貝葉斯判別函式, 是一個二次曲面.

兩類問題且類模式都是正態分佈

當\(C_1\neq C_2\)時, \(\omega_1,\omega_2\)對應的判別函式為:

\[d_1(x)=lnP(\omega_1)-\frac{1}{2}ln|C_1|-\frac{1}{2}(x-m_1)C_1^{-1}(x-m_1)\\ d_2(x)=lnP(\omega_2)-\frac{1}{2}ln|C_2|-\frac{1}{2}(x-m_2)C_2^{-1}(x-m_2)\\ d_1(x)-d_2(x)=\left\{\begin{matrix}>0\quad x\in \omega_1\\ <0\quad x\in\omega_2 \end{matrix}\right. \]

當\(C_1=C_2=C\)時, 有:

\[d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C|-\frac{1}{2}x^TC^{-1}x+\frac{1}{2}x^TC^{-1}m_i+\frac{1}{2}m_i^TC^{-1}x-\frac{1}{2}m_i^TC^{-1}m_i\quad i=1,2 \]

因為\(C\)為對稱矩陣, 上式可以簡化為:

\[d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C|-\frac{1}{2}x^TC^{-1}x+m_i^TC^{-1}x-\frac{1}{2}m_i^TC^{-1}m_i\quad i=1,2 \]

由此可以匯出\(\omega_1,\omega_2\)的判別介面為:

\[d_1(x)-d_2(x)=lnP(\omega_1)-lnP(\omega_2)+(m_1-m_2)^TC^{-1}x-\frac{1}{2}m_1^TC^{-1}m_1+\frac{1}{2}m_2^TC^{-1}m_2=0. \]

貝葉斯分類規則是基於統計概念的, 如果只有少量的模式樣本, 一般較難獲得最優的結果.

均值向量和協方差矩陣的引數估計

在貝葉斯分類器中, 構造分類器需要知道類的概率密度函式\(P(x|\omega_i)\). 如果按先驗知識已知其分佈, 則只需要知道分佈的引數即可.

對均值向量和協方差矩陣的估計為貝葉斯分類器中的一種引數估計問題. 引數估計一共有兩種方式, 第一種是將引數作為非隨機變數來處理, 例如矩估計. 另一種是隨機引數估計, 把這些引數看成是隨機變數, 例如貝葉斯引數估計.

均值和協方差矩陣的估計量定義

設模式的類概率密度函式為\(P(x)\), 其均值向量定義為\(m=E(x)=\int_xxP(x)dx\). 其中樣本\(x\)和均值向量\(m\)為\(n\)維向量, 即\(x=(x_1,x_2,...,x_n)^T, m=(m_1,m_2,...,m_n)^T\). 若以樣本的均值作為均值向量的近似值, 則均值估計量\(\hat{m}=\frac{1}{N}\Sigma_{j=1}^{N}x^j\).

協方差矩陣為:

\[C=\left( \begin{matrix} c_{11} &.&.&.&c_{1n}\\ . &.&.&.&.\\ . &.&.&.&. \\ . &.&.&.&. \\ c_{n1} &.&.&.& c_{nn}\end{matrix}\right) \]

其中每個元素\(c_{lk}\)定義為:

\[c_{lk}=E((x_l-m_l)(x_k-m_k))=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x_l-m_l)(x_k-m_k)P(x_l,x_k)dx_ldx_k \]

協方差矩陣寫成向量形式為:

\[C=E((x-m)(x-m)^T)=E(xx^T)-mm^T \]

協方差矩陣的估計量為:

\[\hat{C}\approx\frac{1}{N}(x^j-\hat{m})(x^j-\hat{m})^T \]

由於\(\hat{m}\)並不是真實的均值向量, 所以會有偏差.

假設現在已經計算了\(N\)個樣本的均值估計量, 若再加上一個樣本, 其新的均值估計量為:

\[\frac{1}{N+1}\Sigma_{j=1}^{N+1}x^j=\frac{1}{N+1}(\Sigma_{j=1}^{N}x^j+x^{N+1})=\frac{1}{N+1}(N\hat{m}+x^{N+1}) \]

協方差矩陣估計量的迭代運算與上述類似, 取\(\hat{C}(N)\)表示\(N\)個樣本時的估計量為:

\[\hat{C}(N)=\frac{1}{N}\Sigma_{j=1}^{N}x^j(x^j)^T-\hat{m}\hat{m}^T \]

加入一個新的樣本:

\[\hat{C}(N+1)=\frac{1}{N+1}\Sigma_{j=1}^{N+1}x^j(x^j)^T-\hat{m}(N+1)\hat{m}^T(N+1)\\ =\frac{1}{N+1}(\Sigma_{j=1}^Nx^j(x^j)^T+x^{N+1}(x^{N+1})^T)-\hat{m}(N+1)\hat{m}^T(N+1)\\ =\frac{1}{N+1}(N\hat{C}(N)+N\hat{m}(N)\hat{m}^T(N)+x^{N+1}(x^{N+1})^T)-\frac{1}{(N+1)^2}(N\hat{m}(N)+x^{N+1})(N\hat{m}(N)+x^{N+1})^T \]

其中, \(\hat{C}(1)=x^1(x^1)^T,\quad \hat{m}(1)=x^1\).

均值向量和協方差矩陣的貝葉斯學習

一般概念

設\(\{x^1, x^2,...,x^N\}\)為\(N\)個用於估計一未知引數\(\theta\)的密度函式的樣本, \(x^i\)被一個接一個的給出. 在給定了\(x^1, x^2,...,x^N\)後, \(\theta\)的後驗概率密度的迭代表達式為:

\[P(\theta|(x^1, x^2,...,x^N))=\frac{P(x^N|(\theta,x^1,...,x^{N-1}))P(\theta,x^1,...,x^{N-1})}{P(x^1,...,x^N)} \\ =\frac{P(x^N|(\theta,x^1,...,x^{N-1}))P(\theta|(x^1,...,x^{N-1}))P(x^1,...,x^{N-1})}{P(x^N|(x^1, x^2,...,x^{N-1}))P(x^1,...,x^{N-1})} \\ =\frac{P(x^N|(\theta,x^1, x^2,...,x^{N-1}))P(\theta|(x^1, x^2,...,x^{N-1}))}{P(x^N|(x^1, x^2,...,x^{N-1}))} \]

對於\(P(\theta|(x^1, x^2,...,x^N))\)而言, \(P(\theta|(x^1, x^2,...,x^{N-1}))\)是它的先驗概率, 當加入新的樣本\(x^N\)後, 得到經過修正的概率密度\(P(\theta|(x^1, x^2,...,x^N))\). 由此一步一步向前推, 則\(P(\theta)\)為最開始的先驗概率密度, 當讀入第一個樣本\(x^1\)時, 經過貝葉斯定理計算得到後驗概率密度\(P(\theta|x^1)\)...以此類推得到最終結果.

這裡需要知道最開始的概率密度函式\(P(\theta)\). 全概率公式如下:

\[P(x^N|(x^1, x^2,...,x^{N-1}))=\int_xP(x^N|(\theta,x^1,...,x^{N-1}))P(\theta|(x^1,...,x^{N-1}))d\theta \]

公式的值與未知量\(\theta\)無關, 可認為是一個定值.

單變數正態密度函式的均值學習

設一個模式樣本集, 其類概率密度函式是單變數正態分佈\(N(\theta, \sigma^2)\), 均值\(\theta\)待求, 即:

\[P(x|\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\theta}{\sigma})^2} \]

設最初的先驗概率密度為\(P(\theta)=N(\theta_0, \sigma^2_0)\). 因為均值的估計量是樣本的線性函式, 樣本\(x\)是正態分佈的, 所以可以假設\(P(\theta)\)為正態分佈.

初始條件已知, \(P(\theta)=N(\theta_0, \sigma^2_0), P(x^1|\theta)=N(\theta, \sigma^2)\). 由貝葉斯公式\(P(\theta|x^1)=aP(x^1|\theta)P(\theta)\)可知:

\[P(\theta|x^1)=a\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x^1-\theta}{\sigma})^2}\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{1}{2}(\frac{\theta-\theta_0}{\sigma_0})^2} \]

其中, \(a\)是一固定值. 由貝葉斯法則有:

\[P(\theta|(x^1,...,x^{N}))=\frac{P((x^1,...,x^N)|\theta)P(\theta)}{\int_{\phi}P((x^1,...,x^N)|\theta)P(\theta)d\theta} \]

這裡\(\phi\)表示全體模式空間, 由於每一次迭代是從樣本子集中抽取一個變數, 所以\(N\)次運算是獨立的抽取\(N\)個變數, 因此上式可以寫成:

\[P(\theta|(x^1,...,x^{N}))=a(\Pi_{k=1}^NP(x^k|\theta)P(\theta)) \]

代入\(P(x^k|\theta),P(\theta)\)的值, 有:

\[P(\theta|(x^1,...,x^{N}))=a(\Pi_{k=1}^N\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x^k-\theta}{\sigma})^2})\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{1}{2}(\frac{\theta-\theta_0}{\sigma_0})^2}\\ =a^{'}e^{(-\frac{1}{2}(\Sigma_{k=1}^N(\frac{x^k-\theta}{\sigma})^2))+(\frac{\theta-\theta_0}{\sigma_0})^2}\\ =a^{''}e^{-\frac{1}{2}((\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2})\theta^2-2(\frac{1}{\sigma^2}\Sigma_{k=1}^Nx^k+\frac{\theta_0}{\sigma_0^2})\theta)} \]

上式每一步中與\(\theta\)無關的項都併入\(a^{'},a^{''}\), 這樣\(P(\theta|(x^1,...,x^{N}))\)仍然是正態密度函式, 將它寫成\(N(\theta_N,\sigma^2_N)\)的形式.

\[P(\theta|(x^1,...,x^{N}))=\frac{1}{\sqrt{2\pi}\sigma_N}e^{-\frac{1}{2}(\frac{\theta-\theta_N}{\sigma_N})^2}\\ =a^{'''}e^{-\frac{1}{2}(\frac{\theta^2}{\sigma^2_N}-2\frac{\theta_N\theta}{\sigma_N^2})} \]

比較上面兩式:

\[\frac{1}{\sigma_N^2}=\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}\\ \frac{\theta_N}{\sigma_N^2}=\frac{1}{\sigma^2}\Sigma_{k=1}^{N}x^k+\frac{\theta_0}{\sigma_0^2}=\frac{N}{\sigma^2}\hat{m}_N+\frac{\theta_0}{\sigma_0^2} \]

解得:

\[\theta_N=\frac{N\sigma^2_0}{N\sigma_0^2+\sigma^2}\hat{m}_N+\frac{\sigma^2}{N\sigma_0^2+\sigma^2}\theta_0\\ \sigma_N^2=\frac{\sigma_0^2\sigma^2}{N\sigma^2_0+\sigma^2} \]

根據對訓練樣本集\(x^1,x^2,...,x^N\)的觀察, 求得均值\(\theta\)的後驗概率密度\(P(\theta|x^i)\)為\(N(\theta_N,\sigma_N^2)\). 其中\(\theta_N\)是經過\(N\)個樣本觀察之後對均值的最好估計. \(\sigma_N^2\)是對這個估計的不確定性的度量, 因\(\sigma_N^2\)隨\(N\)的增加而減小, 當\(N\)趨向於無窮時, \(\sigma_N^2\)趨向於\(0\). 由於\(\theta_N\)是\(\hat{m}_N, \theta_0\)的線性組合, 兩者的係數都非負, 且和為\(1\). 因此只要\(\sigma_0\neq 0\), 當\(N\)趨向於無窮時, \(\theta_N\)就趨向於樣本均值的估計量\(\hat{m}_N\).

貝葉斯引數估計

確定引數\(\theta\)的先驗分佈\(P(\theta)\).
由樣本集\(D=\{x^1,x^2,...,x^N\}\), 求出樣本的聯合分佈\(P(D|\theta)=\Pi_{n=1}^NP(x^n|\theta)\).
利用貝葉斯公式, 求\(\theta\)的後驗分佈

\[P(\theta|D)=\frac{P(D|\theta)P(\theta)}{\int_\theta P(D|\theta)P(\theta)d\theta} \]

求出貝葉斯估計值.

模式識別與機器學習上課內容 I

統計判別

統計判別問題的模式分類

貝葉斯判別

樸素貝葉斯

貝葉斯最小風險判別

正態分佈模式的貝葉斯分類器

均值向量和協方差矩陣的引數估計

均值和協方差矩陣的估計量定義

均值向量和協方差矩陣的貝葉斯學習

一般概念

單變數正態密度函式的均值學習

貝葉斯引數估計

相關數學概念

1. 數學期望(均值)和方差

2. 一維正態密度函式

3. 協方差矩陣

4. 多維正態密度函式

模式識別與機器學習上課內容 I

意圖識別與機器學習

人工智慧與機器學習----基於SVM實現微笑識別

工業人工智慧與機器學習_機器學習與第四次工業革命

PCA降維：簡易人臉識別模型機器學習

深度學習與機器學習的區別

scikit基礎與機器學習入門（1）背景介紹

scikit基礎與機器學習入門（4） sklearn模組資料集的使用——自帶資料集和自定義資料集

scikit基礎與機器學習入門（3）機器學習任務的一般流程——以鳶尾花分類為例

scikit基礎與機器學習入門（5）歸一化，標準化和正則化，二值化

scikit基礎與機器學習入門（7）特徵的選擇

scikit基礎與機器學習入門（6）編碼，增加多項式特徵和缺失值處理

scikit基礎與機器學習入門（9）Pipeline和FeatureUnion的構建——構築有條理的機器學習系統

scikit基礎與機器學習入門（8） sklearn主要解決的三類問題——分類，迴歸和聚類

scikit基礎與機器學習入門（11）欠擬合，過擬合和交叉驗證

scikit基礎與機器學習入門（10）模型的評估

虛擬機器配置Hadoop 叢集教程（參考Hadoop+Spark 大資料巨量分析與機器學習）

偏微分方程(PDE)的初步認識與機器學習

深度學習與CV教程(2) | 影象分類與機器學習基礎

人工智慧與機器學習

模式識別與機器學習 上課內容 I

統計判別

統計判別問題的模式分類

貝葉斯判別

樸素貝葉斯

貝葉斯最小風險判別

正態分佈模式的貝葉斯分類器

均值向量和協方差矩陣的引數估計

均值和協方差矩陣的估計量定義

均值向量和協方差矩陣的貝葉斯學習

一般概念

單變數正態密度函式的均值學習

貝葉斯引數估計

相關數學概念

1. 數學期望(均值)和方差

2. 一維正態密度函式

3. 協方差矩陣

4. 多維正態密度函式

相關推薦

模式識別與機器學習上課內容 I