1. 程式人生 > 實用技巧 >PRML-分類器設計準則、模式相似性測度、貝葉斯決策

PRML-分類器設計準則、模式相似性測度、貝葉斯決策

PRML

課題組彙報

Topic:《模式識別與機器學習》課程基礎內容

文件內容有很多是我自己理解寫的,若有錯誤感謝各位先行者批評指出。

分類器設計準則

模式識別問題就是根據 X X X 的 n 個特徵來判別模式 X X X 屬於 w 1 , w 2 , . . . , w M w_{1}, w_{2}, ..., w_{M} w1,w2,...,wM 中的哪一類。

更細節的說。

模式識別演算法的設計都是強調“最佳”和“最優”的,也就是希望演算法的效能表現最優,這種最優是指對某一種設計原則講的,常用的準則有:最小錯誤率準則、最小風險準則、近鄰準則、Fisher 準則、均方誤差最小準則、感知準則等。

設計準則,並使該準則達到最優,這就是模式識別系統最基本的方法。分類器使用什麼準則會影響到分類器的效果。不同的決策準則反映了分類器設計者不同的考慮與權衡。

本次彙報會有最小錯誤率準則和最小風險準則。

下面是我對其它幾個準則的概念上的瞭解。

  • 近鄰準則:同類物體具有相似的性質,它們在特徵空間中會有聚類的現象。例如,對於一個未知樣品,先求出它到各已知類的平均距離(相似性測度),判斷離誰近就屬於誰。

  • Fisher 準則:根據兩類樣品一般類內密集、類間分離的特點,尋找線性分類器最佳的法線向量方向,使兩類樣品在該方向上的投影滿足類內儘可能密集、類間儘可能的分開。如何找到這個最好的直線方向,以及如何實現向最好方向投影變換,這就是 Fisher 演算法解決的問題。

在這裡插入圖片描述

  • 感知準則:以使錯分類樣品到分介面距離之和最小為準則。利用錯誤提供資訊實現迭代修正的學習原理,即利用錯分類提供的資訊修正錯誤。(機器學習)

模式相似性測度

判斷樣品之間的相似性常採用近鄰準則,即將待分類樣品與標準模版進行比較,看跟哪個模版匹配程度更好一些,從而確定待測試樣品的分類。

計算模式相似性測度有:歐式距離、馬氏距離、夾角餘弦距離等多種距離演算法。

  • 馬氏距離的特點:
    • 量綱無關,排除變數之間的相關性的干擾;
    • 馬氏距離的計算是建立在總體樣本的基礎上的,如果拿同樣的兩個樣本,放入兩個不同的總體中,最後計算得出的兩個樣本間的馬氏距離通常是不相同的,除非這兩個總體的協方差矩陣碰巧相同;

馬式距離的推導我放到主成分分析(PCA)那裡。

在這裡插入圖片描述

歐式距離和馬氏距離計算例項。

判別函式

設計判別函式的形式主要有兩種方法:基於概率統計的分類法(貝葉斯決策)和幾何法。

基於概率統計的分類器主要有:基於最小錯誤率的貝葉斯決策、基於最小風險的貝葉斯決策。(後面單獨說這兩個)

無論是應用概率統計的分類法還是應用幾何分類法,最終都轉換為判別函式形式。

判別函式分類法

由於一個模式通過某種變化對映為一個特徵向量後,該特徵向量可以理解為特徵空間的一個點,在特徵空間中,屬於一個類的點集,在某種程度上與屬於另一類的點集相分離,各個類之間確定可分的。因此如果找到一個判別函式(線性或非線性函式),把不同類的點集分開,則分類任務就完成了。

判別分類器不依賴於條件概率密度的知識,可以理解為通過幾何的方法,把特徵空間分解為對應於不同類別的子空間。線性的判別函式可以使計算簡化。判別函式可以分為線性判別函式和非線性判別函式。

1、基於二維特徵兩類分類問題的線性判別函式形式

對於簡單兩類的情況,將 X X X 進行分類。假定判別函式 $$x 是 X X X 的線性函式: d ( X ) = W T X + W 0 ​ d(X) = W^{T}X + W_{0}​ d(X)=WTX+W0

在這裡插入圖片描述

在二維模式空間中存在一線性判別函式:

d ( X ) = w 1 x 1 + w 2 x 2 + w 3 = 0 d(X) = w_{1}x_{1} + w_{2}x_{2} + w_{3} = 0 d(X)=w1x1+w2x2+w3=0

2、基於 n 維特徵兩類分類問題的線性判別函式形式

X = ( x 1 , x 2 , . . . , x n ) n X = (x_{1}, x_{2}, ..., x_{n})^{n} X=(x1,x2,...,xn)n 來表示模式,一般的線性判別函式形式為:

d ( X ) = w 1 x 1 + w 2 x 2 + . . . + w n x n + w n + 1 = W 0 T X + w n + 1 d(X)=w_{1}x_{1}+w_{2}x_{2}+ ... + w_{n}x_{n} + w_{n+1} = W^{T}_{0}X + w_{n+1} d(X)=w1x1+w2x2+...+wnxn+wn+1=W0TX+wn+1

式中 W 0 = ( w 1 , w 2 , w 3 , . . . , w n ) T W_{0} = (w_{1}, w_{2}, w_{3}, ..., w_{n})^{T} W0=(w1,w2,w3,...,wn)T 稱為權/引數。如果在所有輸入 X X X 的最末元素後再附加元素 1(增廣,回憶後面感知機迭代的例子),則:

d ( X ) = W T X d(X) = W^{T}X d(X)=WTX

W = ( w 1 , w 2 , . . . , w n , w n + 1 ) W = (w_{1}, w_{2}, ..., w_{n}, w_{n+1}) W=(w1,w2,...,wn,wn+1)

3、基於 n 維特徵多類分類問題的線性判別函式形式

多類別問題,假設有 M 類 w 1 , w 2 , . . . w M w_{1}, w_{2}, ... w_{M} w1,w2,...wM,對於 n 維空間中的 M 個類別,就要給出 M 個判別函式: d 1 ( X ) , d 2 ( X ) , . . . , d M ( X ) d_{1}(X), d_{2}(X), ..., d_{M}(X) d1(X),d2(X),...,dM(X) 。如果 X X X 屬於第 i i i 類,則有:

d i ( X ) > d j ( X ) j = 1 , 2 , . . . , M , i ≠ j d_{i}(X) > d_{j}(X) \qquad j = 1, 2, ..., M, i \neq j di(X)>dj(X)j=1,2,...,M,i=j

在這裡插入圖片描述

對於線性情況,判別函式為:

d ( X ) = w 1 x 1 + w 2 x 2 + . . . + w n x n + w n + 1 = W 0 T X + w n + 1 = W T X d(X) = w_{1}x_{1} + w_{2}x_{2} + ... + w_{n}x_{n} + w_{n+1} = W^{T}_{0}X + w_{n+1} = W^{T}X d(X)=w1x1+w2x2+...+wnxn+wn+1=W0TX+wn+1=WTX

其中: X = ( x 1 , x 2 , . . . , x n , 1 ) X = (x_{1}, x_{2}, ..., x_{n}, 1) X=(x1,x2,...,xn,1) W = ( w 1 , w 2 , . . . , w n + 1 ) T W = (w_{1}, w_{2}, ..., w_{n+1})^{T} W=(w1,w2,...,wn+1)T

對於非線性情況,判別函式為:

d ( X ) = w 1 f 1 ( x ) + w 2 f 2 ( x ) + . . . + w n f n ( x ) + w n + 1 d(X) = w_{1}f_{1}(x) + w_{2}f_{2}(x) +...+w_{n}f_{n}(x) + w_{n+1} d(X)=w1f1(x)+w2f2(x)+...+wnfn(x)+wn+1

f ( x ) f(x) f(x) 就是深度學習中的啟用函式(Activation Function)。

貝葉斯決策

貝葉斯決策所討論的問題

分類器引數的選擇或者學習過程得到的結果取決於設計者選擇什麼樣的準則函式,不同的準則函式的最優解對應不同的學習結果,得到效能不同的分類器。當待分類樣本出現模凌兩可的情況時,任何決策都存在判錯的可能性。

錯分類難以避免,這種可能性可以使用 P ( w i ∣ X ) P(w_{i}|X) P(wiX) 來表示。如何做出合理的判決就是貝葉斯決策所討論的問題。

貝葉斯公式

已知共有 M M M 樣本,各類別 w i , i = 1 , 2 , . . . , M w_{i}, i = 1, 2, ..., M wi,i=1,2,...,M 的先驗概率 P ( w i ) P(w_{i}) P(wi) 以及類條件概率密度函式 P ( X ∣ w i ) P(X|w_{i}) P(Xwi) ,對於給定的待分類樣本,貝葉斯公式可以計算出該樣本分屬各類別的概率。即將後驗概率作為識別物件歸屬的依據。

P ( w i ∣ X ) = P ( X ∣ w i ) P ( w i ) ∑ j = 1 M P ( X ∣ w i ) P ( w i ) P(w_{i}|X)=\frac{P(X|w_{i})P(w_{i})}{\sum^{M}_{j=1}P(X|w_{i})P(w_{i})} P(wiX)=j=1MP(Xwi)P(wi)P(Xwi)P(wi)

類別的狀態是一個隨機變數,而某種狀態出現的概率是可以估計的。貝葉斯公式體現了先驗概率、類條件概率密度函式、後驗概率三者的關係。

  • 先驗概率 P ( w i ) P(w_{i}) P(wi)

例如,某一藥品總數為 N N N,其中正常藥品數為 N 1 N_{1} N1,異常藥品數為 N 2 N_{2} N2,則:

P ( w 1 ) = N 1 N P(w_{1}) = \frac{N_{1}}{N} P(w1)=NN1 P ( w 2 ) = N 2 N P(w_{2}) = \frac{N_{2}}{N} P(w2)=NN2

P ( w 1 ) , P ( w 2 ) P(w_{1}) , P(w_{2}) P(w1),P(w2) 為先驗概率,一般情況下, P ( w 1 ) > P ( w 2 ) P(w_{1}) > P(w_{2}) P(w1)>P(w2),如果按先驗概率決策,就會把所有藥品都歸為正常。先驗概率所提供的資訊太少,不能直接用於分類決策。

  • 類條件概率密度函式 P ( X ∣ w i ) P(X|w_{i}) P(Xwi)

類條件概率密度函式 P ( X ∣ w i ) P(X|w_{i}) P(Xwi) 是指在已知類別的特徵空間中,出現特徵 X X X 的概率密度,即第 w i w_{i} wi 類樣品其特徵屬性 X X X 是如何分佈的。

在工程上的許多問題中,統計資料往往滿足正態分佈規律。類條件密度可以採用多維變數的正態密度函式來模擬,此時正態分佈的貝葉斯分類器判別函式為:

h i ( X ) = P ( X ∣ w i ) P ( w i ) = 1 ( 2 π ) n / 2 ∣ S i ∣ 1 / 2 e [ − 1 2 ( X − X w i ˉ ) S i − 1 ( X − X w i ˉ ) ] P ( w i ) h_{i}(X) = P(X|w_{i})P(w_{i}) = \frac{1}{(2\pi)^{n/2}|S_{i}|^{1/2}}e^{[-\frac{1}{2}(X-\bar{X^{w_{i}}})S^{-1}_{i} (X-\bar{X^{w_{i}}})]}P(w_{i}) hi(X)=P(Xwi)P(wi)=(2π)n/2Si1/21e[21(XXwiˉ)Si1(XXwiˉ)]P(wi)

使用對數函式進行簡化,得:

H i ( X ) = − 1 2 ( X − X w i ˉ ) T S i − 1 ( X − X w i ˉ ) − n 2 l n 2 π − 1 2 ∣ S i ∣ + l n P ( w i ) H_{i}(X) = -\frac{1}{2}(X - \bar{X^{w_i}})^TS^{-1}_{i}(X - \bar{X^{w_i}})-\frac{n}{2}ln2\pi-\frac{1}{2}|S_{i}|+lnP(w_i) Hi(X)=21(XXwiˉ)TSi1(XXwiˉ)2nln2π21Si+lnP(wi)

這個函式的推導過程如下:

在這裡插入圖片描述

基於最小錯誤率的貝葉斯決策

基於最小錯誤率的貝葉斯決策就是按後驗概率的大小判決的。先驗概率容易求出,在多數情況下,類條件密度可以採用多維變數的正態密度函式來模擬,就得到正態分佈的貝葉斯分類器判別函式。

判別函式最大值所對應類別即為待測樣本的類別。

  • 基於兩類問題最小錯誤率的貝葉斯判別函式形式

若每個樣本屬於 w 1 , w 2 w_{1}, w_{2} w1,w2 類中的一類,已知先驗概率分別為 P ( w 1 ) , P ( w 2 ) P(w_{1}), P(w_{2}) P(w1),P(w2),類條件概率密度為 P ( X ∣ w 1 ) , P ( X ∣ w 2 ) P(X|w_{1}), P(X|w_{2}) P(Xw1),P(Xw2)。則給定一 X X X,判斷 X X X 的類別。

貝葉斯公式:

P ( w 1 ∣ X ) = P ( X ∣ w 1 ) P ( w 1 ) / P ( X ) P(w_{1}|X) = P(X|w_{1})P(w_{1})/P(X) P(w1X)=P(Xw1)P(w1)/P(X)

P ( w 2 ∣ X ) = P ( X ∣ w 2 ) P ( w 2 ) / P ( X ) P(w_{2}|X) = P(X|w_{2})P(w_{2})/P(X) P(w2X)=P(Xw2)P(w2)/P(X)

P ( X ) = P ( X ∣ w 1 ) P ( w 1 ) + P ( X ∣ w 2 ) P ( w 2 ) P(X) = P(X|w_{1})P(w_{1}) + P(X|w_{2})P(w_{2}) P(X)=P(Xw1)P(w1)+P(Xw2)P(w2)

用後驗概率來直接判斷類別:

{ P ( w 1 ∣ X ) > P ( w 2 ∣ X ) ⇒ X ∈ w 1 P ( w 1 ∣ X ) < P ( w 2 ∣ X ) ⇒ X ∈ w 2 \begin{cases}P(w_{1}|X) > P(w_{2}|X) \qquad \Rightarrow X\in w_{1}&\\P(w_{1}|X) < P(w_{2}|X) \qquad \Rightarrow X\in w_{2}&\end{cases} {P(w1X)>P(w2X)Xw1P(w1X)<P(w2X)Xw2

若兩類樣本都滿足正態分佈,最小錯誤率的貝葉斯分類器可化為:

h ( X ) = 1 2 ( X − X w 1 ˉ ) T S 1 − 1 ( X − X w 1 ˉ ) − 1 2 ( X − X w 2 ˉ ) T S 2 − 1 ( X − X ( w 2 ) ˉ ) + 1 2 l n ∣ S 1 ∣ ∣ S 2 ∣ − l n P ( w 1 ) P ( w 2 ) h(X) = \frac{1}{2}(X - \bar{X^{w_{1}}})^TS^{-1}_{1} (X - \bar{X^{w_{1}}}) - \frac{1}{2}(X - \bar{X^{w_{2}}})^TS^{-1}_2(X - \bar{X^{(w_{2})}})+\frac{1}{2}ln\frac{|S_{1}|}{|S_{2}|}- ln\frac{P(w_{1})}{P(w_{2})} h(X)=21(XXw1ˉ)TS11(XXw1ˉ)21(XXw2ˉ)TS21(XX(w2)ˉ)+21lnS2S1lnP(w2)P(w1)

{ H ( X ) < 0 ⇒ X ∈ w 1 H ( X ) > 0 ⇒ X ∈ w 2 \begin{cases}H(X) < 0 \qquad \Rightarrow X\in w_{1}&\\H(X) > 0 \qquad \Rightarrow X\in w_{2}&\end{cases} {H(X)<0Xw1H(X)>0Xw2

  • 基於多類問題最小錯誤率的貝葉斯判別函式形式

在這裡插入圖片描述

基於最小風險的貝葉斯決策

在這裡插入圖片描述

直線 B 比直線 A 有更大的錯誤率,會給企業帶來一些損失(浪費了一些好藥);直線 A 雖然使錯誤分類最小,但是會使得患者因錯誤的治療而遭到極大的損失(吃到假藥)。

基於最小風險的貝葉斯決策寧可擴大一些總的錯誤率,也要使得總的損失減少。將風險表示為後驗概率加權和的形式。

R i ( X ) = ∑ j = 1 M λ ( a i , j ) P ( w j ∣ X ) R_{i}(X) = \sum^{M}_{j = 1}\lambda(a_{i}, j) P(w_{j}|X) Ri(X)=j=1Mλ(ai,j)P(wjX)

其中, λ ( a i , j ) \lambda(a_{i}, j) λ(ai,j) 表示待分類樣本 X X X 實屬於 w j w_{j} wj ,但是由於採用了 a i a_{i} ai 決策而被誤判為 w i w_{i} wi 時的損失。

以正常和異常藥品分類為例。

  • λ ( a 1 , 2 ) \lambda(a_{1}, 2) λ(a1,2) X X X 確實是異常藥品,但採取了決策 a 1 a_{1} a1 被判定為正常( w 1 w_{1} w1
  • λ ( a 2 , 1 ) \lambda(a_{2}, 1) λ(a2,1) X X X 確實是正常藥品,但採取了決策 a 2 a_{2} a2 被判別為異常( w 2 w_{2} w2

在這裡插入圖片描述

此時做出哪一種決策,就要看 R 1 ( X ) R_{1}(X) R1(X) R 2 ( X ) R_{2}(X) R2(X) 哪個小了,選出最小的總風險 R ( X ) R(X) R(X),就是基於最小風險的貝葉斯決策。

如果希望儘可能避免將某種狀態 w i w_{i} wi 錯判為 w j w_{j} wj ,則可以將相應的 λ ( a j , i ) \lambda(a_{j}, i) λ(aj,i) 值設得大一些,以表明損失的嚴重性。如 λ ( a 1 , 2 ) > λ ( a 2 , 1 ) \lambda(a_{1}, 2) > \lambda(a_{2}, 1) λ(a1,2)>λ(a2,1) ,說明吃到讓患者吃到假藥要比企業損失點錢這個事要嚴重得多。

  • 基於多類問題最小風險貝葉斯決策規則判別函式形式

已知先驗概率 P ( w i ) P(w_{i}) P(wi) 、類條件概率密度 P ( X ∣ w i ) , i = 1 , 2 , . . . , M P(X|w_{i}), i = 1, 2, ..., M P(Xwi),i=1,2,...,M 。對於待分類樣本 X X X

(1) 先根據貝葉斯公式計算後驗概率

P ( w i ∣ X ) = P ( X ∣ w i ) P ( w i ) ∑ j = 1 M P ( X ∣ w i ) P ( w i ) , j = 1 , 2 , . . . , M P(w_{i}|X)=\frac{P(X|w_{i})P(w_{i})}{\sum^{M}_{j=1}P(X|w_{i})P(w_{i})}, \qquad j = 1, 2, ..., M P(wiX)=j=1MP(Xwi)P(wi)P(Xwi)P(wi),j=1,2,...,M

(2)利用後驗概率和損失函式 λ ( α i , j ) \lambda(\alpha_{i}, j) λ(αi,j) ,按照下式計算出採取決策 α i , i = 1 , 2 , . . . , M \alpha_{i}, i = 1, 2, ..., M αi,i=1,2,...,M 的條件風險

R ( α i ∣ X ) = ∑ j = 1 M λ ( α i , j ) P ( w j ∣ W ) , i = 1 , 2 , . . . , M R(\alpha_{i}|X) = \sum^{M}_{j = 1}\lambda(\alpha_{i}, j)P(w_{j}|W), \qquad i =1, 2, ..., M R(αiX)=j=1Mλ(αi,j)P(wjW),i=1,2,...,M

(3)對(2)中計算得到 M 和風險進行比較,選出使得風險最小的決策 α k \alpha_{k} αk α k \alpha_{k} αk 就是貝葉斯最小風險決策, w k w_{k} wk 就是待分類樣本的類別。

R ( a k ∣ X ) = min ⁡ i = 1 , 2 , . . . , M R ( α i ∣ X ) R(a_{k}|X) = \min_{i = 1, 2, ..., M} R(\alpha_{i}|X) R(akX)=mini=1,2,...,MR(αiX)

最小風險貝葉斯決策與最小錯誤率貝葉斯決策之間的關係

設損失函式為 0-1 損失函式:

λ ( a i , w j ) = { 0 , i = j 1 , i ≠ j i , j = 1 , 2 , . . . , M \lambda(a_{i}, w_{j}) = \begin{cases}0, \qquad i = j&\\1, \qquad i \not=j &\end{cases} i, j = 1, 2, ..., M λ(ai,wj)={0,i=j1,i=ji,j=1,2,...,M

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-LYvGdjXo-1603196144015)(./20201014/10.jpeg)]
總結:在 0-1 損失函式情況下,基於最小風險的貝葉斯決策結果,等於基於最小錯誤率的貝葉斯決策結果。


PS:本文件 PPT 分享在公眾號。歡迎關注我的公眾號「藍本本」,和我一起學習、進修和放縱好奇心。

參考

  • 《模式識別與智慧計算》