1. 程式人生 > >第十週學習筆記

第十週學習筆記

第十週學習筆記

1.閱讀《模式識別》(第三版)張學工

第二章 統計決策方法

主要內容

  • 最小錯誤率貝葉斯決策
  • 最小風險貝葉斯決策
  • 兩類錯誤率、Neyman-Pearson決策與ROC曲線
  • 正態分佈時的統計決策
  • 錯誤率的計算
  • 離散概率模型下的統計決策舉例(馬爾可夫模型,隱馬爾科夫模型)

值得注意的地方

1.為什麼最小錯誤率貝葉斯決策是使後驗概率最大的決策?

最小錯誤率貝葉斯決策是為了最小化
min

P ( e ) = p ( e
x ) p ( x ) d x \min P(e)=\int p(e|x)p(x)dx

對於某個x,有
p ( e x ) = { P ( w 2 x ) 如果決策x w 1 P ( w 1 x ) 如果決策x w 2 p(e|x)= \begin{cases} P(w_2|x)& \text{如果決策x}\in w_1\\ P(w_1|x)& \text{如果決策x}\in w_2 \end{cases}

其中 p ( x ) p(x) 可依據全概率公式展開,
直觀的理解就是,如果認為 x x 屬於第一類,那麼犯錯誤的概率就是 x x 屬於第二類的概率,如果認為 x x 屬於第二類,那麼犯錯誤的概率就是 x x 屬於第一類的概率。
所以

2.計算後驗概率的時候可以不用計算分母

後驗概率的計演算法則為

p ( w i x ) = p ( x w i ) p ( w i ) p ( x ) p(w_i|x)=\dfrac{p(x|w_i)p(w_i)}{p(x)}

其中 p ( x ) p(x) 可以依據全概率公式展開,由公式可知,右邊的分母是不依賴於 i i 的因此,計算x屬於各個類別的後驗概率時 p ( x ) p(x) 是相等的,因而,可以只計算分母進行比較即可,事實上 p ( x ) p(x) 只是一個歸一因子。

3.靈敏度、特異度、準確率、召回率

靈敏度、特異度、準確率、召回率的計算公式分別為

S n (靈敏度) = T P T P + F N Sn \text{(靈敏度)}= \dfrac{TP}{TP+FN}

S p (特異度) = T N T N + F P Sp \text{(特異度)} = \dfrac{TN}{TN+FP}

P (準確率) = T P T P + F P P \text{(準確率)} = \dfrac{TP}{TP+FP}

R (召回率) = T P T P + F N R \text{(召回率)} = \dfrac{TP}{TP+FN}

觀察公式可知,靈敏度就是召回率,也就是正類樣本中被識別成正類的比例,醫學角度說就是在所有生病的人中被判斷為生病的人數,特異度是負類樣本中被識別為負類的比例,而準確率就是判斷為正類的樣本中,真實為正類的樣本所佔比例,注意此處的準確率和召回率都是針對正類樣本所言,換一個角度,特異度其實也是負類樣本的召回率

4.不相關性與獨立性

不相關性
E [ X 1 X 2 ] = E [ X 1 ] E [ X 2 ] E[X_1X_2]=E[X_1]E[X_2]
也可以是
C o v ( X 1 , X 2 ) = 0 Cov(X_1,X_2)=0
獨立性
p ( X 1 X 2 ) = p ( X 1 ) p ( X 2 ) p(X_1X_2)=p(X_1)p(X_2)

獨立 \Rightarrow 不相關

5.正態分佈概率模型下的最小錯誤貝葉斯決策

當假設各類正態分佈的協方差矩陣相等時,實際上就是CS229中的高斯判別分析

6.基於概率模型的模式識別方法與基於資料模式的識別方法

基於概率模型的模式識別方法使用概率模型對各類樣本進行建模,進而比較似然比進行決策,而基於資料模式的識別方法直接估計計算資料到模式的對映,分別對應了生成學習方法和判別學習方法。

第三章 概率密度函式估計

主要內容

  • 最大似然函式估計
  • 貝葉斯估計與貝葉斯學習
  • 概率密度估計的的非引數方法

值得注意的地方

1.P48習題:為什麼 Σ ^ = 1 N ( x i μ ^ ) ( x i μ ^ ) T \hat{\Sigma}=\dfrac{1}{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T 不是無偏估計?

E [ Σ ^ ] = 1 N E [ i = 1 N ( x i μ ^ ) ( x i μ ^ ) T ] = 1 N E [ i = 1 N ( x i x i T μ ^ x i T x i μ ^ T + μ ^ μ ^ T ) ] = 1 N E [ i = 1 N ( x i x i T μ ^ μ ^ T ) ] = E [ x 1 x 1 T μ ^ μ ^ T ] = E [ x 1 x 1 T ] E [ μ ^