從貝葉斯公式到貝葉斯判別準則
原來線性判別分析、平方判別分析、樸素貝葉斯這麼簡單直白。
前方將出現大量數學公式推導證明,為防止煩躁不適,先複習一下幾個重要概念。
1.1一維高斯變數X~N(μ,),則概率密度函式
1.2多維高斯變數 ,X~N(μ,∑) , μ 為p維向量, 為p×p 維的方差協方差矩陣:
1.3貝葉斯公式:
P(A|B)表示B事件發生時A事件發生的概率,往往不能直接求,而P(B|A)求起來較為方便。在這裡,P
下面進入正題:對於常見的分類任務(classification),設表示類別的隨機變數Y的樣本空間{1,2,……,K},對於樣本 屬於第k 類的概率:
依據全概率公式將上式分母展開:
其中 是隨機選擇的樣本觀測值來自第 類的先驗概率。
2.1.當 為標量值(scalar)時,
注意到分母對於 都是一樣的,其中引數 ,都需要從樣本資料集中估計得到。要確定該樣本屬於哪一類,只有找到使得下式分子最大的k值(防止計算溢位取對數)。
如果K=2且 (常見的二分類且樣本類別均衡),分類器將
的估計如下:
2.1 Linear Discriminant Analysis
當 為向量時,即隨機變數 , ,
多元隨機變數的高斯分佈密度函式:
在此給出與標量情況相同的假設
從上式中可以看出:決策函式 是 的線性函式(所以稱為Linear Discriminant Analysis), 這一項表明樣本類別的不均衡可能對條件概率值有影響。
為方便後期寫程式碼,這裡把各個向量長度或矩陣維度列一下:
當K=2時並且 (二分類問題),
2.2Quadratic Discriminant Analysis
當給出更弱的假設:屬於第k類觀測向量
為方便後期寫程式碼,這裡把各個向量長度或矩陣維度列一下:
決策函式與, 相關
2.3Naïve Bayesian Classifier
在計算第k類的概率分佈時需要計算協方差矩陣,計算複雜度為O(kp^2),在這裡可以進一步簡化,假設 的各個屬性獨立,由此計算複雜度降為O(kp):
所以剩下的任務就是從樣本資料集估計 和 了。
2.4Laplacian correction
為了避免因訓練樣本不充分導致的概率估值為0,需要進行拉普拉斯修正,設 為訓練集D(大小為|D|)中的可能類別數, 為第i屬性可能的取值數, 為訓練集D中屬於第k類的樣本數。
參考文獻:1.《The Elements of Statistical Learning》 2.《The Introduction to Statistical Learning》