1. 程式人生 > 其它 >判別分析--費希爾判別、貝葉斯判別、距離判別

判別分析--費希爾判別、貝葉斯判別、距離判別

判別分析

比較理論一些來說,判別分析就是根據已掌握的每個類別若干樣本的資料資訊,總結出客觀事物分類的規律性,建立判別公式和判別準則;在遇到新的樣本點時,再根據已總結出來的判別公式和判別準則,來判斷出該樣本點所屬的類別。

1概述

三大類主流的判別分析演算法,分別為費希爾(Fisher)判別、貝葉斯(Bayes)判別和距離判別。

具體的,在費希爾判別中我們將主要討論線性判別分析(Linear Discriminant Analysis,簡稱LDA)及其原理一般化後的衍生演算法,即二次判別分析(Quadratic Discriminant Analysis,簡稱QDA);而在貝葉斯判別中將介紹樸素貝葉斯分類

(Naive Bayesian Classification)演算法;距離判別我們將介紹使用最為廣泛的K最近鄰(k-Nearest Neighbor,簡稱kNN)及有權重的K最近鄰( Weighted k-Nearest Neighbor)演算法。

1.1費希爾判別

費希爾判別的基本思想就是投影,即將高維空間的點向低維空間投影,從而簡化問題進行處理。

投影方法之所以有效,是因為在原座標系下,空間中的點可能很難被劃分開,如圖中,當類別和類別中的樣本點都投影至圖中的原座標軸後,出現了部分樣本點的影子重合的情況,這樣就無法將分屬於這兩個類別的樣本點區別開來;而如果使用如圖8-2中的

投影軸進行投影,所得到的影子就可以被類別劃分線明顯地區分開來,也就是得到了我們想要的判別結果。

原座標軸下判別

投影軸下判別

我們可以發現,費希爾判別最重要的就是選擇出適當的投影軸,對該投影軸方向上的要求是:保證投影后,使每一類之內的投影值所形成的類內離差儘可能小,而不同類之間的投影值所形成的類間離差儘可能大,即在該空間中有最佳的可分離性,以此獲得較高的判別效果。

對於線性判別,一般來說,可以先將樣本點投影到一維空間,即直線上,若效果不明顯,則可以考慮增加一個維度,即投影至二維空間中,依次類推。而二次判別與線性判別的區別就在於投影面的形狀不同,二次判別使用若干二次曲面,而非直線或平面來將樣本劃分至相應的類別中。

相比較來說,二次判別的適用面比線性判別函式要廣。這是因為,在實際的模式識別問題中,各類別樣本在特徵空間中的分佈往往比較複雜,因此往往無法用線性分類的方式得到令人滿意的效果。這就必須使用非線性的分類方法,而二次判別函式就是一種常用的非線性判別函式,尤其是類域的形狀接近二次超曲面體時效果更優。

1.2貝葉斯判別

樸素貝葉斯的演算法思路簡單且容易理解。

理論上來說,它就是根據已知的先驗概率 P(A|B),利用貝葉斯公式

求後驗概率P(B|A),即該樣本屬於某一類的概率,然後選擇具有最大後驗概率的類作為該樣本所屬的類。

通俗地說,就是對於給出的待分類樣本,求出在此樣本出現條件下各個類別出現的概率,哪個最大,就認為此樣本屬於哪個類別。

樸素貝葉斯的演算法原理雖然樸素,但用起來卻很有效,其優勢在於不怕噪聲和無關變數。而明顯的不足之處則在於,它假設各特徵屬性之間是無關的,當這個條件成立時,樸素貝葉斯的判別正確率很高,但不幸的是,在現實中各個特徵屬性間往往並非獨立,而是具有較強相關性的,這樣就限制了樸素貝葉斯分類的能力。

1.3距離判別

距離判別的基本思想,就是根據待判定樣本與已知類別樣本之間的距離遠近做出判別。具體的,即根據已知類別樣本資訊建立距離判別函式式,再將各待判定樣本的屬性資料逐一代入計算,得到距離值,根據距離值將樣本判入距離值最小的類別的樣本簇。

K最近鄰演算法則是距離判別中使用最為廣泛的,即如果一個樣本在特徵空間中的K個最相似/最近鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。

K最近鄰方法在進行判別時,由於其主要依靠周圍有限鄰近樣本的資訊,而不是靠判別類域的方法來確定所屬類別,因此對於類域的交叉或重疊較多的待分樣本集來說,該方法較其他方法要更為適合。

本文來自部落格園,作者:zhang-X,轉載請註明原文連結:https://www.cnblogs.com/YY-zhang/p/15244233.html