判別分析--費希爾判別、貝葉斯判別、距離判別

阿新 • • 發佈：2021-09-08

判別分析

比較理論一些來說，判別分析就是根據已掌握的每個類別若干樣本的資料資訊，總結出客觀事物分類的規律性，建立判別公式和判別準則;在遇到新的樣本點時，再根據已總結出來的判別公式和判別準則，來判斷出該樣本點所屬的類別。

1概述

三大類主流的判別分析演算法，分別為費希爾(Fisher)判別、貝葉斯(Bayes)判別和距離判別。

具體的，在費希爾判別中我們將主要討論線性判別分析（Linear Discriminant Analysis，簡稱LDA）及其原理一般化後的衍生演算法，即二次判別分析（Quadratic Discriminant Analysis，簡稱QDA);而在貝葉斯判別中將介紹樸素貝葉斯分類

(Naive Bayesian Classification)演算法;距離判別我們將介紹使用最為廣泛的K最近鄰(k-Nearest Neighbor，簡稱kNN)及有權重的K最近鄰( Weighted k-Nearest Neighbor）演算法。

1.1費希爾判別

費希爾判別的基本思想就是“投影”，即將高維空間的點向低維空間投影，從而簡化問題進行處理。

投影方法之所以有效，是因為在原座標系下，空間中的點可能很難被劃分開，如下圖中，當類別Ⅰ和類別Ⅱ中的樣本點都投影至圖中的“原座標軸”後，出現了部分樣本點的“影子”重合的情況，這樣就無法將分屬於這兩個類別的樣本點區別開來;而如果使用如圖8-2中的

“投影軸”進行投影，所得到的“影子”就可以被“類別劃分線”明顯地區分開來，也就是得到了我們想要的判別結果。

原座標軸下判別

投影軸下判別

我們可以發現，費希爾判別最重要的就是選擇出適當的投影軸，對該投影軸方向上的要求是:保證投影后，使每一類之內的投影值所形成的類內離差儘可能小，而不同類之間的投影值所形成的類間離差儘可能大，即在該空間中有最佳的可分離性，以此獲得較高的判別效果。

對於線性判別，一般來說，可以先將樣本點投影到一維空間，即直線上，若效果不明顯，則可以考慮增加一個維度，即投影至二維空間中，依次類推。而二次判別與線性判別的區別就在於投影面的形狀不同，二次判別使用若干二次曲面，而非直線或平面來將樣本劃分至相應的類別中。

相比較來說，二次判別的適用面比線性判別函式要廣。這是因為，在實際的模式識別問題中，各類別樣本在特徵空間中的分佈往往比較複雜，因此往往無法用線性分類的方式得到令人滿意的效果。這就必須使用非線性的分類方法，而二次判別函式就是一種常用的非線性判別函式，尤其是類域的形狀接近二次超曲面體時效果更優。

1.2貝葉斯判別

樸素貝葉斯的演算法思路簡單且容易理解。

理論上來說，它就是根據已知的先驗概率 P(A|B)，利用貝葉斯公式

求後驗概率P(B|A)，即該樣本屬於某一類的概率，然後選擇具有最大後驗概率的類作為該樣本所屬的類。

通俗地說，就是對於給出的待分類樣本，求出在此樣本出現條件下各個類別出現的概率，哪個最大，就認為此樣本屬於哪個類別。

樸素貝葉斯的演算法原理雖然“樸素”，但用起來卻很有效，其優勢在於不怕噪聲和無關變數。而明顯的不足之處則在於，它假設各特徵屬性之間是無關的，當這個條件成立時，樸素貝葉斯的判別正確率很高，但不幸的是，在現實中各個特徵屬性間往往並非獨立，而是具有較強相關性的，這樣就限制了樸素貝葉斯分類的能力。

1.3距離判別

距離判別的基本思想，就是根據待判定樣本與已知類別樣本之間的距離遠近做出判別。具體的，即根據已知類別樣本資訊建立距離判別函式式，再將各待判定樣本的屬性資料逐一代入計算，得到距離值，根據距離值將樣本判入距離值最小的類別的樣本簇。

K最近鄰演算法則是距離判別中使用最為廣泛的，即如果一個樣本在特徵空間中的K個最相似/最近鄰的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。

K最近鄰方法在進行判別時，由於其主要依靠周圍有限鄰近樣本的資訊，而不是靠判別類域的方法來確定所屬類別，因此對於類域的交叉或重疊較多的待分樣本集來說，該方法較其他方法要更為適合。

本文來自部落格園，作者：zhang-X，轉載請註明原文連結：https://www.cnblogs.com/YY-zhang/p/15244233.html

判別分析--費希爾判別、貝葉斯判別、距離判別

判別分析--費希爾判別、貝葉斯判別、距離判別

PRML-分類器設計準則、模式相似性測度、貝葉斯決策

貝葉斯模型、SVM模型、K均值（Kmeans）聚類、DBSCAN聚類和GDBT模型

拓端tecdat：R語言用貝葉斯線性迴歸、貝葉斯模型平均 (BMA)來預測工人工資

盤點微軟 Xbox“遊戲帝國”：動視暴雪、貝塞斯達、Mojang 等全部收入囊中

R語言用貝葉斯線性迴歸、貝葉斯模型平均 (BMA)來預測工人工資|附程式碼資料

機器學習（3）高斯判別分析&樸素貝葉斯分類器

用貝葉斯判別分析方法預測股票漲跌

機器學習筆記—模式分類（四）引數判別估計法3（貝葉斯引數估計）

R語言BUGS/JAGS貝葉斯分析: 馬爾科夫鏈蒙特卡洛方法（MCMC）取樣

拓端tecdat|R語言貝葉斯非引數模型：密度估計、非引數化隨機效應meta分析心肌梗死資料

拓端tecdat：R語言貝葉斯廣義線性混合效應（多層次/水平/巢狀）模型GLMM、邏輯迴歸分析教育留級影響因素資料

貝葉斯濾波與卡爾曼濾波

資料分析模型之樸素貝葉斯模型

貝葉斯濾波與卡爾曼濾波第八講程式碼

各種機器學習演算法的應用場景分別是什麼（比如樸素貝葉斯、決策樹、K 近鄰、SVM、邏輯迴歸最大熵模型）？...

十二、機器學習演算法整合（knn、樸素貝葉斯、決策樹、隨機森林、線性迴歸、嶺迴歸、邏輯迴歸、聚類、支援向量機）

六、樸素貝葉斯

python實現貝葉斯網路怎麼匯入資料_Python下的資料大端序、小端序及網路序實現...

實驗三、樸素貝葉斯演算法

判別分析--費希爾判別、貝葉斯判別、距離判別

相關推薦