1. 程式人生 > >詳解五大分類方法及其優缺點,數據挖掘師必會!

詳解五大分類方法及其優缺點,數據挖掘師必會!

決策樹 神經網絡ann 支持向量機svm

分類算法是一種在專家指導下的,有監督的數據挖掘方法,其種類很多,包括:

傳統方法:線性判別法、距離判別法、貝葉斯分類器;

現代方法:決策樹、神經網絡ANN、支持向量機SVM;


1、決策樹

決策樹學習是以實例為基礎的歸納學習算法,它著眼於從一組無次序、無規則的實例中,推理出以決策樹表示的分類規則。

技術分享圖片


2、貝葉斯

貝葉斯(Bayes)分類算法是一類利用概率統計知識進行分類的算法,如樸素貝葉斯(Naive Bayes)算法


這些算法主要利用Bayes定理,來預測一個未知類別的樣本屬於各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。


由於貝葉斯定理的成立,本身需要一個很強的條件獨立性假設前提,而此假設在實際情況中,經常是不成立的,因而其分類準確性就會下降。


為此就出現了許多降低獨立性假設的貝葉斯分類算法,如TAN(Tree Augmented Naive Bayes)算法,它是在貝葉斯網絡結構的基礎上,增加屬性對之間的關聯來實現的。


3、人工神經網絡ANN

人工神經網絡,是一種應用類似於大腦神經突觸聯接的結構,進行信息處理的數學模型。


在這種模型中,大量的節點(或稱”神經元”,或”單元”)之間相互聯接構成網絡,即”神經網絡”,以達到處理信息的目的。

技術分享圖片

神經網絡通常需要進行訓練,訓練的過程就是網絡進行學習的過程。

訓練改變了網絡節點的連接權的值使其具有分類的功能,經過訓練的網絡就可用於對象的識別。

神經網絡已有上百種不同的模型,常見的有BP網絡、徑向基RBF網絡、Hopfield網絡、隨機神經網絡(Boltzmann機)、競爭神經網絡(Hamming網絡,自組織映射網絡)等。


4、kNN(k-近鄰)


k-近鄰(kNN,k-Nearest Neighbors)算法是一種基於實例的分類方法。


該方法就是找出與未知樣本x,距離最近的k個訓練樣本,看這k個樣本中多數屬於哪一類,就把x歸為哪一類。

技術分享圖片

k-近鄰方法是一種懶惰學習方法,它存放樣本,直到需要分類時才進行分類,如果樣本集比較復雜,可能會導致很大的計算開銷,因此無法應用到實時性很強的場合。


5、支持向量機SVM


支持向量機(SVM,Support Vector Machine)是Vapnik根據統計學習理論,提出的一種新的學習方法。

技術分享圖片

支持向量機(SVM,Support Vector Machine)的最大特點是:

根據結構風險最小化準則,以最大化分類間隔,構造最優分類超平面,來提高學習機的泛化能力,較好地解決了非線性、高維數、局部極小點等問題。

對於分類問題,支持向量機算法根據區域中的樣本,計算該區域的決策曲面,由此確定該區域中未知樣本的類別。


在沒有更多背景信息給出時,如果追求預測的準確程度,一般用支持向量機(SVM),如果要求模型可以解釋,一般用決策樹。

技術分享圖片


本文出自 “中科院計算所培訓” 博客,謝絕轉載!

詳解五大分類方法及其優缺點,數據挖掘師必會!