詳解五大分類方法及其優缺點,資料探勘師必會!
阿新 • • 發佈:2019-02-07
分類演算法是一種在專家指導下的,有監督的資料探勘方法,其種類很多,包括:
傳統方法:線性判別法、距離判別法、貝葉斯分類器;
現代方法:決策樹、神經網路ANN、支援向量機SVM;
1、決策樹
決策樹學習是以例項為基礎的歸納學習演算法,它著眼於從一組無次序、無規則的例項中,推理出以決策樹表示的分類規則。
2、貝葉斯
貝葉斯(Bayes)分類演算法是一類利用概率統計知識進行分類的演算法,如樸素貝葉斯(Naive Bayes)演算法
這些演算法主要利用Bayes定理,來預測一個未知類別的樣本屬於各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。
由於貝葉斯定理的成立,本身需要一個很強的條件獨立性假設前提,而此假設在實際情況中,經常是不成立的,因而其分類準確性就會下降。
為此就出現了許多降低獨立性假設的貝葉斯分類演算法,如TAN(Tree Augmented Naive Bayes)演算法,它是在貝葉斯網路結構的基礎上,增加屬性對之間的關聯來實現的。
3、人工神經網路ANN
人工神經網路,是一種應用類似於大腦神經突觸聯接的結構,進行資訊處理的數學模型。
在這種模型中,大量的節點(或稱”神經元”,或”單元”)之間相互聯接構成網路,即”神經網路”,以達到處理資訊的目的。
神經網路通常需要進行訓練,訓練的過程就是網路進行學習的過程。
•訓練改變了網路節點的連線權的值使其具有分類的功能,經過訓練的網路就可用於物件的識別。
•神經網路已有上百種不同的模型,常見的有BP網路、徑向基RBF網路、Hopfield網路、隨機神經網路(Boltzmann機)、競爭神經網路(Hamming網路,自組織對映網路)等。
4、kNN(k-近鄰)
k-近鄰(kNN,k-Nearest Neighbors)演算法是一種基於例項的分類方法。
該方法就是找出與未知樣本x,距離最近的k個訓練樣本,看這k個樣本中多數屬於哪一類,就把x歸為哪一類。
k-近鄰方法是一種懶惰學習方法,它存放樣本,直到需要分類時才進行分類,如果樣本集比較複雜,可能會導致很大的計算開銷,因此無法應用到實時性很強的場合。
5、支援向量機SVM
支援向量機(SVM,Support Vector Machine)是Vapnik根據統計學習理論,提出的一種新的學習方法。
支援向量機(SVM,Support Vector Machine)的最大特點是:
•根據結構風險最小化準則,以最大化分類間隔,構造最優分類超平面,來提高學習機的泛化能力,較好地解決了非線性、高維數、區域性極小點等問題。
•對於分類問題,支援向量機演算法根據區域中的樣本,計算該區域的決策曲面,由此確定該區域中未知樣本的類別。
在沒有更多背景資訊給出時,如果追求預測的準確程度,一般用支援向量機(SVM),如果要求模型可以解釋,一般用決策樹。
傳統方法:線性判別法、距離判別法、貝葉斯分類器;
現代方法:決策樹、神經網路ANN、支援向量機SVM;
1、決策樹
決策樹學習是以例項為基礎的歸納學習演算法,它著眼於從一組無次序、無規則的例項中,推理出以決策樹表示的分類規則。
2、貝葉斯
貝葉斯(Bayes)分類演算法是一類利用概率統計知識進行分類的演算法,如樸素貝葉斯(Naive Bayes)演算法
這些演算法主要利用Bayes定理,來預測一個未知類別的樣本屬於各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。
由於貝葉斯定理的成立,本身需要一個很強的條件獨立性假設前提,而此假設在實際情況中,經常是不成立的,因而其分類準確性就會下降。
為此就出現了許多降低獨立性假設的貝葉斯分類演算法,如TAN(Tree Augmented Naive Bayes)演算法,它是在貝葉斯網路結構的基礎上,增加屬性對之間的關聯來實現的。
3、人工神經網路ANN
人工神經網路,是一種應用類似於大腦神經突觸聯接的結構,進行資訊處理的數學模型。
在這種模型中,大量的節點(或稱”神經元”,或”單元”)之間相互聯接構成網路,即”神經網路”,以達到處理資訊的目的。
神經網路通常需要進行訓練,訓練的過程就是網路進行學習的過程。
•訓練改變了網路節點的連線權的值使其具有分類的功能,經過訓練的網路就可用於物件的識別。
•神經網路已有上百種不同的模型,常見的有BP網路、徑向基RBF網路、Hopfield網路、隨機神經網路(Boltzmann機)、競爭神經網路(Hamming網路,自組織對映網路)等。
4、kNN(k-近鄰)
k-近鄰(kNN,k-Nearest Neighbors)演算法是一種基於例項的分類方法。
該方法就是找出與未知樣本x,距離最近的k個訓練樣本,看這k個樣本中多數屬於哪一類,就把x歸為哪一類。
k-近鄰方法是一種懶惰學習方法,它存放樣本,直到需要分類時才進行分類,如果樣本集比較複雜,可能會導致很大的計算開銷,因此無法應用到實時性很強的場合。
5、支援向量機SVM
支援向量機(SVM,Support Vector Machine)是Vapnik根據統計學習理論,提出的一種新的學習方法。
支援向量機(SVM,Support Vector Machine)的最大特點是:
•根據結構風險最小化準則,以最大化分類間隔,構造最優分類超平面,來提高學習機的泛化能力,較好地解決了非線性、高維數、區域性極小點等問題。
•對於分類問題,支援向量機演算法根據區域中的樣本,計算該區域的決策曲面,由此確定該區域中未知樣本的類別。
在沒有更多背景資訊給出時,如果追求預測的準確程度,一般用支援向量機(SVM),如果要求模型可以解釋,一般用決策樹。