1. 程式人生 > >決策樹、貝葉斯、人工神經網路、K-近鄰、支援向量機等常用分類演算法小結

決策樹、貝葉斯、人工神經網路、K-近鄰、支援向量機等常用分類演算法小結

單一的分類演算法:決策樹、貝葉斯、人工神經網路、K-近鄰、支援向量機和基於關聯規則的分類,HMM

組合分類演算法:Bagging和Boosting

  1. k-近鄰(kNN,k-Nearest Neighbors)演算法

找出與未知樣本x距離最近的k個訓練樣本,看這k個樣本中多數屬於哪一類,就把x歸為那一類。

 模型輸入要求:連續值,類別型變數需進行one-hot編碼,由於是計算距離,有必要對資料進行歸一化

模型重要引數:K值及距離的定義

優點:易於理解和實現

缺點:計算量大,複雜度高,不適合實時場景

應用場景:影象壓縮

       2.樸素貝葉斯

利用Bayes定理來預測一個未知類別的樣本屬於各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別

模型重要引數:

優點:生成式模型,通過計算概率來進行分類,可以用來處理多分類問題,對小規模的資料表現很好,適合多分類任務,適合增量式訓練,演算法也比較簡單。

缺點:需要一個很強的條件獨立性假設前提

應用場景:文字分類(如:垃圾郵件識別)

     3.神經網路

神經網路(Artificial Neural Networks,ANN)是一種應用類似於大腦神經突觸聯接的結構進行資訊處理的數學模型

模型輸入要求:歸一化特徵

模型重要引數:網路層數及節點數

優點:具有實現任何複雜非線性對映的功能

缺點:收斂速度慢、計算量大、訓練時間長,易收斂到區域性最優

應用場景:影象處理,模式識別

      4.支援向量機

根據結構風險最小化準則,以最大化分類間隔構造最優分類超平面來提高學習機的泛化能力

模型輸入:二分類,歸一化

模型重要引數:核函式

優點:可以解決小樣本情況下的機器學習問題,可以解決高維問題 可以避免神經網路結構選擇和區域性極小點問題

缺點:核函式敏感,不加修改的情況下只能做二分類

應用場景:高維文字分類,小樣本分類

     5.決策樹

決策樹(decision tree)是一個樹結構(可以是二叉樹或非二叉樹)。其每個非葉節點表示一個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放一個類別

模型輸入:可處理連續值,類別型變數需one-hot

模型重要引數:樹的高度

優點:超強的學習能力和泛化能力,訓練速度快

缺點:易過擬合,改進為隨機森林(Random Forest, RF)

應用場景:搜尋排序

     6.LR

根據現有資料對分類邊界線建立迴歸公式,依次進行分類

模型輸入:連續值需離散化,類別型變數需one-hot

模型重要引數:輸入特徵離散化

優點:訓練速度快,適合實時場景

缺點:擬合能力較差,不能處理非線下場景,需要人為設定組合特徵

應用場景:各種實時系統:如ctr 預估