1. 程式人生 > >[DataAnalysis]資料探勘常見的幾種分類演算法

[DataAnalysis]資料探勘常見的幾種分類演算法

一、資料探勘任務分類


1、預測性和描述性的主要區別在於是否有目標變數

2、預測性包括分類和迴歸

(1)分類:輸出變數為離散型,常見的演算法包括(樸素)貝葉斯、決策樹、邏輯迴歸、KNNSVM、神經網路、隨機森林

(2)迴歸:輸出變數為連續型。

3、描述性包括聚類和關聯

(1)聚類:實現對樣本的細分,使得同組內的樣本特徵較為相似,不同組的樣本特徵差異較大。例如零售客戶細分。

(2)關聯::指的是我們想發現數據的各部分之間的聯絡和規則。常指購物籃分析,即消費者常常會同時購買哪些產品,從而有助於商家的捆綁銷售

4、建立分類模型的一般方法:


二、樸素貝葉斯

1、貝葉斯定理:


2、原理:

對於給出的待分類項(即特徵屬性的集合),求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬於哪個類別。

3、樸素貝葉斯分類流程

三、決策樹

1、原理,相當於找物件


2、決策樹定義:

決策樹(DecisionTree)是一個樹結構(可以是二叉樹或非二叉樹)。其每個非葉節點表示一個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特徵屬性,並按照其值選擇輸出分支,直到到達葉子節點,將葉子節點存放的類別作為決策結果。

3、決策樹構造:


其中屬性選擇度量的演算法很多,一般使用自頂向下遞迴分治法,並採用不回溯的貪心策略。ID3和C4.5是兩種常用演算法。

4、ID3演算法:


資訊增益是特徵選擇中的一個重要指標,它定義為一個特徵能夠為分類系統帶來多少資訊,帶來的資訊越多,該特徵越重要。

基本資訊包括:熵,期望資訊和資訊增益。

(1)熵:D為用類別對訓練元組進行的劃分,則D表示為:


其中?i表示第i個類別在整個訓練元組中出現的概率,可以用屬於此類別元素的數量除以訓練元組元素總數量作為估計。熵的實際意義表示是D中元組的類標號所需要的平均資訊量。

(2)期望資訊:

現在我們假設將訓練元組D按屬性A進行劃分,則A對D劃分的期望資訊為:


(3)資訊增益:


(4)待補充案例:SNS社群中不真實賬號檢測的例子如中使用ID3演算法構造決策樹。

5、C4.5演算法:

(1)ID3演算法存在的問題:偏向於多值屬性,例如,如果存在唯一標識屬性ID,則ID3會選擇它作為分裂屬性,這樣雖然使得劃分充分純淨,但這種劃分對分類幾乎毫無用處。(例如會選擇主鍵)

(2)原理:C4.5演算法是基於ID3演算法進行改進後的一種重要演算法,使用資訊增益率來選擇屬性。


四、邏輯迴歸

1、原理: