1. 程式人生 > >資料分類(一)決策樹

資料分類(一)決策樹

背景知識:

Classification是一個從現有的帶有類別的資料集中尋找同一類別資料的共同特徵,並以這些特徵為依據對新資料進行區分的過程。

分類決策樹的核心思想就是在一個數據集中找到一個最優特徵,然後從這個特徵的選值中找一個最優候選值(這段話稍後解釋),根據這個最優候選值將資料集分為兩個子資料集,然後遞迴上述操作,直到滿足指定條件為止。

用途:

決策樹技術主要用來進行分類和預測,以例項為基礎的歸納學習演算法,用來形成分類器和預測模型。

樹的最頂層節點稱為根節點,最底層節點稱為葉節點,每個葉節點代表產生樣本的類別或者類分佈;根節點和葉節點之間的節點稱為內部節點。

決策樹演算法:

1.ID3演算法

ID3演算法是一種基於資訊熵的決策樹學習演算法,它是決策樹演算法中的典型演算法,採用分治策略,在決策樹各級節點上選擇屬性時檢測所有屬性,選擇資訊增益最大的屬性作為產生決策樹的節點。由該屬性的不同取值建立分支,再對各分支的子集遞迴呼叫該方法建立決策樹的分支,直到所有子集僅包含同一類別資料為止,最後得到一顆決策樹,他可以對新的樣本進行分類。

那麼什麼是決策樹,-

決策樹中屬性值時離散的。比如體檢測量中人的升高或者三維時離散的。連續的比如(1,2,3,4,5)這個時連續的。

ID3適用於取值較多的屬性,而多數情況下多值屬性不一定是最優屬性,其次ID3演算法只能對於描述屬性為離散型屬性的資料集構造決策樹。

2.C4.5

選擇資訊增益率最大的的描述屬性作為分支屬性。採用基於資訊增益率的方法選擇測試屬性,

剪枝技術:

在決策樹建立時,由於資料中的噪聲和孤立點,許多分支反應的是訓練資料的異常,剪枝方法處理這種過分適應資料問題,防止決策樹過度複雜。

尋找最小決策樹是NP問題,所以在現實中不可能找到絕對最小的決策樹,只能通過分析資料,實施剪枝,最常見的方法有先剪枝和後剪枝。

(1)先剪枝通過提前停止樹的構造而對樹進行剪枝,如果一個節點對樣本的劃分導致低於預定義閾值的分裂,給定子集的進一步劃分將停止。

(2)後剪枝是對已經建立好的決策樹進行剪枝,後剪枝方法主要通過不斷修改子樹為葉節點。