1. 程式人生 > >決策樹基礎知識點整理

決策樹基礎知識點整理

1、基本演算法流程

決策樹的構造是一個遞迴的過程,有三種情形會導致遞迴返回:(1) 當前結點包含的樣本全屬於同一類別,這時直接將該節點標記為葉節點,並設為相應的類別;(2) 當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分,這時將該節點標記為葉節點,並將其類別設為該節點所含樣本最多的類別;(3) 當前結點包含的樣本集合為空,不能劃分,這時也將該節點標記為葉節點,並將其類別設為父節點中所含樣本最多的類別。演算法的基本流程如下圖所示:
這裡寫圖片描述

2.劃分的特徵選擇的方法:

  • 資訊增益。這種方法對可取值數目較多的屬性有偏好。ID3演算法採用了這種方法
  • 增益率。這種方法是為了減少資訊增益對取值數目較多的屬性的偏好帶來的不利影響。C4.5演算法採用了這種方法。需要注意的是,增益率對可取值數目較少的屬性有所偏好。因此,C4.5演算法並不是直接選擇增益率最大的候選劃分屬性,而是使用一個啟發式:先從候選劃分屬性中找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的。
  • 基尼指數。CART決策樹採用了基尼指數。

3.剪枝處理

在決策樹學習中,為了儘可能正確分類訓練樣本,結點劃分過程將不斷重複,有時會造成決策樹分支過多,這時就可能因訓練樣本學得“太好了”,以至於把訓練集自身的一些特點當作所有資料都具有的一般性質而導致過擬合。因此可以通過去掉一些分支來降低過擬合的風險。
決策樹剪枝策略主要包括:
- 預剪枝;在構造的過程中先評估,再考慮是否分支。
- 後剪枝;在構造好一顆完整的決策樹後,自底向上,評估分支的必要性。

評估指的是效能度量,即決策樹的泛化效能。之前提到:可以使用測試集作為學習器泛化效能的近似,因此可以將資料集劃分為訓練集和測試集。預剪枝表示在構造數的過程中,對一個節點考慮是否分支時,首先計算決策樹不分支時在測試集上的效能,再計算分支之後的效能,若分支對效能沒有提升,則選擇不分支(即剪枝)。後剪枝則表示在構造好一顆完整的決策樹後,從最下面的節點開始,考慮該節點分支對模型的效能是否有提升,若無則剪枝,即將該節點標記為葉子節點,類別標記為其包含樣本最多的類別。

4.連續值處理

對於連續值的屬性,若每個取值作為一個分支則顯得不可行,因此需要進行離散化處理,常用的方法為二分法,基本思想為:給定樣本集D與連續屬性α,二分法試圖找到一個劃分點t將樣本集D在屬性α上分為≤t與>t。

  • 首先將α的所有取值按升序排列,所有相鄰屬性的均值作為候選劃分點(n-1個,n為α所有的取值數目)。
  • 計算每一個劃分點劃分集合D(即劃分為兩個分支)後的資訊增益。
  • 選擇最大資訊增益的劃分點作為最優劃分點。

5.缺失值處理

現實中常會遇到不完整的樣本,即某些屬性值缺失。有時若簡單採取剔除,則會造成大量的資訊浪費,因此在屬性值缺失的情況下需要解決兩個問題:(1)如何選擇劃分屬性。(2)給定劃分屬性,若某樣本在該屬性上缺失值,如何劃分到具體的分支上。
具體參考:周志華《機器學習》第四章–決策樹

6.多變數決策樹

若把每個屬性視為座標空間中的一個座標軸,則d個屬性描述的樣本就對應了d維空間中的一個數據點,對樣本分類則意味著在這個座標空間中尋找不同類樣本之間的分類邊界。決策樹所形成的分類邊界有一個明顯的特點:軸平行,即它的分類邊界由若干個與座標軸平行的分段組成。

7.決策樹的優點和缺點

優點:

決策樹演算法中學習簡單的決策規則建立決策樹模型的過程非常容易理解,
決策樹模型可以視覺化,非常直觀
應用範圍廣,可用於分類和迴歸,而且非常容易做多類別的分類
能夠處理數值型和連續的樣本特徵
缺點:

很容易在訓練資料中生成複雜的樹結構,造成過擬合(overfitting)。剪枝可以緩解過擬合的負作用,常用方法是限制樹的高度、葉子節點中的最少樣本數量。
學習一棵最優的決策樹被認為是NP-Complete問題。實際中的決策樹是基於啟發式的貪心演算法建立的,這種演算法不能保證建立全域性最優的決策樹。Random Forest 引入隨機能緩解這個問題

8.基本掌握ID3、C4.5和CART演算法,以及它們的區別

  • ID3決策樹可以有多個分支,但是不能處理特徵值為連續的情況
  • C4.5還彌補了ID3中不能處理特徵屬性值連續的問題。但是,對連續屬性值需要掃描排序,會使C4.5效能下降
  • CART是一棵二叉樹,採用二元切分法,每次把資料切成兩份,分別進入左子樹、右子樹。而且每個非葉子節點都有兩個孩子,所以CART的葉子節點比非葉子多1。相比ID3和C4.5,CART應用要多一些,既可以用於分類也可以用於迴歸。CART分類時,使用基尼指數(Gini)來選擇最好的資料分割的特徵,gini描述的是純度,與資訊熵的含義相似
  • -