【統計學習方法】決策樹

何為決策樹？

決策樹定義

決策樹是一種用於分類的樹結構。如圖所示，它由結點(node)和有向邊(directed edge)組成，結點包括內部結點(internal node)和葉結點(leaf node)，內部結點表示一個特徵或屬性，葉結點表示一個類。

決策樹示意圖

如何分類？

那麼決策樹如何進行分類呢？首先，從根結點開始，根據待分類資料的某一特徵值對其進行劃分，分配到相應子結點，因此，每一個子結點都對應了該特徵的一個取值。像這樣遞迴進行，直到到達葉結點。

決策樹的特徵選擇

上一部分提到決策樹根據特徵值對資料進行劃分，不同的特徵選擇方式可以得到不同的決策樹，而我們想得到的決策樹，它不僅能很好地擬合訓練資料，還有較好的泛化能力。

那麼該怎麼選特徵呢？一個基本準則是，每一步都遞迴地選擇最優特徵，可以對各個子資料集達到最後的分類結果。

如何評價特徵的優劣呢？這就不得不提到資訊增益和資訊增益比這兩個概念了。

熵&條件熵

說到資訊增益，不得不先提一提熵(entropy)和條件熵(conditional entropy)。

熵是表示隨機變數不確定性的度量，定義如下：

條件熵表示在已知隨機變數X的條件下，隨機變數Y的不確定性，定義如下：

當熵和條件熵中的概率由資料估計得到時，就分別稱為經驗熵(empirical entropy)和經驗條件熵(empirical conditional entropy)

。

資訊增益&資訊增益比

資訊增益(information gain)表示得知特徵X的資訊而使得類Y的資訊的不確定性減少程度。定義如下：
這裡寫圖片描述

回到原來的問題，該如何評價特徵的優劣呢？我們就用資訊增益！在這裡，資訊增益表示了由於特徵A而使得對資料集D的分類的不確定性減少的程度。資訊增益大的特徵就具有更強的分類能力啦～

具體如何根據資訊增益選擇特徵呢？用這個方法：對訓練資料集(或子集)D，計算其每個特徵的資訊增益，比較它們的大小，選擇資訊增益最大的特徵。

如何計算資訊增益呢？下面給出資訊增益的演算法：
這裡寫圖片描述

瞭解了資訊增益後，資訊增益比就很好理解了，資訊增益比是資訊增益關於特徵的值的熵之比，具體如下：
這裡寫圖片描述

決策樹生成演算法

ID3演算法

ID3演算法的基本思想是從根結點開始，在每一個結點上都計算所有可能的特徵的資訊增益，然後選出資訊增益最大的一個特徵作為該結點的特徵；然後不斷遞迴進行，構建決策樹。也就是說，ID3演算法每一步都選擇資訊增益最大的特徵作為結點的分類特徵，構建子結點。

具體演算法步驟如下：
這裡寫圖片描述

C4.5演算法

C4.5演算法與ID3演算法相似，區別在於，C4.5演算法用資訊增益比來選擇特徵。

具體演算法步驟如下：
這裡寫圖片描述

決策樹剪枝演算法

按以上生成方式遞迴地產生決策樹容易過擬合，即在訓練集上分類效果非常好，但是泛化能力不強，對於其他資料集分類效果並沒有那麼準確。其原因是，構建出的決策樹往往過於複雜，那麼解決這個問題的辦法就是通過剪枝演算法降低樹結構的複雜度。

剪枝是一個從已生成的樹上裁掉一些子樹或者葉結點，並將其根結點或父節點作為新的葉結點的過程。

損失函式

剪枝往往通過最小化整體損失函式(loss function)或代價函式(cost function)來實現。損失函式具體定義如下：
這裡寫圖片描述
C(T)表示模型預測誤差，衡量了擬合程度；|T|表示模型複雜度。損失函式制衡了擬合程度和模型複雜度之間的平衡。

剪枝演算法

剪枝的總體目標是令損失函式最小化，因此剪枝演算法的基本思想是如果剪枝回縮後損失的函式值比不剪枝更小，那麼就剪枝回縮，不然不剪枝。

具體演算法為：
這裡寫圖片描述

分類樹與迴歸樹CART

分類樹與迴歸樹(classification and regression tree, CART)模型是應用廣泛的決策樹學習方法，既可用於分類，也可用於迴歸。

CART演算法由兩步組成：

(1)決策樹生成：基於訓練資料生成決策樹，決策樹要儘可能大，擬合度儘可能高

(2)決策樹剪枝：用驗證資料集對已生成的樹進行剪枝並選擇最優子樹，剪枝的標準為令損失函式最小。

接下來我們分別來看看CART生成演算法和剪枝演算法。

CART生成演算法

對於迴歸樹，用平方誤差最小化準則；對於分類樹，用基尼指數(Gini index)最小化準則，進行特徵選擇，遞迴地構建決策樹。

迴歸樹的生成

在輸出變數Y為連續變數時，我們選用迴歸樹。

給定訓練資料集為 $D = (x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})$

假設輸入空間被劃分為m個單元 $R_{1}, R_{2}, \dots, R_{m}$ ，每個單元的輸出值為 $c_{m}$ ， $I$ 為指示函式，迴歸樹模型可表示為

f (x) = \sum_{m = 1}^{M} c_{m} I (x \in R_{m})

訓練誤差為 $\sum_{x_{i} \in R_{m}} (y - f (x_{i}))^{2}$

$c_{m}$ 最優值為 $\hat{c_{m}} = a v e (y_{i} | x_{i} \in R_{m})$

如何對輸入空間進行劃分呢？採用的辦法是，遍歷所有特徵和特徵的取值，找到最優切分變數 $x^{(j)}$ 和最優切分點 $s$ ，滿足

min_{j, s} [min_{c_{1}} L o s s (y_{i}, c_{1})^{2} + min_{c_{2}} L o s s (y_{i}, c_{2})^{2}]

其中

\hat{c_{1}} = a v e (y_{i} | x_{i} \in R_{1} (j, s))

\hat{c_{2}} = a v e (y_{i} | x_{i} \in R_{2} (j, s))

對於每一個區域都迭代地重複上述劃分過程，直到滿足停止條件，就生成了一棵迴歸樹。

具體演算法步驟為：

【統計學習方法】決策樹

何為決策樹？

決策樹定義

如何分類？

決策樹的特徵選擇

熵&條件熵

資訊增益&資訊增益比

決策樹生成演算法

ID3演算法

C4.5演算法

決策樹剪枝演算法

損失函式

剪枝演算法

分類樹與迴歸樹CART

CART生成演算法

【統計學習方法】決策樹

【統計學習方法】k近鄰 kd樹的python實現

統計學習方法五決策樹分類

【統計學習方法-李航-筆記總結】五、決策樹

【統計學習方法-李航-筆記總結】十一、條件隨機場

【統計學習方法-李航-筆記總結】十、隱馬爾可夫模型

【統計學習方法-李航-筆記總結】九、EM(Expectation Maximization期望極大演算法)演算法及其推廣

【統計學習方法-李航-筆記總結】八、提升方法

【統計學習方法-李航-筆記總結】七、支援向量機

【統計學習方法-李航-筆記總結】六、邏輯斯諦迴歸和最大熵模型

【統計學習方法-李航-筆記總結】四、樸素貝葉斯法

【統計學習方法-李航-筆記總結】三、k近鄰法

【統計學習方法讀書筆記】感知機的個人理解（2）

【統計學習方法讀書筆記】感知機的個人理解（1）

【統計分析方法】1.統計學知識圖譜

【機器學習八】決策數

影象分割綜述【深度學習方法】

【用python實現《統計學習方法》】之決策樹C4.5/ID3

《統計學習方法（李航）》講義第05章決策樹

【ML】統計學習方法筆記

【統計學習方法】決策樹

何為決策樹？

決策樹定義

如何分類？

決策樹的特徵選擇

熵&條件熵

資訊增益&資訊增益比

決策樹生成演算法

ID3演算法

C4.5演算法

決策樹剪枝演算法

損失函式

剪枝演算法

分類樹與迴歸樹CART

CART生成演算法

相關推薦