Machine Learning Series No.4 -- Decision Trees

阿新 • • 發佈：2019-01-21

決策樹

決策樹的總結可以劃分為以下兩個問題：

1.結點如何分裂？
2.如何剪枝？

剪枝有多重策略，常用的是代價複雜度剪枝（Cost complexity pruning），又叫最弱連線剪枝（weakest link pruning）。

剪枝策略

剪枝策略很多，以下只是一種，在各個演算法中可以選用。

代價複雜度剪枝（Cost complexity pruning）

\sum_{m = 1}^{| T |} \sum_{i : x_{i} \in R_{m}} (y_{i} - {\hat{y}}_{R_{m}})^{2} + α | T |

這裡∣T∣代表樹 T 中葉結點的數量，R_m 代表第 m 個葉結點對應的矩形（預測器空間的子集），yhat_Rm 是 Rm 的預測值，即 Rm 中訓練樣本預測值的均值（或分類樹中的模式響應）。調整引數 α 控制子樹複雜度之間的權衡，對訓練資料進行擬合。當 α= 0 的時候，子樹 T 等同於 T_0。當α的值增長時，構建具備多個子結點的樹需要付出代價，這樣，要想得到更小的子樹，上述公式將達到最小化。我們可以使用某種交叉驗證方法選擇剪枝引數 α 。

ID3演算法

特徵值為離散特徵。

結點如何分裂？

選擇能獲得最大資訊增益的特徵值進行分裂。
如何剪枝？

C4.5演算法

特徵值可以為離散特徵，也可以連續特徵。

結點如何分裂？

1.對於連續特徵值，選擇一定方式將其離散化。

2.對於離散化處理後的特徵，使用資訊增益比進行特徵的選取進行分裂。

3.使用資訊增益比可以修正資訊增益對於取值較多特徵的偏好。
如何剪枝？

CART樹

可以分為分類樹、迴歸樹。

目的是將特徵空間R進行分割，分割成R1,R2…。

使得每個R的子空間的輸出值為子空間的樣本的均值（使用平方差作為擬合程度的度量，可得均值是最優解）。

然而同時考慮多個維度的劃分是不可行的，CART樹在劃分時，基於貪心演算法，每次將空間劃分成兩個子空間，然後遞迴劃分兩個空間，這種方法稱為“遞迴二元分割”

。

1.迴歸樹

結點如何分裂？

基於二元分割，使用平方和來度量擬合程度，找到使得每次劃分成兩個區域以後的平方損失最小。
如何剪枝？

2.分類樹

結點如何分裂？

基於二元分割，使用基尼指數度量分割後的純度，選擇分割後，具有較小基尼指數和的特徵值。
如何剪枝

Bagging樹模型

Bootstrap Aggregation – Bagging

1534406881061

上述圖片摘自部落格。

我們可以通過從（單一）訓練資料集提取重複樣本進行自助法（bootstrap）操作。在這種方法中，我們生成了 B 個不同的自助訓練資料集。我們隨後在第 b 個自助訓練資料集得到了一個預測結果，從而獲得一個聚集預測（aggregate prediction）。

這就叫做袋裝（bagging）。注意，聚集（aggregating）在迴歸和分類問題中可能有不同的均值。當平均預測值在迴歸問題中的效果很好時，我們將會需要使用多數票決（majority vote）：由於分類問題中的聚集機制，整體預測就是在 B 個預測值中最常出現的那個主要類別。

對於一個樣本，它在某一次含m個樣本的訓練集的隨機取樣中 $\frac{1}{m}$ 。不被採集到的概率為 $1 - \frac{1}{m}$ 。如果m次取樣都沒有被採集中的概率是 $(1 - \frac{1}{m})^{m}$ 。當m→∞時， $(1 - \frac{1}{m})^{m}$ → $\frac{1}{e}$ ≃0.368。也就是說，在bagging的每輪隨機取樣中，訓練集中大約有36.8%的資料沒有被取樣集採集中。

對於這部分大約36.8%的沒有被取樣到的資料，我們常常稱之為袋外資料(Out Of Bag, 簡稱OOB)。這些資料沒有參與訓練集模型的擬合，因此可以用來檢測模型的泛化能力

隨機森林

理解了bagging演算法，隨機森林(Random Forest,以下簡稱RF)就好理解了。它是Bagging演算法的進化版，也就是說，它的思想仍然是bagging,但是進行了獨有的改進。我們現在就來看看RF演算法改進了什麼。　　　

首先，RF使用了CART決策樹作為弱學習器，這讓我們想到了梯度提示樹GBDT。第二，在使用決策樹的基礎上，RF對決策樹的建立做了改進，對於普通的決策樹，我們會在節點上所有的n個樣本特徵中選擇一個最優的特徵來做決策樹的左右子樹劃分，但是RF通過隨機選擇節點上的一部分樣本特徵，這個數字小於n，假設為 $n_{s u b}$ ，然後在這些隨機選擇的 $n_{s u b}$ 個樣本特徵中，選擇一個最優的特徵來做決策樹的左右子樹劃分。這樣進一步增強了模型的泛化能力。　　　　

Machine Learning Series No.4 -- Decision Trees

決策樹

剪枝策略

ID3演算法

C4.5演算法

CART樹

Bagging樹模型

隨機森林

Machine Learning Series No.4 -- Decision Trees

Machine Learning Series No.5 -- Boosting & Bagging

Machine Learning Series No.9 -- HMM(Hidden Markov Model)

Machine Learning Series No.2 --Logistic Regression

Machine Learning Series No.6 -- EM algorithm

AI and machine learning in radiology: 4 things to know

Machine Learning - week 4 - 習題

2013 UBC Machine Learning NO.6 Bayesian learning

Machine Learning (4) Classification and Representation

Machine Learning week 4 總結

Machine Learning Yearning(3、4)

Top 4 Steps for Data Preprocessing in Machine Learning

Machine Learning with Time Series Data

Machine Learning for Humans, Part 4: Neural Networks & Deep Learning

step Time Series Forecasting with Machine Learning for Household Electricity Consumption

Comparing Features of 4 Popular Machine Learning Platforms

Machine learning and decision making

4 Challenges Faced by Organizations before Venturing into Machine Learning

4 ways to use machine learning to improve customer experience 7wData

I made a machine learning chicken rice classifier in ~4 hours to tell me what type of chicken rice…

Machine Learning Series No.4 -- Decision Trees

決策樹

剪枝策略

ID3演算法

C4.5演算法

CART樹

Bagging樹模型

隨機森林

相關推薦