梯度提升樹(GBDT)原理小結

阿新 • • 發佈：2018-12-24

　在整合學習之Adaboost演算法原理小結中，我們對Boosting家族的Adaboost演算法做了總結，本文就對Boosting家族中另一個重要的演算法梯度提升樹(Gradient Boosting Decison Tree, 以下簡稱GBDT)做一個總結。GBDT有很多簡稱，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT（Gradient Boosting Regression Tree）, MART(Multiple Additive Regression Tree)，其實都是指的同一種演算法，本文統一簡稱GBDT。GBDT在BAT大廠中也有廣泛的應用，假如要選擇3個最重要的機器學習演算法的話，個人認為GBDT應該佔一席之地。

1. GBDT概述

　　　　GBDT也是整合學習Boosting家族的成員，但是卻和傳統的Adaboost有很大的不同。回顧下Adaboost，我們是利用前一輪迭代弱學習器的誤差率來更新訓練集的權重，這樣一輪輪的迭代下去。GBDT也是迭代，使用了前向分佈演算法，但是弱學習器限定了只能使用CART迴歸樹模型，同時迭代思路和Adaboost也有所不同。

　　　　在GBDT的迭代中，假設我們前一輪迭代得到的強學習器是 $f_{t - 1} (x)$

ht(x)">ht(x)ht(x)，讓本輪的損失函式

L (y, f_{t} (x) = L (y, f_{t - 1} (x) + h_{t} (x))

　　　　GBDT的思想可以用一個通俗的例子解釋，假如有個人30歲，我們首先用20歲去擬合，發現損失有10歲，這時我們用6歲去擬合剩下的損失，發現差距還有4歲，第三輪我們用3歲擬合剩下的差距，差距就只有一歲了。如果我們的迭代輪數還沒有完，可以繼續迭代下面，每一輪迭代，擬合的歲數誤差都會減小。

　　　　從上面的例子看這個思想還是蠻簡單的，但是有個問題是這個損失的擬合不好度量，損失函式各種各樣，怎麼找到一種通用的擬合方法呢？

2. GBDT的負梯度擬合

　　　　在上一節中，我們介紹了GBDT的基本思路，但是沒有解決損失函式擬合方法的問題。針對這個問題，大牛Freidman提出了用損失函式的負梯度來擬合本輪損失的近似值，進而擬合一個CART迴歸樹。第t輪的第i個樣本的損失函式的負梯度表示為

r_{t i} = - [\frac{\partial L (y_{i}, f (x_{i})))}{\partial f (x_{i})}]_{f (x) = f_{t - 1} (x)}

　　　　利用 $(x_{i}, r_{t i}) (i = 1, 2, . . m)$

　　　　針對每一個葉子節點裡的樣本，我們求出使損失函式最小，也就是擬合葉子節點最好的的輸出值 $c_{t j}$

c_{t j} = \underset{c}{\underset{⏟}{a r g m i n}} \sum_{x_{i} \in R_{t j}} L (y_{i}, f_{t - 1} (x_{i}) + c)

　　　　這樣我們就得到了本輪的決策樹擬合函式如下：

h_{t} (x) = \sum_{j = 1}^{J} c_{t j} I (x \in R_{t j})

　　　　從而本輪最終得到的強學習器的表示式如下：

f_{t} (x) = f_{t - 1} (x) + \sum_{j = 1}^{J} c_{t j} I (x \in R_{t j})

　　　　通過損失函式的負梯度來擬合，我們找到了一種通用的擬合損失誤差的辦法，這樣無輪是分類問題還是迴歸問題，我們通過其損失函式的負梯度的擬合，就可以用GBDT來解決我們的分類迴歸問題。區別僅僅在於損失函式不同導致的負梯度不同而已。

3. GBDT迴歸演算法

　　　　好了，有了上面的思路，下面我們總結下GBDT的迴歸演算法。為什麼沒有加上分類演算法一起？那是因為分類演算法的輸出是不連續的類別值，需要一些處理才能使用負梯度，我們在下一節講。

　　　　輸入是訓練集樣本 $T = {(x_{,} y_{1}), (x_{2}, y_{2}), . . . (x_{m}, y_{m})}$

　　　　輸出是強學習器f(x)

　　　　1) 初始化弱學習器

f_{0} (x) = \underset{c}{\underset{⏟}{a r g m i n}} \sum_{i = 1}^{m} L (y_{i}, c)

　　　　2) 對迭代輪數t=1,2,...T有：

　　　　　　a)對樣本i=1,2，...m，計算負梯度

r_{t i} = - [\frac{\partial L (y_{i}, f (x_{i})))}{\partial f (x_{i})}]_{f (x) = f_{t - 1} (x)}

　　　　　　b)利用 $(x_{i}, r_{t i}) (i = 1, 2, . . m)$

　　　　　　c) 對葉子區域j =1,2,..J,計算最佳擬合值

c_{t j} = \underset{c}{\underset{⏟}{a r g m i n}} \sum_{x_{i} \in R_{t j}} L (y_{i}, f_{t - 1} (x_{i}) + c)

　　　　　　d) 更新強學習器

f_{t} (x) = f_{t - 1} (x) + \sum_{j = 1}^{J} c_{t j} I (x \in R_{t j})

　　　　3) 得到強學習器f(x)的表示式

f (x) = f_{T} (x) = f_{0} (x) + \sum_{t = 1}^{T} \sum_{j = 1}^{J} c_{t j} I (x \in R_{t j})

4. GBDT分類演算法

　　　　這裡我們再看看GBDT分類演算法，GBDT的分類演算法從思想上和GBDT的迴歸演算法沒有區別，但是由於樣本輸出不是連續的值，而是離散的類別，導致我們無法直接從輸出類別去擬合類別輸出的誤差。

　　　　為了解決這個問題，主要有兩個方法，一個是用指數損失函式，此時GBDT退化為Adaboost演算法。另一種方法是用類似於邏輯迴歸的對數似然損失函式的方法。也就是說，我們用的是類別的預測概率值和真實概率值的差來擬合損失。本文僅討論用對數似然損失函式的GBDT分類。而對於對數似然損失函式，我們又有二元分類和多元分類的區別。

4.1 二元GBDT分類演算法

　　　　對於二元GBDT，如果用類似於邏輯迴歸的對數似然損失函式，則損失函式為：

L (y, f (x)) = l o g (1 + e x p (- y f (x)))

　　　　其中 $y \in {- 1, + 1}$

r_{t i} = - [\frac{\partial L (y, f (x_{i})))}{\partial f (x_{i})}]_{f (x) = f_{t - 1} (x)} = y_{i} / (1 + e x p (y_{i} f (x_{i})))

　　　　對於生成的決策樹，我們各個葉子節點的最佳殘差擬合值為

c_{t j} =

梯度提升樹(GBDT)原理小結

1. GBDT概述

2. GBDT的負梯度擬合

3. GBDT迴歸演算法

4. GBDT分類演算法

4.1 二元GBDT分類演算法

梯度提升樹(GBDT)原理小結

GBDT梯度提升樹演算法原理小結（三）

梯度提升樹(GBDT)原理

梯度提升樹GBDT原理

sklearn.linear_model——梯度提升樹(GBDT)調參小結

機器學習（七）—Adaboost 和梯度提升樹GBDT

機器學習boosting演算法—梯度提升樹(GBDT)

筆記︱決策樹族——梯度提升樹(GBDT）

機器學習 | 詳解GBDT梯度提升樹原理，看完再也不怕面試了

梯度提升樹（GBDT）理解

GBDT梯度提升樹（一）

GBDT(梯度提升樹)scikit-klearn中的引數說明及簡匯

機器學習筆記10-梯度提升樹（GBDT）

Python機器學習之梯度提升樹

梯度提升樹中的負梯度和殘差關系

Spark-MLlib的快速使用之五（梯度提升樹GBT 迴歸）

Spark-MLlib的快速使用之四（梯度提升樹GBT 分類）

損失函式與梯度提升樹

簡單易學的機器學習演算法——梯度提升決策樹GBDT

GBDT(Gradient boosting Decision Tree)梯度提升決策樹

梯度提升樹(GBDT)原理小結

1. GBDT概述

2. GBDT的負梯度擬合

3. GBDT迴歸演算法

4. GBDT分類演算法

4.1 二元GBDT分類演算法

相關推薦