Boosting：XGBoost思想及資料推導詳細過程

阿新 • • 發佈：2019-01-14

Boosting思想：

Boosting主要是一種思想，表示“知錯就改”。是一族可將弱學習器提升為強學習器的演算法，如Adaboost、GBDT、XGBOOST，這組演算法的工作機制類似。先從初始訓練集訓練出一個基學習器，再根據基學習器的表現對訓練樣本分佈進行調整，使得先前基學習器做錯的訓練樣本在後續受到更多關注，然後基於調整後的樣本分佈來訓練下一個學習器，如此重複進行下去，直到基學習器數目達到事先指定的值T，最終將這 T個基學習器進行加權結合。

Boosting是是序列構造模型，不斷使用後一個弱分類器彌補前一個弱分類器的不足的過程。且最終結果為模型結果的加總。

Boosting族著名的演算法：Adaboost、GBDT、XGBOOST

1、XGBoost介紹

XGBoost是2014年2月誕生，由中國的陳天奇提出。XGBoost實現的是一種通用的Tree Boosting演算法。 xgboost即能解決分類問題，也能解決迴歸問題。

原理是，首先使用訓練集和樣本真值（即標準答案）訓練一棵樹，然後使用這棵樹預測訓練集，得到每個樣本的預測值，由於預測值與真值存在偏差，所以二者相減可以得到“殘差”。接下來訓練第二棵樹，此時不再使用真值，而是使用殘差作為標準答案。兩棵樹訓練完成後，可以再次得到每個樣本的殘差，然後進一步訓練第三棵樹，以此類推。樹的總棵數可以人為指定，也可以監控某些指標（例如驗證集上的誤差）來停止訓練。

舉例1說明：預測客戶去銀行審批貸款的額度，假設客戶的額度為1000。

使用第一顆樹預測，其目標函式為1000。假設模型預測的結果為920，則殘差為80。
接著構造第二課樹預測，這時其目標函式就要基於第一顆樹的預測結果，此時的目標函式是怎麼樣彌補前一課樹的殘差，即減少殘差。第二顆樹的目標函式為80。假設第二顆樹預測的結果為50，則與真實值的殘差還剩下30，即會作為第三顆樹的目標值。
接著進行第三棵樹預測，此時的目標函式為30，假設第三課樹又找回來12。
依次類推，序列構造，需要把前一顆樹的結果當成一個整體。最終結果值為n棵樹的結果相加。比如例中，如果只做三顆樹預測，最終結果為982。

舉例2說明：用兩顆樹來預測一個人是否喜歡玩遊戲。最下面的一行數2、0.1、-1為得分值

模型的結果為兩顆樹的值相加。比如男孩愛玩遊戲的得分為2.9，老人愛玩遊戲的得分為1.9。

2、目標函式

監督機器學習問題基本上是“在規則化引數的同時最小化誤差”。最小化誤差是為了讓模型擬合訓練資料，而規則化引數是防止模型過分的擬合訓練資料。

設計整合學習的目標函式的目的：

一方面保證預測值和真實值之間的差異最小
另一方面需要樹模型更精簡，防止過擬合

單個模型的損失函式如下：

0?wx_fmt=png

關於邏輯迴歸的推導，可參考另一篇文章：

boosting的損失函式：

Boosting學習中，假設我們構造了k顆樹，則預測函式的總體值為：

0?wx_fmt=png

因為是一系列序列模型的相加，因此，可以列出構建流程如下：

0?wx_fmt=png

因為每輪加入一個模型，到底加入模型的標準是什麼？

這就到目標的角度，需要明確一個目標，來確定加進來什麼模型合適。

設計如下為目標函式，由損失函式、複雜度兩部分構成

0?wx_fmt=png

懲罰項計算案例如下：

0?wx_fmt=png

確定目標函式後，下面就是訓練和求解的過程。

如何訓練並求解目標函式，是GBDT和XGboost的一個區別。

GBDT的求解：具體到每顆樹來說，不斷地尋找分割點(split point)，將樣本集進行分割，初始情況下，所有樣本都處於一個結點（即根結點），隨著樹的分裂過程的展開，樣本會分配到分裂開的子結點上。分割點的選擇通過列舉訓練樣本集上的特徵值來完成，分割點的選擇依據則是減少損失函式。給定一組樣本，實際上存在指數規模的分割方式，所以這是一個NP-Hard的問題，實際的求解演算法也沒有辦法在多項式時間內完成求解，而是採用一種基於貪心原則的啟發式方法來完成求解。也就是說，在選取分割點的時候，只考慮當前樹結構到下一步樹結構的loss變化的最優值，不考慮樹分裂的多個步驟之間的最優值，這是典型的greedy的策略。
XGboost的求解：則是為了便於求解，對l目標函式進行二級Taylor展開進行了變換

boosting的訓練求解推導

在介紹推導前，先介紹下泰勒展開。

0?wx_fmt=png

而我們的目標函式是：

0?wx_fmt=png

先定義一階導數和二階導數：

0?wx_fmt=png

帶入公式轉化目標：

0?wx_fmt=png

因為上面的公式需要遍歷每一個樣本，計算比較複雜，因為每一個樣本最終都要落在葉子節點上，因此可以簡化為遍歷樣本，定義每個葉子節點的樣本個數。

0?wx_fmt=png

根據葉節點重新組合函式：注意現在遍歷點已經轉移到遍歷所有的葉子節點T。

0?wx_fmt=png

推導到此，xgboost的問題演變為，每輪加進來的模型，該怎麼樣構造，按照什麼樣的標準評估。

Obj代表了當我們指定一個樹結構的時候，我們在目標上面最多減少多少，可以把它叫做結構分數。類似於基尼係數一樣，是對樹結構進行打分的函式。

0?wx_fmt=png

下面就是算如何切分，才能使得上面的值最小。而上面的值就是一個切分標準。

假設我們在樣本上切了一刀，

0?wx_fmt=png

對某個特定的分隔a，可以計算出計算a左邊和右邊的導數和。

進而求出切分後帶來的資訊增益。

0?wx_fmt=png

xgboost通過巧妙的設計目標函式，先是在分母上加一個λ，來降低分支的收益“靈敏度”，這個“靈敏度”可以通過修改此引數來控制。當收益小於一個閾值則剪枝，從而達到防止過擬合的目的。另外一個引數γ，從最後每次分割後的收益函式可以看到，這個引數的“物理意義”就是每分裂一次，減去一個視為懲罰的常數

但是對於樣本的切分，需要列舉所有可能的切分方案，看看哪個切分方案帶來的增益最大，從而使得損失函式最小。貪婪的做法，可以假設對於變數x，若要確定切分節點，可以先排序資料，從左到右對所有可能的切分點進行切分一次，每次計算出左導數和右導數和，然後求出資訊增益，最終找出最優切分方案。

Boosting推導過程可以看出，為了求損失函式最小，最後一步步演變成，每輪加進來的模型，該怎麼樣構造，按照什麼樣的標準的問題。

xgboost為什麼是目前比較好用的演算法？（引用總結）

    機器學習就是模型對資料的擬合。對於一組資料，使用過於複雜的模型去擬合，往往會發生過擬合，這時就需要引入正則化項來限制模型複雜度，然而正則化項的選取、正則化係數的設定都是比較隨意的，也比較難做到最佳。而如果使用過於簡單的模型，由於模型能力有限，很難把握資料中蘊含的規律，導致效果不佳。
    Boosting演算法比較巧妙，首先使用簡單的模型去擬合數據，得到一個比較一般的結果，然後不斷向模型中新增簡單模型（多數情況下為層數較淺決策樹），隨著樹的增多，整個boosting模型的複雜度逐漸變高，直到接近資料本身的複雜度，此時訓練達到最佳水平。
    因此，boosting演算法要取得良好效果，要求每棵樹都足夠“弱”，使得每次增加的複雜度都不大，同時樹的總數目要足夠多。XGBoost中，對每棵樹的葉子節點數做了懲罰，從而限制了葉子節點的增長，使得每棵樹都是“弱”的，同時還引入了學習速率，進一步降低了每棵樹的影響。這樣做的代價是，數的總數目會多一些，但從其取得的效果上看，這樣做是值得的。

參考文章：

https://www.zhihu.com/question/41354392/answer/124274741

http://www.a-site.cn/article/714295.html

http://blog.csdn.net/sb19931201/article/details/52557382

http://blog.csdn.net/wty__/article/details/52919675

附：

稀疏矩陣：

矩陣中非零元素的個數遠遠小於矩陣元素的總數，並且非零元素的分佈沒有規律，通常認為矩陣中非零元素的總數比上矩陣所有元素總數的值小於等於0.05時，則稱該矩陣為稀疏矩陣(sparse matrix)，該比值稱為這個矩陣的稠密度；與之相區別的是，如果非零元素的分佈存在規律（如上三角矩陣、下三角矩陣、對角矩陣），則稱該矩陣為特殊矩陣。

Boosting：XGBoost思想及資料推導詳細過程

Boosting：XGBoost思想及資料推導詳細過程

八：go陣列及資料遍歷

[zookeeper]zookeeper系列七：zookeeper選舉及資料一致性

Angular 2 + 折騰記：(7) 初步瞭解表單：模板驅動及資料驅動及脫坑要點

Tomcat(三)：tomcat處理連接的詳細過程

CentOS7搭建FastDFS V5.11分散式檔案系統及Java整合詳細過程(一)

hbase 寫資料，存資料，讀資料的詳細過程

CentOS7搭建FastDFS V5.11分散式檔案系統及Java整合詳細過程(三)

wireshark實戰之：dhcp四次資料包交流過程

Mysql高手系列 - 第27篇：mysql如何確保資料不丟失的？我們借鑑這種設計思想實現熱點賬戶高併發設計及跨庫轉賬問題

圖解集合7：紅黑樹概念、紅黑樹的插入及旋轉操作詳細解讀

Git(1)：思想及概念

資料結構：線段樹及ST演算法比較

資料實時監控平臺（二）：Telegraf簡介及安裝

計算機組成原理——匯流排補充：地址匯流排、資料匯流排、定址能力、字長及cpu位數等概念之間的關係

MySQL資料庫實驗：任務二表資料的插入、修改及刪除

python爬蟲三大解析資料方法：正則及圖片下載案例

程式猿的血淚史：一定要有資料備份的思想，不然死都不知道咋死的！！！

Linux基礎02：磁碟操作，檔案許可權、檔案及資料夾操作、網路服務

CDA深度分享：資料自由之路——資料產品及資料分析職業發展路徑

Boosting：XGBoost思想及資料推導詳細過程

相關推薦