摘要

本文在寫完GBDT的三篇文章後本來就想寫的，但一直沒有時間，終於剛好碰上需要，有空來寫這篇關於xgboost原理以及一些實踐的東西（這裡實踐不是指給出程式碼然後跑結果，而是我們來手動算一算整個xgboost流程）

由於網上已經許多優秀的文章對xgboost原理進行了詳細的介紹，特別是xgboost作者陳天奇的論文以及slide已經非常完整闡述了整個xgboost的來龍去脈，現有的文章基本也是參考了這兩個資料。
但是卻少涉及把原理對應到實際實現過程的文章，許多人看完原理之後可能對整個過程還是抱有好奇心，所以本文從另一個角度，原理到實際執行的角度來分析xgboost，相當於結合原理，仔細看看xgboost每一步到底計算了什麼。

原理

當然，我們還是需要簡要的回顧一下xgboost的整個推導過程，以及做一些鋪墊，方便後面敘述。

我們知道，任何機器學習的問題都可以從目標函式(objective function)出發，目標函式的主要由兩部分組成損失函式+正則項。

O b j (Θ) = L (Θ) + Ω (Θ)

損失函式用於描述模型擬合數據的程度。
正則項用於控制模型的複雜度。

對於正則項，我們常用的L2正則和L1正則。

L1正則：

Ω (w) = λ | | w | |_{1}

L2正則：

Ω (w) = λ | | w | |_{2}

在這裡，當我選擇樹模型為基學習器時，我們需要正則的物件，或者說需要控制複雜度的物件就是這 $K$

K

顆樹,通常樹的引數有樹的深度，葉子節點的個數，葉子節點值的取值（xgboost裡稱為權重weight)。

所以，我們的目標函式形式如下：

L (y_{i}, {\hat{y}}_{i}) + \sum_{k = 1}^{K} Ω (f_{k} (x_{i}))

對一個目標函式，我們最理想的方法就選擇一個優化方法演算法去一步步的迭代的學習出引數。但是這裡的引數是一顆顆的樹，沒有辦法通過這種方式來學習。

既然如此，我們可以利用Boosting的思想來解決這個問題，我們把學習的過程分解成先學第一顆樹，然後基於第一棵樹學習第二顆樹。也就是說：

{\hat{y}}_{i}^{0} = 常 数

{\hat{y}}_{i}^{1} = {\hat{y}}_{i}^{0} + f_{1} (x_{i})

{\hat{y}}_{i}^{2} = {\hat{y}}_{i}^{1} + f_{2} (x_{i})

\begin{matrix} (0) & {\hat{y}}_{i}^{K} = {\hat{y}}_{i}^{K - 1} + f_{K} (x_{i}) \end{matrix}

所以，對於第K次的目標函式為：

O b j^{K} = \sum_{i} L (y_{i}, {\hat{y}}_{i}^{K}) + Ω (f_{K}) + c o n s t a n t

==>

O b j^{K} = \sum_{i} L (y_{i}, {\hat{y}}_{i}^{K - 1} + f_{K} (x_{i})) + Ω (f_{K}) + c o n s t a n t

xgboost原理分析以及實踐

摘要

原理

xgboost原理分析以及實踐

受限玻爾茲曼機(RBM)原理分析以及在Tensorflow的實現

Dagger2執行原理分析以及MVP案例

IllegalStateException: Only fullscreen opaque activities can request orientation 原理分析以及解決辦法

MVVM模式原理分析及實踐

手動SQL注入原理分析與實踐

【專欄】- Dubbo開發實踐以及原始碼、原理分析

關於概率分佈理論的原理分析的一些討論，以及經典概率分佈的應用場景，以及概率統計其在工程實踐中的應用

SELECT TOP 1 比不加TOP 1 慢的原因分析以及SELECT TOP 1語句執行計劃預估原理

kubernetes排程實踐及原理分析

Android 常用換膚方式以及原理分析

現代編譯原理——第四章：語義分析以及原始碼

安卓進階(3)之Handler/Looper/MessageQueue原始碼分析以及原理理解

Presto UDF原理分析與淺實踐

Spark基本原理概念以及 spark streaming 核心原理及實踐

iOS編譯器LLVM + Clang架構分析以及三種混淆方案實踐分析

Android的延遲實現的幾種解決方案以及原理分析

Android Handler 機制以及各方法所線上程原理分析

Spring 最簡單的注入以及原理分析

kmeans演算法原理以及實踐操作