1. 程式人生 > >決策樹,Adaboost,GBDT,Xgboost,LightGBM等

決策樹,Adaboost,GBDT,Xgboost,LightGBM等

1 決策樹

ID3,C4.5 CART    特徵選擇,決策樹構建,剪枝

2 Adaboost

大多數提升方法都是改變訓練資料的概率(權值)分佈,針對不同的訓練資料分佈呼叫弱學習演算法的一系列弱分類器

從而,兩個問題需要解答:  (1)每一輪如何改變訓練資料的權值分佈?  adaboost將分類錯誤的樣本權值提高,降低分類正確的樣本權值,從而使分類錯誤的樣本得到更大的關注  (2)如何將弱分類器組合成一個強分類器?  adaboost採用加權多數表決方法

3 GBDT

CART+加法模型(殘差,提升)+ 梯度近似殘差

4 xgboost

 XGBOOST

XGBOOST同樣採用加性模型與前向分佈演算法,XGBOOST採用的基本模型為迴歸決策樹

3.1 損失函式

訓練資料集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R)D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),表示樣本數量為nn,特徵數量為mm,加性模型預測樣本xixi 

y^i=ϕ(xi)=∑k=1Kfk(xi),fk∈F(3.1)(3.1)y^i=ϕ(xi)=∑k=1Kfk(xi),fk∈F

其中F={f(x)=ωq(x)}(q:Rm→T,ω∈RT)F={f(x)=ωq(x)}(q:Rm→T,ω∈RT)表示迴歸樹空間,qq表示樣本到葉子節點序號的對映,TT表示樹中葉子節點的個數,ωω表示葉子節點權重,與分類樹不同的是,迴歸樹在每個葉子節點都有一個連續的score。  XGBBOST的目標損失函式為: 

L(ϕ)=∑i(l(y^i,yi))+∑kΩ(fk)(3.2)(3.2)L(ϕ)=∑i(l(y^i,yi))+∑kΩ(fk)

其中Ω(f)=γT+12λ||ω||2Ω(f)=γT+12λ||ω||2表示正則化項