隨機森林&GBDT演算法以及在MLlib中的實現

決策樹的一個缺點是容易出現過擬合，可以把利用融合的方式把各個弱模型整合起來，解決過擬合，提高模型的泛化能力。決策樹和bagging 、boosting的思想結合在一起，諸如隨機森林、GBDT，在資料探勘中的預測分類、推薦廣告以及搜尋中的排序演算法模型、搜尋關鍵詞的擴充套件推薦等等應用的非常廣泛。

先講一下bagging和boosting方式的區別。

Bagging的方式算是比較簡單的，訓練多個模型，利用每個模型進行投票，每個模型的權重都一樣，對於分類問題，取總票數最多作為分類，對於迴歸，取平均值。利用多個弱分類器，整合一個性能高的分類器。典型代表是隨機森林。隨機森林在訓練每個模型的時，增加隨機的因素，對特徵和樣本進行隨機抽樣，然後把各顆樹訓練的結果整合融合起來。隨機森林可以進行並行訓練多顆樹。

Boosting的方式也是訓練多個決策樹模型，是一種迭代的演算法模型，在訓練過程中更加關注錯分的樣本，對於越是容易錯分的樣本，後續的模型訓練約要花更多精力去關注，提高上一次分錯的資料權重，越在意那些分錯的資料。在整合融合時，每次訓練的模型權重也會不一樣，最終通過加權的方式融合成最終的模型。Adaboost、GBDT採用的都是boosting的思想。

用一張圖來看一下Adaboost方法。

訓練過程如下：

1、初始時，樣本的訓練權重都是一樣，通過一個弱分類器，得到這些樣本的分類預測標籤。與給出的樣本真實標籤對比，就可能出現誤差(即錯誤)。如果某個樣本預測錯誤，則它對應的錯誤值為該樣本的權重，如果分類正確，則錯誤值為0. 最後累加5個樣本的錯誤率之和，記為ε。

2、通過ε來計算該弱分類器的權重α，公式如下：

3、通過α來計算訓練下一個弱分類器樣本的權重D，如果對應樣本分類正確，則減小該樣本的權重，公式為：

如果樣本分類錯誤，則增加該樣本的權重，公式為：

4、迴圈步驟1,2,3來繼續訓練多個分類器，只是其D值不同而已。

預測過程：

輸入一個樣本到訓練好的每個弱分類中，則每個弱分類都對應一個輸出標籤，然後該標籤乘以對應的α，最後求和得到值的符號即為預測標籤值。

還有一種常用的boosting是Gradient Boosting，GBDT，它主要的思想是，每一次建立模型是在之前建立模型損失函式的梯度下降方向。損失函式(loss function)描述的是模型的不靠譜程度，損失函式越大，則說明模型越容易出錯（其實這裡有一個

方差、偏差均衡的問題，但是這裡就假設損失函式越大，模型越容易出錯）。如果我們的模型能夠讓損失函式持續的下降，則說明我們的模型在不停的改進，而最好的方式就是讓損失函式在其梯度（Gradient)的方向上下降。演算法的每一步沿著損失函式下降最快的方向建立新的模型，這樣使得演算法在每一步均沿著下降最快的方向收斂。直到滿足要求，建立滿足要求的若干組合加權子模型。GradientBoosting，定義loss function為

則對於訓練樣本集合{y, x}，我們的任務是尋找最小化loss的函式F*(x)：

隨機森林&GBDT演算法以及在MLlib中的實現

隨機森林&GBDT演算法以及在MLlib中的實現

利用scikit-learn庫實現隨機森林分類演算法

SPARK官方例項：兩種方法實現隨機森林模型（ML/MLlib）

整合學習:隨機森林/GBDT/XGBoost (學習筆記一)

決策樹、隨機森林整合演算法（Titanic例項）

整合學習:隨機森林.GBDT

集成學習:隨機森林.GBDT

RF（隨機森林）演算法原理及其派生演算法

專案例項---隨機森林在Kaggle例項:Titanic中的應用(二)

hadoop常用演算法在spark中實現

專案例項---隨機森林在Kaggle例項:Titanic中的應用(一)

Bagging與隨機森林(RF)演算法原理總結

機器學習演算法之隨機森林（1）pyspark.mllib中的RF

在OpenCV中實現決策樹和隨機森林

ml課程：決策樹、隨機森林、GBDT、XGBoost相關（含程式碼實現）

關於中值濾波演算法，以及C語言實現

神經網路中反向傳播演算法(backpropagation)的pytorch實現，pytorch教程中的程式碼解讀以及其他一些疑問與解答

通過５折交叉驗證，實現邏輯迴歸，決策樹，SVM,隨機森林，GBDT,Xgboost,lightGBM的評分

MLlib中決策樹演算法的實現原理解析

機器學習：隨機森林演算法及其實現

隨機森林&GBDT演算法以及在MLlib中的實現

相關推薦