1. 程式人生 > >隨機森林&GBDT演算法以及在MLlib中的實現

隨機森林&GBDT演算法以及在MLlib中的實現

決策樹的一個缺點是容易出現過擬合,可以把利用融合的方式把各個弱模型整合起來,解決過擬合,提高模型的泛化能力。決策樹和bagging 、boosting的思想結合在一起,諸如隨機森林、GBDT,在資料探勘中的預測分類、推薦廣告以及搜尋中的排序演算法模型、搜尋關鍵詞的擴充套件推薦等等應用的非常廣泛。

先講一下bagging和boosting方式的區別。

Bagging的方式算是比較簡單的,訓練多個模型,利用每個模型進行投票,每個模型的權重都一樣,對於分類問題,取總票數最多作為分類,對於迴歸,取平均值。利用多個弱分類器,整合一個性能高的分類器。典型代表是隨機森林。隨機森林在訓練每個模型的時,增加隨機的因素,對特徵和樣本進行隨機抽樣,然後把各顆樹訓練的結果整合融合起來。隨機森林可以進行並行訓練多顆樹。

Boosting的方式也是訓練多個決策樹模型,是一種迭代的演算法模型,在訓練過程中更加關注錯分的樣本,對於越是容易錯分的樣本,後續的模型訓練約要花更多精力去關注,提高上一次分錯的資料權重,越在意那些分錯的資料。在整合融合時,每次訓練的模型權重也會不一樣,最終通過加權的方式融合成最終的模型。Adaboost、GBDT採用的都是boosting的思想。

用一張圖來看一下Adaboost方法。


訓練過程如下:

1、             初始時,樣本的訓練權重都是一樣,通過一個弱分類器,得到這些樣本的分類預測標籤。與給出的樣本真實標籤對比,就可能出現誤差(即錯誤)。如果某個樣本預測錯誤,則它對應的錯誤值為該樣本的權重,如果分類正確,則錯誤值為0. 最後累加5個樣本的錯誤率之和,記為ε。

2、             通過ε來計算該弱分類器的權重α,公式如下:


3、             通過α來計算訓練下一個弱分類器樣本的權重D,如果對應樣本分類正確,則減小該樣本的權重,公式為:


如果樣本分類錯誤,則增加該樣本的權重,公式為:


4、             迴圈步驟1,2,3來繼續訓練多個分類器,只是其D值不同而已。

預測過程:

輸入一個樣本到訓練好的每個弱分類中,則每個弱分類都對應一個輸出標籤,然後該標籤乘以對應的α,最後求和得到值的符號即為預測標籤值。

     還有一種常用的boosting是Gradient Boosting,GBDT,它主要的思想是,每一次建立模型是在之前建立模型損失函式的梯度下降方向。損失函式(loss function)描述的是模型的不靠譜程度,損失函式越大,則說明模型越容易出錯(其實這裡有一個

方差、偏差均衡的問題,但是這裡就假設損失函式越大,模型越容易出錯)。如果我們的模型能夠讓損失函式持續的下降,則說明我們的模型在不停的改進,而最好的方式就是讓損失函式在其梯度(Gradient)的方向上下降。演算法的每一步沿著損失函式下降最快的方向建立新的模型,這樣使得演算法在每一步均沿著下降最快的方向收斂。直到滿足要求,建立滿足要求的若干組合加權子模型GradientBoosting,定義loss function


則對於訓練樣本集合{y, x}我們的任務是尋找最小化loss的函式F*(x)

相關推薦

隨機森林&GBDT演算法以及MLlib實現

決策樹的一個缺點是容易出現過擬合,可以把利用融合的方式把各個弱模型整合起來,解決過擬合,提高模型的泛化能力。決策樹和bagging 、boosting的思想結合在一起,諸如隨機森林、GBDT,在資料探勘中的預測分類、推薦廣告以及搜尋中的排序演算法模型、搜尋關鍵詞的擴充套件推薦

利用scikit-learn庫實現隨機森林分類演算法

自己實踐一下在本章學到一些方法   首先實踐核心的部分,怎麼實現一個分類模型,並通過驗證曲線去優化模型,最後使用訓練出來的模型進行預測 In [20]:

SPARK官方例項:兩種方法實現隨機森林模型(ML/MLlib

在spark2.0以上版本中,存在兩種對機器學習演算法的實現庫MLlib與ML,比如隨機森林:org.apache.spark.mllib.tree.RandomForest 和org.apache.spark.ml.classification.RandomForestCl

整合學習:隨機森林/GBDT/XGBoost (學習筆記一)

知識點: 隨機森林 提升演算法 GBDT(迭代決策樹) Adaboost XGBoost Stacking 整合學習(Ensemble Learning) 整合學習的思想就是將若干個學習器(分類器&迴歸器)組合之後產

決策樹、隨機森林整合演算法(Titanic例項)

#coding:utf-8 import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5) #print (titanic.describe()) t

整合學習:隨機森林.GBDT

整合學習(Ensemble Learning) 整合學習的思想是將若干個學習器(分類器&迴歸器)組合之後產生一個新學習器.弱分類器(weak learner)指那些分類準確率只稍微好於隨機猜測的分類器(errorrate < 0.5); 整合演算法的成功在於保證弱分類器的多樣性(Divers

集成學習:隨機森林.GBDT

一個 邊界 span 基礎上 差異 子節點 png 提升 並行計算 集成學習(Ensemble Learning) 集成學習的思想是將若幹個學習器(分類器&回歸器)組合之後產生一個新學習器.弱分類器(weak learner)指那些分類準確率只稍微好於隨機猜測的分類

RF(隨機森林演算法原理及其派生演算法

1.前言 整合學習有兩個流派,一個是boosting派系,它的特點是各個弱學習器之間有依賴關係。另一種是bagging流派,它的特點是各個弱學習器之間沒有依賴關係,可以並行擬合。本文就對整合學習中

專案例項---隨機森林在Kaggle例項:Titanic的應用(二)

4、 特徵工程 特徵工程主要是對一些不適合直接參與建模的特徵進行各種處理,通過已有資料構建一些新特徵,對特徵進行啞變數轉換等等。 4.1 對Name進行處理 由於名字一般都比較雜亂,似乎對模型預測沒有任何作用。但是通過對Name進行觀察發現,在姓名裡包

hadoop常用演算法在spark實現

object MRInSpark { /** * 求最大值最小值一直是Hadoop的經典案例,我們用Spark來實現一下, * 藉此感受一下spark中mr的思想和實現方式 */ def maxMin = { val sconf =

專案例項---隨機森林在Kaggle例項:Titanic的應用(一)

在前兩篇文章介紹了決策樹和隨機森林的原理、流程和演算法之後,這裡將以隨機森林為例,探索資料探勘演算法在專案中的應用,尤其是在kaggle專案中進行資料探勘的一般流程。 1、分析專案背景 專案背景的熟悉對於我們理解影響分析目標的因素十分重要,甚至可以發

Bagging與隨機森林(RF)演算法原理總結

### Bagging與隨機森林演算法原理總結 在整合學習原理小結中,我們學習到了兩個流派,一個是Boosting,它的特點是各個弱學習器之間存在依賴和關係,另一個是Bagging,它的特點是各個弱學習器之間沒有依賴關係,可以並行擬合,本文就對整合學習中的Bagging和隨機森林做一個總結。 隨機森林是整合

機器學習演算法隨機森林(1)pyspark.mllib的RF

spark的persist操作可以使得資料常駐記憶體,而機器學習最主要的工作——迭代,需要頻繁地存取資料,這樣相比hadoop來說,天然地有利於機器學習。 ———- 單機版。 至於叢集的搭建——現在手頭最多兩臺電腦,後面再折騰。 1、安裝pysaprk

在OpenCV實現決策樹和隨機森林

目錄 1.決策樹 2.隨機森林 1.決策樹 需要注意的點: Ptr<TrainData> data_set = TrainData::loadFromCSV("mushroom.data",//檔名

ml課程:決策樹、隨機森林GBDT、XGBoost相關(含程式碼實現

以下是我的學習筆記,以及總結,如有錯誤之處請不吝賜教。 基礎概念: 熵Entropy:是衡量純度的一個標準,表示式可以寫為: 資訊增益Information Gain:熵變化的一個量,表示式可以寫為: 資訊增益率Gain Ratio:資訊增益的變化率,表示式可以寫為:

關於值濾波演算法以及C語言實現

關於中值濾波演算法,以及C語言實現 2017年04月06日 11:45:58 閱讀數:1464 1、什麼是中值濾波? 中值濾波是對一個滑動視窗內的諸畫素灰度值排序,用其中值代替視窗中心象素的原來灰度值,它是一種非線性的影象平滑法,它對脈衝干擾級椒鹽噪聲的抑制效果好,在抑制隨機噪聲的同

神經網路反向傳播演算法(backpropagation)的pytorch實現,pytorch教程的程式碼解讀以及其他一些疑問與解答

pytorch的官網上有一段教程,是使用python的numpy工具實現一個簡單的神經網路的bp演算法。下面先貼上自己的程式碼: import numpy as np N,D_in,H,D_out = 4,10,8,5 x = np.random.randn(N,D_i

通過5折交叉驗證,實現邏輯迴歸,決策樹,SVM,隨機森林GBDT,Xgboost,lightGBM的評分

通過5折交叉驗證,實現邏輯迴歸,決策樹,SVM,隨機森林,GBDT,Xgboost,lightGBM的評分 匯入的包 import pandas as pd import warnings from sklearn.preprocessing import scale

MLlib決策樹演算法實現原理解析

決策樹作為一種分類迴歸演算法,在處理非線性、特徵值缺少的資料方面有很多的優勢,能夠處理不相干的特徵,並且對分類的結果通過樹的方式有比較清晰的結構解釋,但是容易過擬合,針對這個問題,可以採取對樹進行剪枝的方式,還有一些融合整合的解決方案,比如隨機森林RandomForest

機器學習:隨機森林演算法及其實現

文章目錄 隨機森林演算法描述: 如何對features進行bootstrap? 演算法程式碼實現: 隨機森林演算法描述: 如何對features進行bootstrap? 我們需要一個feature_bound引數,每次把可以選