機器學習總結(四)——隨機森林與GBDT(梯度提升決策樹)
阿新 • • 發佈:2019-01-10
1. 隨機森林簡介
隨機森林採用的是bagging的思想,bagging即:通過在訓練樣本集中進行有放回的取樣得到多個取樣集,基於每個取樣集訓練出一個基學習器,再將基學習器結合起來共同實現分類或者回歸。隨機森林在對決策樹進行bagging的基礎上,在決策樹的訓練過程中引入了隨機屬性選擇。傳統決策樹在選擇劃分屬性的時候是在當前節點屬性集合中選擇最優屬性,而隨機森林則是對結點先隨機選擇包含k個屬性的子集,再選擇最優屬性,k作為一個引數控制了隨機性的引入程度。
總結起來包括2個:
- 有放回的採集多個取樣集,訓練多個基分類器;
- 每個基分類器隨機選擇一些屬性而不是全部屬性;
特點:
2. 隨機森林怎麼取最後的結果
對於分類問題:可以對多個基分類器進行投票表決的方式;
對於迴歸問題:對於預測的值可以簡單的平均處理計算;
3. GBDT(梯度提升決策樹)對比隨機森林
相同點:
- 都是由多棵樹組成;最終結果都是由多棵樹共同決定;
不同點:
- 隨機森林可以是分類樹也可以是迴歸樹;GBDT只能是迴歸樹;
- 隨機森林對異常值不敏感,而GBDT對異常值很敏感;
- 隨機森林對訓練集一視同仁,GBDT是基於權值的弱分類器的整合;
- 隨機森林採用多數投票等,BDT則是將所有結果累加起來,或者加權累加起來。
4. 隨機森林優缺點
- 資料集表現良好;
- 不容易過擬合;
- 既可以處理離散資料也可以處理連續資料,且資料不需要歸一化處理;
- 可以很好處理缺失資料(隨機森林可以選擇特定維度進行,所有某些維度去掉依然可行);5.容易並行化;