決策樹的改進--組合預測模型：裝袋技術

阿新 • • 發佈：2018-12-09

基本思想 通過Bootstrap抽樣（0.632自舉法），對樣本量為n的樣本，做k次有放回重複抽樣，得到k個樣本容量仍為n的隨機樣本Si，基於樣本Si,建立k棵分類迴歸樹，即k個預測模型。對於分類問題，採用k個預測模型“投票”和“少數服從多數”的原則。哪個類別“得票”最多，就預測為哪個類別。對於迴歸問題，以k個預測模型給出的預測值的平均值作為最終的預測值。若令k個預測模型為所有觀測投票預測，總有部分觀測參與建模，會導致預測誤差的估計偏樂觀。一般採用基於袋外（Out Of Bag，OOB）觀測的預測誤差。即若第i個觀測在建模過程中有q（q＜k）次作為OOB觀測，則對第i個觀測進行預測時應有q個預測模型為其投票，並以得票最高的類別作為其預測類別。對袋裝技術而言，袋外觀測的比例大約為36.8％。

下面以R語言分類預測–決策樹中的例子的基礎上，進行模型優化：

library('ipred')
#袋裝技術建立樹模型
#coob=TRUE：基於袋外觀測計算預測誤差；nbagg=25即抽樣次數k;control同單棵樹引數意義相同
tree_bag <- ipred::bagging(pres92~age+educ+degree+sex, data=df,nbagg=25, coob=TRUE, control=rc )
#使用模型對樣本所有觀測進行預測
ts2 <- predict(tree_bag, df, type='class')
#計算混淆矩陣
tb2 <- table(df$pres92,ts2)
#計算錯判率 

t2 <- diag(tb2)
rs2 <-vector()
for(j in 1:3){
  b = 1-t2[j]/sum(tb2[,j])
  rs2 = c(rs2,b) 
};rs2

對角線為預測正確的觀測數這裡寫圖片描述

則此時第1類錯判率為0.3168000即(66+132)/(427+66+132)，第2類錯判率為0.3687500，第3類錯判率為0.2928437 這裡寫圖片描述很明顯，整體而言，錯判率較單棵數降低10%左右

決策樹的改進--組合預測模型：裝袋技術

決策樹的改進--組合預測模型：裝袋技術

論文筆記1《基於ID3決策樹改進演算法的客戶流失預測分析》

機器學習之決策樹與隨機森林模型

R語言-決策樹-員工離職預測訓練賽

PMP知識點總結-決策樹（DMT）分析：制定專案決策

決策樹模型組合之隨機森林與GBDT（轉）

四分類：基本概念，決策樹與模型評估2

四分類：基本概念，決策樹與模型評估1

（預測貸款使用者是否會逾期）支援向量機和決策樹的模型建立

客戶貸款逾期預測[2]-svm和決策樹模型

python3.5《機器學習實戰》學習筆記（五）：決策樹演算法實戰之預測隱形眼鏡型別

資料探勘模型介紹之三：決策樹

【Machine Learning】決策樹案例：基於python的商品購買能力預測系統

大資料入門——使用決策樹模型預測泰坦尼克號乘客的生還情況

python決策樹模型預測銷售量

重學 Java 設計模式：實戰組合模式(營銷差異化人群發券，決策樹引擎搭建場景)

分類算法：決策樹（C4.5）(轉)

Spark機器學習(6)：決策樹算法

Spark 決策樹--回歸模型

【Spark MLlib速成寶典】模型篇05決策樹【Decision Tree】（Python版）

決策樹的改進--組合預測模型：裝袋技術

相關推薦