R_針對churn資料用id3、cart、C4.5和C5.0建立決策樹模型進行判斷哪種模型更合適

阿新 • • 發佈：2018-11-09

　　data(churn)匯入自帶的訓練集churnTrain和測試集churnTest

　　用id3、cart、C4.5和C5.0建立決策樹模型，並用交叉矩陣評估模型，針對churn資料，哪種模型更合適　　

　　決策樹模型 ID3/C4.5/CART演算法比較　　　傳送門

　　data(churn)為R自帶的訓練集，這個data(chun十分特殊)

　　先對data(churn)訓練集和測試集進行資料查詢

churnTest資料

　　奇怪之處，不能儲存它的資料，不能檢視資料的維度，不能檢視資料框中每個變數的屬性！！

> data(churn)
> Gary<-data(churn)
> 
> dim(data(churn))
NULL
> dim(Gary)
NULL
> 
> str(data(churn))
 chr "churn"
> str(Gary)
 chr "churn"

　　官方我只看懂了它是一個數據集：載入指定的資料集，或列出可用的資料集(英文文件真是硬傷∑=w=)

　　用不同決策樹模型去預測它churn資料集，比較一下哪種模型更合適churn資料

　　比較評估模型(預測)的正確率

#正確率
sum(diag(tab))/sum(tab)

id3建立決策樹模型

#載入資料
data(churn)

#隨機抽樣設定種子，種子是為了讓結果具有重複性
set.seed(1) 

library(rpart)

Gary1<-rpart(churn~.,data=churnTrain,method="class", control=rpart.control(minsplit=1),parms=list(split="information")) 
printcp(Gary1)

#交叉矩陣評估模型
pre1<-predict(Gary1,newdata=churnTrain,type=' 
class')
tab<-table(pre1,churnTrain$churn)
tab

#評估模型(預測)的正確率
sum(diag(tab))/sum(tab)

Gary1.Script

pre1   yes   no
  yes  360   27
  no   123 2823

> sum(diag(tab))/sum(tab)
[1] 0.9549955

cart建立決策樹模型

data(churn)

set.seed(1) 

library(rpart)

Gary1<-rpart(churn~.,data=churnTrain,method="class", control=rpart.control(minsplit=1),parms=list(split="gini"))  
printcp(Gary1)

#交叉矩陣評估模型
pre1<-predict(Gary1,newdata=churnTrain,type='class')
tab<-table(pre1,churnTrain$churn)
tab

#評估模型(預測)的正確率
sum(diag(tab))/sum(tab)

Gary2.Script

pre1   yes   no
  yes  354   35
  no   129 2815

> sum(diag(tab))/sum(tab)
[1] 0.9507951

C4.5建立決策樹模型

data(churn)

library(RWeka)

#oldpar=par(mar=c(3,3,1.5,1),mgp=c(1.5,0.5,0),cex=0.3)

Gary<-J48(churn~.,data=churnTrain)

tab<-table(churnTrain$churn,predict(Gary))
tab
#評估模型(預測)的正確率
sum(diag(tab))/sum(tab)

Gary3.Script

    
       yes   no
  yes  359  124
  no    24 2826

> sum(diag(tab))/sum(tab)
[1] 0.9555956

C5.0建立決策樹模型

data(churn)
treeModel <- C5.0(x = churnTrain[, -20], y = churnTrain$churn)

ruleModel <- C5.0(churn ~ ., data = churnTrain, rules = TRUE)

tab<-table(churnTest$churn,predict(ruleModel,churnTest))
tab
#評估模型(預測)的正確率
sum(diag(tab))/sum(tab)

Gary4.Script

     
       yes   no
  yes  149   75
  no    15 1428

> sum(diag(tab))/sum(tab)
[1] 0.9460108

實現過程

id3建立決策樹模型：

　　載入資料，隨機抽樣設定種子，種子是為了讓結果具有重複性

data(churn)

set.seed(1)

　　使用rpart包建立決策樹模型

> Gary1<-rpart(churn~.,data=churnTrain,method="class", control=rpart.control(minsplit=1),parms=list(split="information")) 
> printcp(Gary1)

Classification tree:
rpart(formula = churn ~ ., data = churnTrain, method = "class", 
    parms = list(split = "information"), control = rpart.control(minsplit = 1))

Variables actually used in tree construction:
[1] international_plan            number_customer_service_calls state                        
[4] total_day_minutes             total_eve_minutes             total_intl_calls             
[7] total_intl_minutes            voice_mail_plan              

Root node error: 483/3333 = 0.14491　　　　　　#根節點錯誤：483/3333＝0.14491

n= 3333 

        CP nsplit rel error  xerror     xstd　　　　　　#錯誤的XSTD
1 0.089027      0   1.00000 1.00000 0.042076
2 0.084886      1   0.91097 0.95445 0.041265
3 0.078675      2   0.82609 0.90269 0.040304
4 0.052795      4   0.66874 0.72878 0.036736
5 0.022774      7   0.47412 0.51139 0.031310
6 0.017253      9   0.42857 0.49068 0.030719
7 0.012422     12   0.37681 0.46170 0.029865
8 0.010000     17   0.31056 0.43892 0.029171

　　交叉矩陣評估模型

> pre1<-predict(Gary1,newdata=churnTrain,type='class')
> tab<-table(pre1,churnTrain$churn)
> tab
     
pre1   yes   no
  yes  360   27
  no   123 2823

　　對角線上的資料實際值和預測值相同，非對角線上的值為預測錯誤的值

　　評估模型(預測)的正確率

> sum(diag(tab))/sum(tab)
[1] 0.9549955

　　　　diag(x = 1, nrow, ncol) 

　　　　diag(x) <- value 

　　解析： 

　　　　x：一個矩陣,向量或一維陣列,或不填寫。 

　　　　nrow, ncol：可選 行列。 

　　　　value ：對角線的值，可以是一個值或一個向量

diag()函式

cart建立決策樹模型：

　　與id3區別parms=list(split="gini"))

Gary1<-rpart(churn~.,data=churnTrain,method="class", control=rpart.control(minsplit=1),parms=list(split="gini"))

　　解釋略

> data(churn)
> 
> set.seed(1) 
> 
> library(rpart)
> 
> Gary1<-rpart(churn~.,data=churnTrain,method="class", control=rpart.control(minsplit=1),parms=list(split="gini"))  
> printcp(Gary1)

Classification tree:
rpart(formula = churn ~ ., data = churnTrain, method = "class", 
    parms = list(split = "gini"), control = rpart.control(minsplit = 1))

Variables actually used in tree construction:
[1] international_plan            number_customer_service_calls state                        
[4] total_day_minutes             total_eve_minutes             total_intl_calls             
[7] total_intl_minutes            voice_mail_plan              

Root node error: 483/3333 = 0.14491

n= 3333 

        CP nsplit rel error  xerror     xstd
1 0.089027      0   1.00000 1.00000 0.042076
2 0.084886      1   0.91097 0.96273 0.041414
3 0.078675      2   0.82609 0.90062 0.040265
4 0.052795      4   0.66874 0.72050 0.036551
5 0.023810      7   0.47412 0.49896 0.030957
6 0.017598      9   0.42650 0.53416 0.031942
7 0.014493     12   0.36853 0.51553 0.031426
8 0.010000     14   0.33954 0.48654 0.030599
> 
> #交叉矩陣評估模型
> pre1<-predict(Gary1,newdata=churnTrain,type='class')
> tab<-table(pre1,churnTrain$churn)
> tab
     
pre1   yes   no
  yes  354   35
  no   129 2815
> 
> #評估模型(預測)的正確率
> sum(diag(tab))/sum(tab)
[1] 0.9507951

C4.5建立決策樹模型：

　　讀取資料，載入party包

data(churn)

library(RWeka)

　　使用rpart包J48()建立決策樹模型

> Gary<-J48(churn~.,data=churnTrain)

> tab<-table(churnTrain$churn,predict(Gary))
> tab
     
       yes   no
  yes  359  124
  no    24 2826

> #評估模型(預測)的正確率
> sum(diag(tab))/sum(tab)
[1] 0.9555956

C5.0建立決策樹模型：

　　C5.0演算法則是C4.5演算法的商業版本，較C4.5演算法提高了運算效率，它加入了boosting演算法，使該演算法更加智慧化

　　解釋略

> data(churn)
> treeModel <- C5.0(x = churnTrain[, -20], y = churnTrain$churn)
> 
> ruleModel <- C5.0(churn ~ ., data = churnTrain, rules = TRUE)
> 
> tab<-table(churnTest$churn,predict(ruleModel,churnTest))
> tab
     
       yes   no
  yes  149   75
  no    15 1428
> #評估模型(預測)的正確率
> sum(diag(tab))/sum(tab)
[1] 0.9460108

diag(x = 1, nrow, ncol)

　　　　diag(x) <- value

　　解析：

　　　　x：一個矩陣,向量或一維陣列,或不填寫。

　　　　nrow, ncol：可選行列。

　　　　value ：對角線的值，可以是一個值或一個向量

R_針對churn資料用id3、cart、C4.5和C5.0建立決策樹模型進行判斷哪種模型更合適

　　data(churn)匯入自帶的訓練集churnTrain和測試集churnTest 　　用id3、cart、C4.5和C5.0建立決策樹模型，並用交叉矩陣評估模型，針對churn資料，哪種模型更合適　　　　決策樹模型 ID3/C4.5/CART演算法比較　　　傳送門

決策樹ID3、CART、C4.5之間的區別

歷史回顧：1984年提出的cart，1986年提出的ID3，1993年提出的c4.5 理論上總的來說， C4.5是基於ID3優化後產出的演算法，主要優化了關於節點分支的計算方式，優化後解決了ID3分支過程中總喜歡偏向取值較多的屬性 ID3是資訊增益分支：而CAR

決策樹ID3、C4.5、CART、隨機森林的原理與例子

（寫在前面：作者是一名剛入學的模式識別專業的碩士生，第一次寫部落格，有錯誤的地方還請大家多多指教評論，一起交流呀~）決策樹的基本流程 ①劃分特徵的選擇（常見的選擇方法有：資訊增益、增益率、基尼指數，下文會詳細介紹） ②劃分停止準則：停止準則表示該節點不再劃分

決策樹的進化（ID3、C4.5、CART、GBDT、RF、DART、lambdaMART、XGBoost、lightGBM）

pipeline 在資料探勘領域中，決策樹是對資料進行建模的一種很有效的手段。當資料集被清洗好後，資料集就是樣本的集合，每一個樣本都是有一樣多的屬性，但屬性值可能不同（也有可能不存在即屬性值缺失）。每一個樣本，分為屬性（也可稱為特徵）和label兩部分，我們運用決策樹處理資

httppost請求json並處理返回結果respone資料用的是httpclient-4.3.5.jar和httpcore-4.3.3.

package com; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.client.ClientProtocolEx

【面試考】【入門】決策樹演算法ID3，C4.5和CART

關於決策樹的purity的計算方法可以參考： [決策樹purity/基尼係數/資訊增益 Decision Trees](https://www.cnblogs.com/PythonLearner/p/12940067.html) 如果有不懂得可以私信我，我給你講。 ## ID3 用下面的例子來理解這個演算法：

【資料結構】——樹狀陣列的幾種模型

樹狀陣列基本定義：樹狀陣列是利用二分的思想使得查詢和修改的複雜度都為log(n)的資料結構，主要用於查詢陣列字首和、區間和並且經常更改資料。資料結構思想：如上圖，2的k次方的位置存放1一直到2k這些數的和，然後再不斷二分。具體實現可以用二進位制解

ML之DT：基於簡單迴歸問題訓練決策樹(DIY資料集+七種{1~7}深度的決策樹{依次進行10交叉驗證})

ML之DT：基於簡單迴歸問題訓練決策樹(DIY資料集+七種{1~7}深度的決策樹{依次進行10交叉驗證}) 輸出結果設計思路核心程式碼 for iDepth in depthList: for ixval in range(nxval)

R語言-決策樹演算法（C4.5和CART）的實現

決策樹演算法的實現：一、C4.5演算法的實現 a、需要的包：sampling、party library(sampling) library(party) sampling用於實現資料分層隨機抽樣，構造訓練集和測試集。 party用於實現決策樹演算法另外，還可以設定隨

機器學習筆記：ID3演算法建立決策樹(一)

ID3演算法的核心思想以資訊熵的下降速度作為選取測試屬性的標準，所選的測試屬性是從根節點到當前節點的路徑上尚未被考慮的具有最高資訊增益的屬性。維基百科上對ID3演算法有比較詳細的介紹：ID3維基

ID3演算法改進的C4.5演算法決策樹演算法

最早的決策時演算法是由 Hunt 等人於 1966 年提出的 CLS 。當前最有影響的決策樹演算法是 Quinlan 於 1986 年提出的 ID3 和 1993 年提出的 C4.5 。 ID3 只能處理離散型描述屬性，它選擇資訊增益最大的屬性劃分訓練樣本，其目的是進行分枝時系統的熵最小，從而提高演算法

機器學習筆記：ID3演算法建立決策樹(二)

在《機器學習筆記：ID3演算法建立決策樹(一)》中記錄了ID3演算法的計算公式和步驟，現在用例子記錄一下ID3構建決策樹的過程。對以下資料進行分類： - 是否能飛？是否有羽毛？是小鳥？ 1 是是是

資料探勘入門系列教程（三點五）之決策樹

## 資料探勘入門系列教程（三點五）之決策樹本來還是想像以前一樣，繼續學習《 Python資料探勘入門與實踐》的第三章“決策樹”，但是這本書上來就直接給我懟了一大串程式碼，對於`決策樹`基本上沒有什麼介紹，可直接把我給弄懵逼了，主要我只聽過決策樹還沒有認真的瞭解過它。這一章節主要是對決策樹做一個介紹

做業務、做技術和打雜，你的職場現狀是哪種？

大家好，之前寫過一篇關於職場當中打雜文化的文章，反響不錯。最近剛好有些小夥伴在準備校招，來請教我招聘資訊當中的“做業務”究竟是什麼意思。所以我就寫下了本文，把這裡面的門道給大家說道說道。我們談到業務這個詞，大家聯想得最多的應該是銷售或者是售後服務這類崗位。但實際上在網際網路公司也有技術和業務的區別。面試的時

習題 14.3 學校的人事部門儲存了有關學生的部分資料（學號、姓名、年齡、住址），教務部門也儲存了學生的另外一些資料（學號、姓名、性別、成績），兩個部門分別編寫了本部門的學生資料管理程式，其中都用。。

C++程式設計（第三版）譚浩強習題14.3 個人設計習題 14.3 學校的人事部門儲存了有關學生的部分資料（學號、姓名、年齡、住址），教務部門也儲存了學生的另外一些資料（學號、姓名、性別、成績），兩個部門分別編寫了本部門的學生資料管理程式，其中都用了Student作為類名。現在

R_Studio(cart演算法決策樹)對book3.csv資料用測試集進行測試並評估模型

對book3.csv資料集，實現如下功能：　　（1）建立訓練集、測試集　　（2）用rpart包建立關於類別的cart演算法的決策樹　　（3）用測試集進行測試，並評估模型　　book3.csv資料集 se

這是一個非常簡單的題目，意在考察你程式設計的基礎能力。千萬別想難了哦。輸入為一行，包括了用空格分隔的三個整數 AA、BB、CC（資料範圍均在-40−40 ~ 4040 之間）。輸出為一行，為“A+B+CA

這是一個非常簡單的題目，意在考察你程式設計的基礎能力。千萬別想難了哦。輸入為一行，包括了用空格分隔的三個整數 A、B、C（資料範圍均在−40 ~ 40 之間）。輸出為一行，為“A+B+C”的計算結果。樣例輸入 22 1 3 樣例輸出 26 import java.util.

#資料結構與演算法學習筆記#劍指Offer29：整數中1出現的次數 + 分段思想/按位考慮 + 測試用例（Java、C/C++）

2018.10.5 感受到開學之後工作和課業的雙重壓力，加上近段時間自己出了點小事故，因此斷更了許久。沒事，繼續。這道題有兩種複雜度為的演算法。方法1：遞迴（分段思想）。所有數字出現1的個數 = 每一段數字中出現1的個數之和 1. 對於輸出的數字n，其最高位為

#資料結構與演算法學習筆記#劍指Offer30：把陣列排成最小的數 + 自定義比較器 + 測試用例（Java、C/C++）

2018.10.6 1.求全排列最小。事實上用全排列硬剛這道題確實是最直接的辦法，因為乍一眼看上去實在不好歸納數字之間的順序關係，全排列具體實現原理可以參考上述文章。 2.自定義比較器。為什麼說

CryEngine5.5用程式碼讀出模型的各個資料（頂點、UV、法線等）

IRenderNode** pTestRenderNode = nullptr; uint32 count = gEnv->p3DEngine->GetObjectsByType(EERTy

R_針對churn資料用id3、cart、C4.5和C5.0建立決策樹模型進行判斷哪種模型更合適

相關推薦