R語言決策樹及其實現

阿新 • • 發佈：2018-12-30

一顆決策樹包含一個根結點、若干個內部結點和若干個葉結點；葉結點對應於決策結果，其他每個結點則對應於一個屬性測試；每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中；根結點包含樣本全集。從根結點到葉結點的路徑對應於了一個判定測試序列。

目的：為了產生一顆泛化能力強，即處理未見示例能力強的據決策樹。

特別注意幾點：

1）通常所說的屬性是離散，若屬性是連續，則要把屬性離散化，最簡單的是是採用二分法（找劃分點）

2）缺失值處理

決策樹是一個遞迴過程，以下三種情形會導致遞迴返回：

1）當前結點包含的樣本屬於同一類別，無需劃分；

2）當前屬性集為空，或是所有樣本在所有屬性上取值相同，無法劃分；

3）當前結點包含的樣本集合為空，不能劃分。

資訊增益：一般而言，資訊增益越大，則意味著使用屬性a來劃分所獲得的“純度提升”越大

增益率：與資訊增益的原理一樣，但增益率可以校正存在偏向於選擇取值較多的特徵的問題

剪枝處理

1）預剪枝

在決策樹生成過程中，對每個結點在劃分前先進行估計，若當前結點的劃分不能帶來決策樹泛化效能提升，則停止劃分並將當前結點標記為葉結點。

2）後剪枝

先從訓練集生成一顆完整的決策樹，然後自底向上地對非葉結點進行考察，若將該結點對應的子樹替換為葉結點能帶來決策樹泛化效能提升，則將該子樹替換為葉結點。

R語言實現

  library(C50); library(rpart); library(party); library(rpart.plot)
  library(caret)
  
  # 載入資料
  car <- read.table('./data/car.data', sep = ',')
  colnames(car) <- c('buy', 'main', 'doors', 'capacity', 'lug_boot', 'safety', 'accept')
  
  # 資料集分為測試和訓練
  ind <- createDataPartition(car$accept, times = 1, p = 0.75, list = FALSE)
  carTR <- car[ind, ]
  carTE <- car[-ind, ]
  
  # 建立模型

  # 決策樹
  # rpart包
  # 在rpart包中有函式rpart.control預剪枝，prune後剪枝
  #
  # 預剪枝：
  # rpart.control對樹進行一些設定  
  # minsplit是最小分支節點數，這裡指大於等於20，那麼該節點會繼續分劃下去，否則停止  
  # minbucket：樹中葉節點包含的最小樣本數  
  # maxdepth：決策樹最大深度 
  # xval:交叉驗證的次數
  # cp全稱為complexity parameter，指某個點的複雜度，對每一步拆分,模型的擬合優度必須提高的程度
  #
  # 後剪枝：
  # 主要是調節引數是cp
  # prune函式可以實現最小代價複雜度剪枝法，對於CART的結果，每個節點均輸出一個對應的cp
  # prune函式通過設定cp引數來對決策樹進行修剪,cp為複雜度係數
  tc <- rpart.control(minsplit = 20, minbucket = 20, maxdepth = 10, xval = 5, cp = 0.005) # 預剪枝
  rpart.model <- rpart(accept ~ ., data = carTR, control = tc)
  rpart.model <- prune(rpart.model, 
                       cp = rpart.model$cptable[which.min(rpart.model$cptable[,"xerror"]),"CP"]) # 後剪枝
  rpart.plot(rpart.model, under = TRUE, faclen = 0, cex = 0.5, main = "決策樹") # 畫圖
  
  # C5.0
  # C5.0包
  c5.0.model <- C5.0(accept ~ ., data = carTR) # C5.0
  plot(c5.0.model)
  
  # 使用ctree函式實現條件推理決策樹演算法
  # party包
  ctree.model <- ctree(accept ~ ., data = carTR)
  
  # 預測結果，並構建混淆矩陣，查看準確率
  # 構建result，存放預測結果
  result <- data.frame(arithmetic = c('C5.0', 'CART', 'ctree'), errTR = rep(0, 3),errTE = rep(0, 3))
  
  for (i in 1:3) {
    # 預測結果
    carTR_predict <- predict(switch(i, c5.0.model, rpart.model, ctree.model), newdata = carTR,
                             type = switch(i, 'class', 'class', 'response'))
    carTE_predict <- predict(switch(i, c5.0.model, rpart.model, ctree.model), newdata = carTE,
                             type = switch(i, 'class', 'class', 'response'))
    # 混淆矩陣
    tableTR <- table(actual = carTR$accept, predict = carTR_predict)
    tableTE <- table(actual = carTE$accept, predict = carTE_predict)
    
    # 計算誤差矩陣
    result[i, 2] <- paste(round((sum(tableTR) - sum(diag(tableTR)))*100/sum(tableTR), 2), '%')
    result[i, 3] <- paste(round((sum(tableTE) - sum(diag(tableTE)))*100/sum(tableTE), 2), '%')
  }
  #檢視誤差率
> result
  arithmetic  errTR  errTE
1       C5.0 1.16 % 3.25 %
2       CART 5.94 % 7.89 %
3      ctree 4.47 %  5.8 %

R語言決策樹及其實現

一顆決策樹包含一個根結點、若干個內部結點和若干個葉結點；葉結點對應於決策結果，其他每個結點則對應於一個屬性測試；每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中；根結點包含樣本全集。從根結點到葉結點的路徑對應於了一個判定測試序列。目的：為了產生一顆泛化能力強，即處理未

R語言-決策樹演算法（C4.5和CART）的實現

決策樹演算法的實現：一、C4.5演算法的實現 a、需要的包：sampling、party library(sampling) library(party) sampling用於實現資料分層隨機抽樣，構造訓練集和測試集。 party用於實現決策樹演算法另外，還可以設定隨

R語言︱決策樹族——隨機森林演算法

筆者寄語：有一篇《有監督學習選擇深度學習還是隨機森林或支援向量機?》（作者Bio：SebastianRaschka）中提到，在日常機器學習工作或學習中，當我們遇到有監督學習相關問題時，不妨考慮下先用簡單的假設空間（簡單模型集合），例如線性模型邏輯迴歸。若效果不好，也即並沒達到你的預期或評判效果基

R語言-決策樹-員工離職預測訓練賽

題目：員工離職預測訓練賽網址：http://www.pkbigdata.com/common/cmpt/員工離職預測訓練賽_競賽資訊.html 要求：資料主要包括影響員工離職的各種因素（工資、出差、工作環境滿意度、工作投入度、是否加班、是否升職、工資提升比例等）以及員工

R語言-決策樹-party包

1、首先解釋下熵和吉尼係數在決策樹的功用決策樹學習的關鍵是如何選擇最優的劃分屬性。通常，隨著劃分過程的不斷進行，我們希望決策樹的內部分支節點所包含的樣本儘可能屬於同一類別，即節點的“純度”越來越高。

r語言決策樹

決策樹演算法決策樹的建立建立決策樹的問題可以用遞迴的形式表示： 1、首先選擇一個屬性放置在根節點，為每一個可能的屬性值產生一個分支：將樣本拆分為多個子集，一個子集對應一種屬性值； 2、在每一個分支上遞迴地重複這個過程，選出真正達到這個分支的例項； 3、如果在一個節點上的

R語言決策樹

決策樹是以樹的形式表示選擇及其結果的圖。圖中的節點表示事件或選擇，並且圖的邊緣表示決策規則或條件。它主要用於使用R的機器學習和資料探勘應用程式。決策樹的使用的例子是 - 預測電子郵件是垃圾郵件或非垃圾郵件，預測腫瘤癌變，或者基於這些因素預測貸款的信用風險。通

R語言決策樹演算法

1,生成樹：rpart()函式raprt(formular,data,weight,subset,na.action=na.rpart,method,model=FALSE,x=FALSE,y=TRUE,parms,control,cost,...) fomula ：模型格式形如outcom

R語言——決策樹模型

決策樹（Tree Nodels）是一種建立樹狀模型的方法，它使用‘基尼不純度’（Gini Impurity）或資訊增益（Information Gain）等標準對節點進行遞迴分割，以建立樹狀模型。決策樹看起來像是以樹狀形式排列的一系列的if-else語句，易於

r語言做決策樹程式碼實現

0.節點和結點的區別：節點為兩線相交，不為終點；而結點為兩線相交為終點，沒有延伸； 1.分支節點：它指向其他的節點，所以是度不為0的節點。 vs 葉子結點：度為0的結點 2.度：結點擁有的子樹數；就是說這個結點下面有幾條分支 3.樹的深度：樹有幾層 4.10折交叉驗證：常用

R語言學習系列(資料探勘之決策樹演算法實現--ID3程式碼篇)

轉載自：http://blog.csdn.net/hawksoft/article/details/7760868 1、輔助類，用於計算過程和結果儲存 [csharp] view plaincopyprint? /// &

決策樹的實現和排序重要特征

https 字符 learn htm ocs red class ren clas from sklearn.tree import DecisionTreeClassifier from adspy_shared_utilities import plot_featur

二叉樹及其實現(基礎版)

除了一覽 display ros return 路徑動態操作 spl signature 前言：常見的數據結構都有指針和數組兩種實現方式，這篇先介紹指針實現，而數組實現在後續文章裏會講到。（長文預警！）說完了一般的樹，我們再來看看二叉樹，這是一種很典

機器學習實戰——決策樹Python實現問題記錄

問題：NameError: name 'reload' is not defined import imp import trees imp.reload(trees) 結論：已經匯入過的模組才能用reload, reload的引數應該是模組名，而不是檔名。在pyhton3.x中要先匯入檔案

決策樹演算法實現要點

1.定義節點（節點的集合形成樹）；即定義一個結構體Point，而用Point tree[] 來表示樹。點Point裡面包括name（在該點進行分類的特徵），val（該點父輩的特徵的某個值），n_child（帶點子代的數量），*son（指向子代的指標），id（帶節點是否有必要存在） 2.全

AlgorithmDeveloper 決策樹演算法實現.md

以相親為例子建立資料集 def creatDataSet(): dataSet= [[1,1,1,'見'], [1,0,1,'見'], [1,0,0,'不見'],

機器學習之決策樹----python實現

# -*- coding: utf-8 -*- import numpy as np import scipy as sp import matplotlib.pyplot as plt from sklearn import tree from sklearn.metric

Hadoop學習筆記三 -- 決策樹演算法實現使用者風險等級分類

前言剛剛過去的2016年被稱為人工智慧的元年，在AlphaGo大戰李世石取得里程碑式的勝利後，神經網路和深度學習的概念瞬間進入了人們的視野，各大商業巨頭也紛紛將自己的目標轉移到這個還沒有任何明確方向但所有人都知道它一旦出手將改變世界的人工智慧方向中。在這個過

機器學習：決策樹過擬合與剪枝，決策樹程式碼實現（三）

文章目錄楔子變數方法資料預處理剪枝獲取待剪集：針對ID3，C4.5的剪枝損失函式的設計基於該損失函式的演算法描述基於該損失函式的程式碼實

機器學習：結點的實現，決策樹程式碼實現（二）

文章目錄楔子定義變數：定義方法獲得劃分的feature 生成結點停止條件及其處理 fit() 生成樹剪枝楔子前面已經實現了各種資訊量的計算，那麼我們劃分的基本有了，那

R語言 決策樹及其實現

相關推薦

R語言決策樹及其實現