決策樹與R語言(RPART)

阿新 • • 發佈：2019-01-04

關於決策樹理論方面的介紹，李航的《統計機器學習》第五章有很好的講解。

傳統的ID3和C4.5一般用於分類問題，其中ID3使用資訊增益進行特徵選擇，即遞迴的選擇分類能力最強的特徵對資料進行分割，C4.5唯一不同的是使用資訊增益比進行特徵選擇。

特徵A對訓練資料D的資訊增益g(D, A) = 集合D的經驗熵H(D) - 特徵A給定情況下D的經驗條件熵H(D|A)

特徵A對訓練資料D的資訊增益比r(D, A) = g(D, A) / H(D)

而CART（分類與迴歸）模型既可以用於分類、也可以用於迴歸，對於迴歸樹（最小二乘迴歸樹生成演算法），需要尋找最優切分變數和最優切分點，對於分類樹（CART生成演算法），使用基尼指數選擇最優特徵。

參考自部落格，一個使用rpart完成決策樹分類的例子如下：

library(rpart);
## rpart.control對樹進行一些設定
## xval是10折交叉驗證
## minsplit是最小分支節點數，這裡指大於等於20，那麼該節點會繼續分劃下去，否則停止
## minbucket：葉子節點最小樣本數
## maxdepth：樹的深度
## cp全稱為complexity parameter，指某個點的複雜度，對每一步拆分,模型的擬合優度必須提高的程度
ct <- rpart.control(xval=10, minsplit=20, cp=0.1)
## kyphosis是rpart這個包自帶的資料集
## na.action：缺失資料的處理辦法，預設為刪除因變數缺失的觀測而保留自變數缺失的觀測。
## method：樹的末端資料型別選擇相應的變數分割方法:
## 連續性method=“anova”,離散型method=“class”,計數型method=“poisson”,生存分析型method=“exp”
## parms用來設定三個引數:先驗概率、損失矩陣、分類純度的度量方法（gini和information）
## cost我覺得是損失矩陣，在剪枝的時候，葉子節點的加權誤差與父節點的誤差進行比較，考慮損失矩陣的時候，從將“減少-誤差”調整為“減少-損失”
fit <- rpart(Kyphosis~Age + Number + Start,
data=kyphosis, method="class",control=ct,
parms = list(prior = c(0.65,0.35), split = "information"));
## 第一種
par(mfrow=c(1,3));
plot(fit);
text(fit,use.n=T,all=T,cex=0.9)；
## 第二種，這種會更漂亮一些
library(rpart.plot);
rpart.plot(fit, branch=1, branch.type=2, type=1, extra=102,
shadow.col="gray", box.col="green",
border.col="blue", split.col="red",
split.cex=1.2, main="Kyphosis決策樹");
## rpart包提供了複雜度損失修剪的修剪方法，printcp會告訴分裂到每一層，cp是多少，平均相對誤差是多少
## 交叉驗證的估計誤差（“xerror”列），以及標準誤差(“xstd”列)，平均相對誤差=xerror±xstd
printcp(fit);
## 通過上面的分析來確定cp的值
## 我們可以用下面的辦法選擇具有最小xerror的cp的辦法：
## prune(fit, cp= fit$cptable[which.min(fit$cptable[,"xerror"]),"CP"])
fit2 <- prune(fit, cp=0.01);
rpart.plot(fit2, branch=1, branch.type=2, type=1, extra=102,
shadow.col="gray", box.col="green",
border.col="blue", split.col="red",
split.cex=1.2, main="Kyphosis決策樹");

效果圖如下：

決策樹與R語言(RPART)

關於決策樹理論方面的介紹，李航的《統計機器學習》第五章有很好的講解。傳統的ID3和C4.5一般用於分類問題，其中ID3使用資訊增益進行特徵選擇，即遞迴的選擇分類能力最強的特徵對資料進行分割，C4.5唯一不同的是使用資訊增益比進行特徵選擇。特徵A對訓練資料D的資訊增益g(

【決策樹】ID3演算法理解與R語言實現

一、演算法理解想來想去，還是決定用各大暢銷書中的相親例子來解釋什麼叫決策樹。簡單來說，決策樹就是根據各種變數，作為輸入條件，最終輸出決策的過程。比如上圖中女方在相親過程中，影響是否見男方的變數有年齡、長相、收入、是否是公務員等。最終在各種變數組合下，最終輸出見或不

決策樹ID3;C4.5詳解和python實現與R語言實現比較

本文網址：http://blog.csdn.net/crystal_tyan/article/details/42130851（請不要在採集站閱讀）把決策樹研究一下，找來了一些自己覺得還可以的資料：分類樹（決策樹）是一種十分常用的分類方法。他是一種監管學習，所謂監管

決策樹——CART——之R語言rpart包

R是一種用於統計計算與作圖的開源軟體，同時也是一種程式語言，它廣泛應用於企業和學術界的資料分析領域，正在成為最通用的語言之一。由於近幾年資料探勘、大資料等概念的走紅，R也越來越多的被人關注。一、環境準備作業系統windows 下載安裝R 地址：http://mirror

深入淺出數據結構C語言版（22）——排序決策樹與桶式排序

不改變自然只需要都是變種限定 style buck oid 　　在（17）中我們對排序算法進行了簡單的分析，並得出了兩個結論：　　1.只進行相鄰元素交換的排序算法時間復雜度為O(N2) 　　2.要想時間復雜度低於O(N2)，算法必須進行遠距離的元素交換　　　

決策樹與隨機森林

隨機 tro 過程能夠 ots pull 葉子節點合並 pan 決策樹　　決策樹學習采用的是自頂向下的遞歸方法, 其基本思想是以信息熵為度量構造一棵熵值下降最快的樹,到葉子節點處的熵值為零, 　　此時每個葉節點中的實例都屬於同一類。決策樹三種生成算法 ID3 -

機器學習之決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我機器歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：汪毅雄導語本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義，相信能幫助初學者真正地理解相關知識

機器學習與R語言——基本語法

-s onedrive 和數 class 下載取消 lan 選中學習一、註釋 1、選中要註釋的內容，快捷鍵Ctrl+Shift+C(取消註釋方法相同) 2、在需註釋內容前輸入# 1 #需註釋的內容 3、利用if語句，將判斷條件設置為false則可跳過if語句中的內

決策樹與排序演算法的一般下界

定理：任何只用到比較的演算法最壞情況下需要次比較決策樹：用於證明排序演算法的下界，是一個二叉樹，每個節點是元素之間一組可能的排序，比較的結果是樹的邊，下圖表示將a，b，c排序的演算法排序演算法比較次數等於最深的樹葉的深度，平均次數是平均深度引理1：令T是深度為d的二叉樹，那麼

[三]機器學習之決策樹與隨機森林

3.1 目標任務 1.學習決策樹和隨機森林的原理、特性 2.學習編寫構造決策樹的python程式碼 3.學習使用sklearn訓練決策樹和隨機森林，並使用工具進行決策樹視覺化 3.2 實驗資料資料集：鳶尾花資料集，詳情見[機器學習之迴歸]的Logistic迴歸實驗 3.3

四分類：基本概念，決策樹與模型評估2

4.4模型的過分擬合分類模型的誤差分類：訓練誤差和泛化誤差過擬合：訓練誤差小，泛化能力弱造成過擬合的主要原因：模型複雜度 4.4.1噪聲導致的過分擬合由於擬合了誤分類（噪聲）的訓練記錄，導致了泛化誤差增大。 4.4.2缺乏代表性樣本導致的過分擬合由於訓練樣本太

四分類：基本概念，決策樹與模型評估1

4.1預備知識元組（x，y）：x指屬性集合，y指分類屬性目標函式又稱為分類模型：描述性建模；預測性建模 4.2 解決分類問題的一般方法分類技術是一種根據輸入資料集建立分類模型的系統方法。學習演算法確定分類模型；泛化能力模型訓練集；檢驗集分類模型效能評估： 1.正確

【機器學習】分類決策樹與迴歸決策樹案例

一、回顧什麼是決策樹，資訊熵構建決策樹的過程 ID3、C4.5和CRAT演算法上面三篇，主要介紹了相關的理論知識，其中構建決策樹的過程可以很好地幫助我們理解決策樹的分裂屬性的選擇。本篇所有原始碼：Github 二

【機器學習】決策樹與隨機森林（轉）

文章轉自： https://www.cnblogs.com/fionacai/p/5894142.html 首先，在瞭解樹模型之前，自然想到樹模型和線性模型有什麼區別呢？其中最重要的是，樹形模型是一個一個特徵進行處理，之前線性模型是所有特徵給予權重相加得到一個新的值。決

吳裕雄資料探勘與分析案例實戰（9）——決策樹與隨機深林

# 匯入第三方模組import pandas as pd# 讀入資料Titanic = pd.read_csv(r'F:\\python_Data_analysis_and_mining\\10\\Titanic.csv')print(Titanic.shape)print(Titanic.head())#

【線上直播】決策樹與隨機森林

講師：段喜平講師簡介：研究生畢業於中山大學，曾就職於華為，百分點等公司，目前在魅族擔任NLP演算法工程師。分享大綱： 1. 樹模型簡介 2. 常用決策樹演算法ID3, C4.5, CART，隨機森林等演算法介紹 3. 隨機森林程

《web安全之機器學習入門》第6章決策樹與隨機森林演算法

決策樹識別pop3埠掃描（原書中識別暴力破解，實際上pop3協議的並沒有guess_passwd型別的資料，所以改為識別port_sweep.）：待分析資料集：KDD-99資料集，連結：http://kdd.ics.uci.edu/databases/kddcup99/kdd

應用統計學與R語言實現學習筆記（五）——引數估計

Chapter 5 Estimation 本篇是第五章，內容是引數估計。 1.引數估計的一般問題正如前面介紹的，統計學的兩大分支，分別是描述統計和推斷統計。所以今天來談談推斷統計的第一大問題——引數估計。當然一般叫統計推斷的會更多些，二者是一樣

應用統計學與R語言實現學習筆記（二）——資料收集

Chapter 2 Data Collection 本篇是第二章，內容是資料收集。 1.資料來源做科學研究離不開資料，而資料的來源有哪些呢？這裡比較簡單地將資料來源分為兩類：直接（一手）資料和間接（二手）資料。直接資料的資料獲取來源包括

應用統計學與R語言實現學習筆記後記

1 後記應用統計學與R語言實現學習筆記這一系列部落格斷斷續續寫了5個月左右。現在終於算是基本完成了。我個人比較強迫症，比較喜歡一個系列更完再更其他的。所以中間有一些不錯的內容想寫到部落格裡都沒動筆。後面會繼續填坑。另外之後遇到的跟應用統計學與R語言實現相關的

決策樹與R語言(RPART)

相關推薦