決策樹系列（二）——剪枝

阿新 • • 發佈：2018-12-27

決策樹系列（二）——剪枝

什麼是剪枝？

剪枝是指將一顆子樹的子節點全部刪掉，根節點作為葉子節點，以下圖為例：

為甚麼要剪枝？

決策樹是充分考慮了所有的資料點而生成的複雜樹，有可能出現過擬合的情況，決策樹越複雜，過擬合的程度會越高。

考慮極端的情況，如果我們令所有的葉子節點都只含有一個數據點，那麼我們能夠保證所有的訓練資料都能準確分類，但是很有可能得到高的預測誤差，原因是將訓練資料中所有的噪聲資料都”準確劃分”了，強化了噪聲資料的作用。

剪枝修剪分裂前後分類誤差相差不大的子樹，能夠降低決策樹的複雜度，降低過擬合出現的概率。

怎樣剪枝？

兩種方案：先剪枝和後剪枝

先剪枝說白了就是提前結束決策樹的增長，跟上述決策樹停止生長的方法一樣。

後剪枝是指在決策樹生長完成之後再進行剪枝的過程。這裡介紹三種後剪枝方案：

（1）REP—錯誤率降低剪枝

顧名思義，該剪枝方法是根據錯誤率進行剪枝，如果一棵子樹修剪前後錯誤率沒有下降，就可以認為該子樹是可以修剪的。

REP剪枝需要用新的資料集，原因是如果用舊的資料集，不可能出現分裂後的錯誤率比分裂前錯誤率要高的情況。由於使用新的資料集沒有參與決策樹的構建，能夠降低訓練資料的影響，降低過擬合的程度，提高預測的準確率。

（2）PEP—悲觀剪枝

悲觀剪枝認為如果決策樹的精度在剪枝前後沒有影響的話，則進行剪枝。怎樣才算是沒有影響？如果剪枝後的誤差小於剪枝前經度的上限，則說明剪枝後的效果與剪枝前的效果一致，此時要進行剪枝。

進行剪枝必須滿足的條件：

其中：

表示剪枝前子樹的誤差；

表示剪枝後節點的誤差；

兩者的計算公式如下：

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

令子樹誤差的經度滿足二項分佈，根據二項分佈的性質，，，其中，N為子樹的資料量；同樣，葉子節點的誤差。

上述公式中，0.5表示修正因子。由於子節點是父節點進行分裂的結果，從理論上講，子節點的分類效果總比父節點好，分類的誤差更小，如果單純通過比較子節點和父節點的誤差進行剪枝就完全沒有意義了，因此對節點的誤差計算方法進行修正。修正的方法是給每一個節點都加上誤差修正因子0.5，在計算誤差的時候，子節點由於加上了誤差修正因子，就無法保證總誤差低於父節點。

算例：

由於，所以應該進行剪枝。

（3）CCP—代價複雜度剪枝

代價複雜度選擇節點表面誤差率增益值最小的非葉子節點，刪除該非葉子節點的左右子節點，若有多個非葉子節點的表面誤差率增益值相同小，則選擇非葉子節點中子節點數最多的非葉子節點進行剪枝。

可描述如下：

令決策樹的非葉子節點為。

a）計算所有非葉子節點的表面誤差率增益值

b）選擇表面誤差率增益值最小的非葉子節點（若多個非葉子節點具有相同小的表面誤差率增益值，選擇節點數最多的非葉子節點）。

c）對選中的非葉子節點進行剪枝

表面誤差率增益值的計算公式：

其中：

表示葉子節點的誤差代價，，為節點的錯誤率，為節點資料量的佔比；

表示子樹的誤差代價，，為子節點i的錯誤率，表示節點i的資料節點佔比；

表示子樹節點個數。

算例：

下圖是決策樹A的其中一顆子樹，決策樹的總資料量為40。

該子樹的表面誤差率增益值可以計算如下：

求出該子樹的表面錯誤覆蓋率為 1/40，只要求出其他子樹的表面誤差率增益值就可以對決策樹進行剪枝.

轉自：https://www.cnblogs.com/yonghao/p/5064996.html

決策樹系列（二）——剪枝

決策樹系列（二）——剪枝什麼是剪枝？剪枝是指將一顆子樹的子節點全部刪掉，根節點作為葉子節點，以下圖為例：為甚麼要剪枝？決策樹是充分考慮了所有的資料點而生成的

雪飲者決策樹系列（二）決策樹應用

ssi 字符串長度 mes pla 選擇 font com vector nac 　　本篇以信息增益最大作為最優化策略來詳細介紹決策樹的決策流程。　　首先給定數據集，見下圖　　註：本數據來源於網絡本篇將以這些數據作為訓練數據（雖然少，但足以介紹清楚原理！），下圖是決

決策樹系列（五）——CART

CART，又名分類迴歸樹，是在ID3的基礎上進行優化的決策樹，學習CART記住以下幾個關鍵點：（1）CART既能是分類樹，又能是分類樹；（2）當CART是分類樹時，採用GINI值作為節點分裂的依據；當CART是迴歸樹時，採用樣本的最小方差作為節點分裂的依據；（3）

【機器學習】決策樹演算法（二）— 程式碼實現

#coding=utf8 ‘’’ Created on 2018年11月4日 @author: xiaofengyang 決策樹演算法：ID3演算法 ‘’’ from sklearn.feature_extraction import DictVectorize

決策樹系列（四）——C4.5

預備知識：決策樹、ID3 如上一篇文章所述，ID3方法主要有幾個缺點：一是採用資訊增益進行資料分裂，準確性不如資訊增益率；二是不能對連續資料進行處理，只能通過連續資料離散化進行處理；三是沒有采用剪枝的策略，決策樹的結構可能會過於複雜，可能會出現過擬合的情況。

【轉】深入淺出理解決策樹演算法（二）-ID3演算法與C4.5演算法

從深入淺出理解決策樹演算法（一）-核心思想 - 知乎專欄文章中，我們已經知道了決策樹最基本也是最核心的思想。那就是其實決策樹就是可以看做一個if-then規則的集合。我們從決策樹的根結點到每一個都葉結點構建一條規則。並且我們將要預測的例項都可以被一條路徑或者一條規則所覆蓋。如下例：假設我

決策樹系列（三）——ID3

決策樹系列（三）——ID3 預備知識：決策樹初識ID3 回顧決策樹的基本知識，其構建過程主要有下述三個重要的問題：（1）資料是怎麼分裂的（2

決策樹系列（一）——基礎知識回顧與總結

決策樹系列（一）——基礎知識回顧與總結 1.決策樹的定義樹想必大家都會比較熟悉，是由節點和邊兩種元素組成的結構。理解樹，就需要理解幾個關鍵詞：根節點、父節點、子節點和葉子節點。父節點和子節點是相對的，

LeetCode--二叉樹系列（二）

112.路徑總和解法：如果根節點值==target停止搜尋。每次回朔採用sum-root->val /** * Definition for a binary tree node. * struct TreeNode { * int val; *

通俗地說決策樹演算法（二）例項解析

前情提要：通俗地說決策樹演算法（一）基礎概念介紹一. 概述上一節，我們介紹了決策樹的一些基本概念，包括樹的基本知識以及資訊熵的相關內容，那麼這次，我們就通過一個例子，來具體展示決策樹的工作原理，以及資訊熵在其中承擔的角色。有一點得先說一下，決策樹在優化過程中，有3個經典的演算法，分別是ID3，C4.5

Udacity強化學習系列（二）—— 馬爾科夫決策過程（Markov Decision Processes）

說到馬爾科夫Markov，大家可能都不陌生，陌生的[連結往裡走](https://baike.baidu.com/item/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E8

LeetCode--二叉樹系列（一）

617.合併二叉樹給定兩個二叉樹，想象當你將它們中的一個覆蓋到另一個上時，兩個二叉樹的一些節點便會重疊。你需要將他們合併為一個新的二叉樹。合併的規則是如果兩個節點重疊，那麼將他們的值相加作為節點合併後的新值，否則不為 NULL 的節點將直接作為新二叉樹的節點。

【Leetcode | 5】二叉樹系列（十三）

traversal href first for binary {} while leet auto 一、二、五、二叉樹的垂直遍歷題目：987. Vertical Order Traversal of a Binary Tree C++ Soution

數據結構系列（二）算法

nal log 如何空間復雜度計算 youdao 最好時間 bsp 高斯求和計算1+2+...+100 算法的概念就不多說了強調一點就是，沒有通用的算法，就像永遠沒有銀彈，所有的算法都有自己的適用領域評判算法好壞的方法復雜度用大O表示，又分為時間復雜度

【原創】源碼角度分析Android的消息機制系列（二）——ThreadLocal的工作過程

機制 simple hand 這就是數據存儲 read etc lena 並且 ι 版權聲明：本文為博主原創文章，未經博主允許不得轉載。在上一篇文章中，我們已經提到了ThreadLocal，它並非線程，而是在線程中存儲數據用的。數據存儲以後，只能在指定的線程中獲取到數據

MySQL系列（二）

sql read 註意出現 back 總結 lba 區別不同 MySql 事務目錄 MySQL系列（一）：基礎知識大總結 MySQL系列（二）：MySQL事務 MySQL系列（三）：索引什麽是事務(transaction) 保證成批操作要麽完全執行，要麽完全不

Linux系統運維常見面試簡答題系列（二）（14題）

local 企業 nginx服務簡答題 ip協議 php out gin 報錯 1. /var/log/messages日誌出現kernel:nf_conntrack:tablefull,dropping packet,請問是什麽原因導致的，如何解決？此報錯為iptab

Linux VPS/服務器建站系列（二）- 常見的國內雲服務器商家

數據中心 log 中心相互網站能說之前體積選擇繼續接"Linux VPS/服務器建站系列（一）- 哪些人需要用服務器建站"文章，既然我們開始決定選擇VPS、服務器作為項目用途。在準備實際的操作之前，筆者先準備羅列國內和國外的常見雲服務器商家。因為服務器商家和方

SpringMVC系列（二）: 註解@RequestMapping、@PathVariable

ann handler -- back 聯合 ppi 根目錄處理方法 ati 一、@RequestMapping 1.@RequestMapping除了能修飾方法，還能修飾類(1)修飾類：提供初步的請求映射信息，相對於web請求的根目錄(2)修飾方法：提供進一步的細分映射

Docker系列（二）鏡像管理

nginx orm lda cast anaconda rip search fff spa 2.1 查看鏡像 [root@localhost ~]# docker images REPOSITORY TAG IMAGE ID CREATED SIZE docke