決策樹---------2020.9.20

阿新 • • 發佈：2020-09-21

決策樹

一、機器學習資料集

一、機器學習資料集

這組記錄的集合稱為一個“資料集”，其中每條記錄是關於一個事件或物件的描述，稱為一個“示例”或“樣本”，反映事件或物件在某方面的表現或性質的事項，屬性的取值稱為屬性值，屬性展開的空間稱為“屬性空間”。

二、分類/迴歸

三、資訊熵

ex1.

P(A)=1/4

P(B)=1/4

P(C)=1/4

P(D)=1/4

ex2.

P(A)=1/2

P(B)=1/4

P(C)=1/8

P(D)=1/8

如何編碼？

對於ex1，我們可以編碼A=00，B=01，C=10，D=11，顯然我們需要用到兩個bit來記錄事件；對於ex2，我們可以編碼A=0，B=10，C=110，D=111，所需bit數為

1×1/2+2×1/4+3×1/8+3×1/8=1.75bit。

記P(X=V1)=p1，P(X=V2)=p2，P(X=V3)=p3，…,P(X=Vm)=pm，如何計算傳輸資訊需要的最小bit數是多少？

高資訊熵意味著我們從資料集中獲取的資訊越少，不確定度越大；

低資訊熵意味著我們從資料集中獲取的資訊越多，不確定度越小。

四、列聯表

列聯表（contingency table）是觀測資料按兩個或更多屬性（定性變數）分類時所列出的頻數表。它是由兩個以上的變數進行交叉分類的頻數分佈表。

五、資訊增溢

對各個引數依次方法進行計算，從而找到資訊增溢最大的屬性。

六、生成決策樹

樹以代表訓練樣本的單個結點開始。

如果樣本都在同一個類，則該結點成為樹葉，並用該類標號。

否則，演算法使用稱為資訊增益的基於熵的度量作為啟發資訊，選擇能夠最好地將樣本分類的屬性。該屬性成為該結點的“測試”或“判定”屬性。

對測試屬性的每個已知的值，建立一個分枝，並據此劃分樣本。

演算法使用同樣的過程，遞迴地形成每個劃分上的樣本判定樹。

Tips：1.如果葉子節點都有同樣的輸出值，例如

，則該節點停止遞迴；

2.沒有多餘的屬性可以進行劃分，此時少數服從多數。

思考：若所有屬性的資訊增溢都是零就停止遞迴是否合理？

令Y=a XOR b

如果資訊增益為0就停止遞迴，則生成決策樹

如果繼續遞迴，則生成決策樹

，顯然這才是我們想要的結果。

七、訓練集誤差與測試集誤差

對所有訓練集記錄用生成的決策樹進行預測，預測輸出與實際輸出不一致的記錄量稱為訓練集誤差。

對所有測試集記錄用生成的決策樹進行預測，預測輸出與實際輸出不一致的記錄量稱為測試集誤差。

為啥測試集誤差比訓練集誤差差這麼多？

八、過擬合

所有葉節點有且僅有一個記錄，所以訓練集誤差為0。

用測試集進行測試：

	錯誤的葉節點（1/4）	正確的葉節點（3/4）
錯誤的測試集（1/4）	1/16的測試集會因為錯誤的理由被正確的預測	*3/16的測試集會因為測試集記錄的錯誤被錯誤的預測*
正確的測試集（3/4）	*3/16的測試集會因為葉節點預測錯誤而被錯誤的預測*	9/16的測試集被正確的預測

結果：一共有3/8的測試集被錯誤預測。

e=0葉結點共有16個記錄，正確的記錄約佔75%即12個，所以該節點幾乎一定會預測正確；同理e=1葉節點也幾乎一定會預測正確。

	幾乎不存在錯誤的葉節點	幾乎所有葉結點都正確
錯誤的測試集（1/4）	≈0	*因為測試集記錄錯誤，1/4的測試集會被錯誤的預測*
正確的測試集（3/4）	≈0	3/4的測試集被正確的預測

結果：一共有1/4的測試集被錯誤預測。

過擬合定義：如果機器學習演算法過於匹配噪音或者過於匹配資料集中不相關的屬性，則會導致過擬合。如果機器學習演算法過擬合，在測試集上的預測通常不會好。

九、避免過擬合

一般來說我們一開始並不知道資料集中的屬性哪些與輸出並不相關，並且有時候屬性與輸出與否還與上下文有關（例如Y=a AND b，當b=0的時候，y的輸出顯然與a不相關）。

卡方檢驗：

計算得P(mpg與maker相互獨立)=13.5%

使用卡方檢驗避免過擬合的方法：

用之前的方法生成決策樹；
開始剪枝，從決策樹底部開始刪除所有p>MaxPChance的節點，直到沒有節點p>MaxPChance.

MaxPChance是在生成決策樹之前定義的魔法數。如果我們設定MaxPChance=0.1，那麼剪枝後

十、數值型輸入

通過劃分區間解決。

如何劃分？

定義

對每個需要劃分區間的數值型屬性，用對其進行劃分。

計算所需時間：

R---------------------該屬性中的記錄數

--------------------該屬性可能的取值數

十一、另一種分類方法

十二、總結

決策樹優點: (1)速度快: 計算量相對較小, 且容易轉化成分類規則. 只要沿著樹根向下一直走到葉, 沿途的分裂條件就能夠唯一確定一條分類。 (2)準確性高: 挖掘出來的分類規則準確性高, 便於理解, 決策樹可以清晰的顯示哪些欄位比較重要。

(3)可以處理連續和種類欄位。

缺點: (1)對於各類別樣本數量不一致的資料, 資訊增益偏向於那些更多數值的特徵。 (2)容易過擬合。 (3)忽略屬性之間的相關性。

實現程式碼：

 1 from sklearn.feature_extraction import DictVectorizer
 2 import csv
 3 from sklearn import preprocessing,tree
 4 
 5 allElectronicsData = open(r'C:\Users\dd\Desktop\cs_desktop\ex1.csv','r')
 6 reader = csv.reader(allElectronicsData)
 7 headers = next(reader)
 8 
 9 featureList = []
10 labelList = []
11 
12 for row in reader:
13     labelList.append(row[len(row)-1])
14     rowDict = {}
15     for i in range(1,len(row)-1):
16         rowDict[headers[i]] = row[i]
17     featureList.append(rowDict)
18     
19 vec = DictVectorizer()
20 dummyX = vec.fit_transform(featureList).toarray()
21 
22 
23 lb = preprocessing.LabelBinarizer()
24 dummyY = lb.fit_transform(labelList)
25 
26 clf = tree.DecisionTreeClassifier(criterion='entropy')
27 clf = clf.fit(dummyX,dummyY)
28 
29 with open("course1.dot",'w')as f:
30     f = tree.export_graphviz(clf, feature_names = vec.get_feature_names(),out_file = f)
31     
32 oneRowX = dummyX[0,:]
33 newRowX = oneRowX.copy()
34 
35 newRowX[0] = 1
36 newRowX[2] = 0
37 
38 newRowXX = []
39 newRowXX.append(oneRowX)
40 newRowXX.append(newRowX)
41 
42 
43 predictedY = clf.predict(newRowXX)
44 print("predictedY="+str(predictedY))

資料集：

決策樹---------2020.9.20

決策樹決策樹一、機器學習資料集二、分類/迴歸三、資訊熵四、列聯表五、資訊增溢

python機器學習實現決策樹

本文例項為大家分享了python機器學習實現決策樹的具體程式碼，供大家參考，具體內容如下

決策樹剪枝演算法的python實現方法詳解

本文例項講述了決策樹剪枝演算法的python實現方法。分享給大家供大家參考，具體如下：

python使用sklearn實現決策樹的方法示例

1. 基本環境安裝 anaconda 環境，由於國內登陸不了他的官網 https://www.continuum.io/downloads,不過可以使用國內的映象站點： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

Python3 ID3決策樹判斷申請貸款是否成功的實現程式碼

1. 定義生成樹 # -*- coding: utf-8 -*- #生成樹的函式 from numpy import * import numpy as np import pandas as pd

mooc機器學習第六天-K近鄰，決策樹，樸素貝葉斯分類器簡單嘗試

1.下面的程式碼是上一篇理論中的小例子 from sklearn.neighbors import KNeighborsClassifier # K近鄰分類器

【機器學習】決策樹-01

心得體會： #3-1構造決策樹 #計算夏農熵 from math import log def calcShannonEnt(dataSet): numEntries=len(dataSet)

機器學習實戰之決策樹學習筆記

from math import log import operator def calcShannonEnt(dataSet): numEntries=len(dataSet)#計算資料集例項總數

機器學習實戰---決策樹CART迴歸樹實現

機器學習實戰---決策樹CART簡介及分類樹實現一：對比分類樹 CART迴歸樹和CART分類樹的建立演算法大部分是類似的，所以這裡我們只討論CART迴歸樹和CART分類樹的建立演算法不同的地方。首先，我們要明白，什麼是迴歸樹

網格搜尋解析GridSearchCV（基於決策樹）

1.1 網格搜尋介紹機器學習演算法中有兩類引數：從訓練集中學習到的引數，比如邏輯斯蒂迴歸中的權重引數，另一類是模型的超引數，也就是需要人工設定的引數，比如正則項係數或者決策樹的深度。

決策樹在sklearn中的實現

決策樹在sklearn中的實現目錄決策樹在sklearn中的實現sklearn 入門決策樹1 概述1.1 決策樹是如何工作的1.2 sklearn中的決策樹2 DecisionTreeClassifier 與紅酒資料集2.1 重要引數2.1.1 criterion2.1.2 random_state