機器學習之二：決策樹

阿新 • • 發佈：2018-12-11

本文為作者學習K近鄰演算法後的整理筆記，僅供學習使用！

決策樹

1、概述

決策樹（Decision Tree）實在已知各種情況發生概率的基礎上，通過構成決策樹來求取淨現值的期望值大於等於0的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。

2、基本原理

（1）工作原理：

a、獲取原始資料集

b、基於最好的屬性值劃分資料集

c、資料將向下傳遞到樹分支的下一個節點，再這個節點上，可以再次對資料進行劃分

（2）遞迴結束的條件：

a、程式遍歷完所有劃分資料集的屬性

b、每個分支下的所有實力都具有相同的分類

3、優缺點

（1）優點

計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵資料

（2）缺點

可能會產生過度匹配問題（過擬合）

適用資料型別：數值型和標稱型

4、一般流程

（1）收集資料：可以使用任何方法

（2）準備資料：樹構造演算法只適用於標稱型資料，因此數值型資料必須離散化（資料預處理）

（3）分析資料：可以使用任何方法，構造樹完成之後，檢查圖形是否符合預期

（4）訓練演算法：構造樹的資料結構

（5）測試演算法：使用經驗樹計算錯誤率

（6）使用演算法：此步驟可以使用於任何監督學習演算法

5、構建決策樹：ID3是演算法

（1）簡介

a、對於例項，計算各個例項的資訊增益

b、將資訊增益最大的屬性作為根節點，根節點的各個取值作為子集進行分類

c、對於子集下，若只含有正例或反例，直接得到判決；否則遞迴呼叫演算法，再次尋找子節點

（2）公式以及名詞解釋

a、公式

b、名詞解釋

夏農熵：表示資料集的不確定性

條件熵：在某個條件下，資料集的不確定性

資訊增益：香濃熵 - 條件熵，在某一條件下，資訊不確定性減少的程度

（3）缺點：

ID3採用的資訊增益度量存在一個缺點：它一般會選擇屬性值較多的Feature。資訊增益反映的是給定一個條件以後不確定減少的程度，必然是分得越細的資料集的確定性越高，也就是條件熵越小，資訊增益越大。

當資料集中存在自增列（ID）時，採用ID3演算法會將ID列作為根節點。

（4）程式碼示例

a、建立資料集

# 建立資料集
def create_dataset():
    dataset = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,0,'no']]
    label = ['no surfacing', 'flippers']
    return dataset, label

b、計算香濃熵

# 獲取夏農熵
def calc_shannon_ent(dataset):
    label_count = len(dataset)
    entries_count = {}
    
    for entry in dataset:
        current_label = entry[-1]
        if current_label not in entries_count:
            entries_count[current_label] = 0
        entries_count[current_label] += 1
    
    shannon_ent = 0.0
    for key in entries_count:
        probability = float(entries_count[key]) / label_count # 求概率
        shannon_ent -= probability * log(probability, 2)
    return shannon_ent

c、選擇最優的特徵進行拆分資料集

# 拆分資料集
def split_dataset(dataset, axis, value):
    new_dataset = []
    for data in dataset:
        if data[axis] == value:
            reduced_data = data[:axis]
            reduced_data.extend(data[axis+1 : ])
            new_dataset.append(reduced_data)
    return new_dataset

# 選擇最優的特徵進行拆分資料集
def choose_best_feature_to_split(dataset):
    num_features = len(dataset[0]) - 1  # 特徵數
    base_entropy = calc_shannon_ent(dataset) # 計算夏農熵
    best_info_gain = 0.0
    best_feature = -1 # 最優特徵
    for i in range(num_features):
        feature_list = [example[i] for example in dataset]
        unique_vals = set(feature_list)
        new_entropy = 0.0
        for value in unique_vals:
            sub_dataset = split_dataset(dataset, i, value)
            prob = len(sub_dataset) / float(len(dataset)) # 概率
            new_entropy += prob * calc_shannon_ent(sub_dataset) # 拆分後夏農熵
        info_gain = base_entropy - new_entropy
        if(info_gain > best_info_gain):
            best_info_gain = info_gain
            best_feature = i
    return best_feature

d、構建決策樹

def majority_cnt(class_list):
    class_count = {}
    for vote in class_list:
        if vote not in class_count.keys():
            class_count[vote] = 0
            class_count[vote] += 1
        sorted_class_count = sorted( class_count.iteritem(), key=operator.itemgetter(1), reversed = True)
        return sorted_class_count[0][0]
    
def create_tree(dataset, labels):
    class_list = [example[-1] for example in dataset]
    if(class_list.count(class_list[0]) == len(class_list)):
        return class_list[0]
    if len(dataset[0]) == 1:
        return majority_cnt(class_list)
    best_feature = choose_best_feature_to_split(dataset)
    best_feature_label = labels[best_feature]
    my_tree = {best_feature_label:{}}
    del(labels[best_feature])
    feature_values = [example[best_feature] for example in dataset]
    unique_values = set(feature_values)
    for value in unique_values:
        sub_labels = labels[:]
        my_tree[best_feature_label][value] = create_tree(split_dataset(dataset, best_feature, value), sub_labels)
    return my_tree

e、使用構建好的決策樹

# 使用
def my_classify(input_tree, featLabels, textvec):
    first_key = list(input_tree.keys())[0]
    second_dict = input_tree[first_key]
    feat_index = featLabels.index(first_key)
    for key in second_dict.keys():
        if textvec[feat_index] == key:
            if type(second_dict[key]).__name__ == "dict":
                classLabel = my_classify(second_dict[key], featLabels, textvec)
            else:
                classLabel = second_dict[key]
    return classLabel

f、儲存

# 儲存
def store_tree(input_tree, file_name):
    import pickle
    fw = open(file_name, 'wb')
    pickle.dump(input_tree,fw)
    fw.close()

def grab_tree(file_name):
    import pickle
    fr = open(file_name, 'rb')
    return pickle.load(fr)

g、呼叫

my_data, labels = create_dataset()
my_tree = create_tree(my_data, labels.copy())
store_tree(my_tree, "DecisionTree.txt")
my_load_tree = grab_tree("DecisionTree.txt")
predict_label1 = my_classify(my_load_tree, labels, [1,0])
predict_label2 = my_classify(my_load_tree, labels, [1,1])

print(predict_label1, predict_label2)

6、構建決策樹：C4.5

（1） C4.5是對ID3演算法的改進，相對於ID3演算法主要有以下幾個方面的改進：

（a）用資訊增益比來選擇屬性

（b）在決策樹的構造過程中

（c）對非離散資料也能處理

（d）能夠對不完整資料進行處理

（2）公式

7、構建決策樹：CART

（1）CART演算法是通過GINI係數選擇最優特徵，同時決定該特徵的最優二值切分點

（2）公式

8、剪枝策略

（1）預剪枝

邊建立決策樹邊進行剪枝的操作（更實用）。通過限制決策樹深度、葉子節點個數、葉子節點樣本樹，資訊增益量等進行預剪枝操作。

（2）後剪枝

當建立完決策樹之後來進行剪枝操作。通過一定的衡量標準（葉子節點越多，損失越大）：

機器學習之二：決策樹

本文為作者學習K近鄰演算法後的整理筆記，僅供學習使用！決策樹 1、概述決策樹（Decision Tree）實在已知各種情況發生概率的基礎上，通過構成決策樹來求取淨現值的期望值大於等於0的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖

《機器學習實戰》：決策樹之為自己配個隱形眼鏡

《機器學習實戰》：決策樹之為自己配個隱形眼鏡檔案列表如下圖所示：一、構建決策樹建立trees.py檔案，輸入以下程式碼。 ''' Created on Oct 12, 2010 Decision Tree Source Code for Machine Learnin

機器學習之路: python 決策樹分類預測泰坦尼克號乘客是否幸存

現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到特征的提取，數據類型保留，分類類型抽取出來新的類型需要網上下載數據集，我把他們下載到了本地，可以到我的git下載代碼和數據集: https

虛擬機器學習之二：垃圾收集器和記憶體分配策略

1.物件是否可回收 1.1引用計數演算法引用計數演算法：給物件中新增一個引用計數器，每當有一個地方引用它時，計數器值就加1；當引用失效時，計數器值就減1；任何時候計數器值為0的物件就是不可能再被使用的物件。客觀來說，引用計數演算法的實現簡單，判定效率高，在大部分情況下都是

機器學習（二）-----決策樹

決策樹概要決策樹的構造 ID3演算法介紹資訊熵與資訊增益決策樹的優缺點決策樹的構造依決策樹是託決策而建立起來的一種樹。決策樹是一個預測模型，代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個

機器學習方法(四)：決策樹Decision Tree原理與實現技巧

歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。技術交流QQ群：433250724，歡迎對演算法、技術、應用感興趣的同學加入。前面三篇寫了線性迴歸，lasso，和LARS的一些內容，這篇寫一下決策樹這個經典的分

機器學習（二）決策樹

<span style="font-size:14px;">from math import log import operator #計算夏農熵 def calcShannonEnt(dataSet): numEntries=len(dataSet) labelCounts={}

Spark2.0機器學習系列之3：決策樹及Spark 2.0-MLlib、Scikit程式碼分析

概述分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹可以看為一個if-then規則集合，具有“互斥完備”性質。決策樹基本上都是採用的是貪心（即非回溯）的演算法，自頂向下遞迴分治構造。生成決策樹一般包含三個步驟：特徵選擇決策樹生成剪枝

機器學習之路： python 實踐提升樹 XGBoost 分類器

git mac class form 樹模型機器 AS sta imp git: https://github.com/linyi0604/MachineLearning 數據集被我下載到本地，可以去我的git上拿數據集 XGBoost提升分類器屬於集成學習模型

《機器學習實戰》學習（二）——決策樹（DT）

1、決策樹簡述決策樹學習是一種逼近離散值目標函式的方法，在這種方法中學習到的函式被表示為一棵決策樹。在周志華老師的《機器學習》這本書中專門一章節對決策樹進行了講述。並對id3演算法後的改進演算法也做了相應的介紹。決策樹容易導致過擬合現象，介紹了預剪枝和後剪枝

linux學習之二：日常的基礎命令收集

幫助文檔 gedit 查看日期取整 style 位置某月 linux 1、 ls 2、pwd　　顯示當前目錄所在位置 3、date　　日期時間 4、cal　　日歷　　默認顯示當前該月　　cal 2012 ：查看2012年的日歷　　cal 月年：查看某年某月

Halcon學習之二：攝像頭獲取圖像和相關參數

digg tail tours mage eight sta vision name pict 1、close_all_framegrabbers ( : : : ) 關閉所有圖像采集設備。 2、close_framegrabber ( : : AcqHand

linux學習之二：Linux磁盤與文件管理系統

roo 針對 mkf 維護 def 都是 linu mke2fs remount 上次寫了Linux檔案與操作，這次繼續寫Linux磁盤與文件管理系統。首先，我們要先來認識一下EXT2文件系統，這是Linux最傳統的磁盤系統。 1.EXT2文件系統在說文件系統以前還是要

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

機器學習之路： python 支持向量機手寫字體識別

1.0 tar 下載分類字體 ID 導入所有 load 使用python3 學習sklearn中支持向量機api的使用可以來到我的git下載源代碼：https://github.com/linyi0604/kaggle 1 # 導入手寫字體加載器 2

機器學習之路：python支持向量機回歸SVR 預測波士頓地區房價

sta val dict min shape 支持 RR 訓練數據采樣 python3 學習使用api 支持向量機的兩種核函數模型進行預測 git: https://github.com/linyi0604/MachineLearning from sklear

機器學習之路：python 特征降維主成分分析 PCA

repo nts total python learning bsp ota spa 像素 python3 學習api使用主成分分析方法實現降低維度使用了網絡上的數據集，我已經下載到了本地，可以去我的git上參考 git:https://github.com/lin

機器學習之路： python線性回歸過擬合 L1與L2正則化

擬合 python sco bsp orm AS score 未知數 spa git：https://github.com/linyi0604/MachineLearning 正則化：提高模型在未知數據上的泛化能力避免參數過擬合正則化常用的方法：在目

機器學習之路： python 實踐 word2vec 詞向量技術

fetch 分離 ext .com work bsp re.sub 最終 mat git: https://github.com/linyi0604/MachineLearning 詞向量技術 Word2Vec 每個連續詞匯片段都會對後面有一定制約稱為上下

機器學習之路： tensorflow 自定義損失函數

cond pre port var IV 學習 col float ria git: https://github.com/linyi0604/MachineLearning/tree/master/07_tensorflow/ 1 import tensor

機器學習之二：決策樹

決策樹

相關推薦