機器學習之決策樹演算法python實現

阿新 • • 發佈：2019-02-16

一. 理論基礎

1. 特徵選擇

a. 資訊熵

H(D)=−∑i=0kpilogpi

b. 條件熵

H(Y|X)=∑i=0npiH(Y|X=xi)

c. 資訊增益

I(D,A)=H(D)−H(D|A)

d. 資訊增益比

以資訊增益作為劃分訓練資料集的特徵，存在偏向於選擇取值較多的特徵的問題，使用資訊增益比可以對這一問題進行校正。

IR(D,A)=I(D,A)HA(D)

其中，

HA(D)=−∑i=0n|Di||D|log2|Di||D|
n是特徵A取值的個數.

2. 決策樹的生成

ID3演算法是用資訊增益進行特徵的選擇，C4.5演算法使用資訊增益比來進行特徵的選擇。

3. 決策樹的剪枝

決策樹生成演算法容易出現過擬合現象，將已生成的樹進行簡化的過程稱為剪枝。決策樹的剪枝往往通過極小化決策樹整體的損失函式來實現。

設樹T的葉結點個數為|T|，t是樹T的葉結點，該葉結點有Nt個樣本點，其中k類的樣本點有Ntk個，Ht(T)為葉結點t上的經驗熵，α≥0為引數，損失函式可以定義為：

Cα(T)=∑t=1|T|NtHt(T)+α|T|

其中經驗熵為：

Ht(|T|)=−∑kNtkNtlogNtkNt

這時損失函式可以寫為

Cα(T)=C(T)+α|T|

決策樹生成學習區域性的模型，決策樹剪枝學習整體的模型。

二. python實現

1. 程式碼

DecisionTreeClassifier.py

#encoding=utf-8
'''
implement tree algorithm
'''

from math import log
import matplotlib.pyplot as plt

class DecisionTreeClassifier:
    '''
    implement decision tree classifier
    '''

    def __init__(self):
        pass

    def create_dataset(self):
        '''
        create the dataset
        ''' 

        dataset = [[1, 1, 'yes'],
                [1, 1, 'yes'],
                [1, 0, 'no'],
                [0, 1, 'no'],
                [0, 1, 'no']]
        labels = ['no surfacing', 'flippers']
        return dataset, labels

    def calculate_info_entropy(self, data):
        '''
        claculate the info entropy of the data
        Args:
            data: the last column of data is label
        '''
        m = len(data)
        label_counts = {}
        for x in data:
            label = x[-1]
            if label not in label_counts.keys():
                label_counts[label] = 0
            label_counts[label] += 1
        entropy = 0.0
        for key in label_counts:
            prob = float(label_counts[key]) / m
            entropy -= prob * log(prob, 2)
        return entropy

    def split_dataset(self, data, axis, value):
        '''
        split the data by the special feature and the special feature value
        Args:
            data: the dataset to be splited
            axis: the feature by which the data will be splited
            value: the feature value the returned data equal to in the special feature
        '''
        ret_data = []
        for x in data:
            if x[axis] == value:
                reduced_feat_vec = x[:axis]
                reduced_feat_vec.extend(x[axis + 1 :])
                ret_data.append(reduced_feat_vec)
        return ret_data

    def choose_best_feature_to_split(self, data):
        '''
        choose the best feature which has the maxmize info gain
        '''
        #get the number of the features
        num_features = len(data[0]) - 1
        base_entropy = self.calculate_info_entropy(data)
        best_info_gain = 0.0
        best_feature = -1
        #compute the info gain for each feature
        for i in xrange(num_features):
            feature_list = [example[i] for example in data]
            unique_values = set(feature_list)
            new_entropy = 0.0
            for value in unique_values:
                sub_data = self.split_dataset(data, i, value)
                prob = len(sub_data) / float(len(data))
                new_entropy += prob * self.calculate_info_entropy(sub_data)
            info_gain = base_entropy - new_entropy
            if(info_gain > best_info_gain):
                best_info_gain = info_gain
                best_feature = i
        return best_feature

    def marjority_count(self, label_list):
        '''
        get the most label by the label list
        '''
        class_count = {}
        for vote in label_list:
            if vote not in class_count.keys():
                class_count[vote] = 0
            class_count[vote] += 1
        #sort the dist, return a list whose item is a tuple containing key and vlue.
        sorted_class_count = sorted(class_count.items(), key=lambda k : k[1], reverse=True)
        return sorted_class_count[0][0]

    def create_tree(self, dataset, labels):
        class_list = [example[-1] for example in dataset]
        #if the dataset has only one class, return it.
        if class_list.count(class_list[0]) == len(class_list):
            return class_list[0]
        #if all features has been splited, return the class which has the max
        if len(dataset[0]) == 1:
            return self.marjority_count(class_list)
        best_feature = self.choose_best_feature_to_split(dataset)
        best_feature_label = labels[best_feature]
        tree = {best_feature_label:{}}
        del (labels[best_feature])
        feature_values = [example[best_feature] for example in dataset]
        unique_values = set(feature_values)
        for value in unique_values:
            sub_labels = labels[:]
            tree[best_feature_label][value] = self.create_tree(self.split_dataset(dataset, best_feature, value), sub_labels)
        return tree

    def tree_plotter(self, tree):
        '''
        plot entry
        '''
        self.decision_node = dict(boxstyle='sawtooth', fc='0.8')
        self.leaf_node = dict(boxstyle='round4', fc='0.8')
        self.arrow_args = dict(arrowstyle='<-')
        self.__create_plot__(tree)

    def __plot_node__(self, node_txt, center_point, parent_point, node_type):
        '''
        plot node
        '''
        self.plot.annotate(node_txt, \
                                xy=parent_point, \
                                xycoords='axes fraction', \
                                xytext=center_point, \
                                textcoords='axes fraction', \
                                va='center', \
                                ha='center', \
                                bbox=node_type, \
                                arrowprops=self.arrow_args)

    def __create_plot__(self, tree):
        '''
        init plot
        '''
        fig = plt.figure(1, facecolor='white')
        fig.clf()
        axprops = dict(xticks=[], yticks=[])
        self.plot = plt.subplot(111, frameon=False, **axprops)
        self.totalw = float(self.get_leaf_number(tree))
        self.totalD = float(self.get_tree_depth(tree))
        self.x_off = -0.5 / self.totalw
        self.y_off = 1.0
        self.plot_tree(tree, (0.5, 1.0), '')
        plt.show()

    def get_leaf_number(self, tree):
        '''
        get leaf number
        '''
        num_leafs = 0
        first_str = tree.keys()[0]
        second_dict = tree[first_str]
        for key in second_dict.keys():
            if type(second_dict[key]).__name__ == 'dict':
                num_leafs += self.get_leaf_number(second_dict[key])
            else:
                num_leafs += 1
        return num_leafs

    def get_tree_depth(self, tree):
        '''
        get tree depth
        '''
        max_depth = 0
        first_str = tree.keys()[0]
        second_dict = tree[first_str]
        for key in second_dict.keys():
            if type(second_dict[key]).__name__ == 'dict':
                this_depth = 1 + self.get_tree_depth(second_dict[key])
            else:
                this_depth = 1
            if this_depth > max_depth : 
                max_depth = this_depth
        return max_depth

    def plot_mid_text(self, cntr_point, parent_point, txt_string):
        '''
        plot mid text
        '''
        x_mid = (parent_point[0] - cntr_point[0]) / 2.0 + cntr_point[0]
        y_mid = (parent_point[1] - cntr_point[1]) / 2.0 + cntr_point[1]
        self.plot.text(x_mid, y_mid, txt_string)

    def plot_tree(self, tree, parent_point, node_txt):
        '''
        plot tree
        '''
        num_leafs = self.get_leaf_number(tree)
        depth = self.get_tree_depth(tree)
        first_str = tree.keys()[0]
        cntr_point = (self.x_off + (1.0 + float(num_leafs)) / 2.0 / self.totalw, self.y_off)
        self.plot_mid_text(cntr_point, parent_point, node_txt)
        self.__plot_node__(first_str, cntr_point, parent_point, self.decision_node)
        second_dict = tree[first_str]
        self.y_off = self.y_off - 1.0 / self.totalD
        for key in second_dict.keys():
            if type(second_dict[key]).__name__ == 'dict':
                self.plot_tree(second_dict[key], cntr_point, str(key))
            else:
                self.x_off = self.x_off + 1.0 / self.totalw
                self.__plot_node__(second_dict[key], (self.x_off, self.y_off), cntr_point, self.leaf_node)
                self.plot_mid_text((self.x_off, self.y_off), cntr_point, str(key))
        self.y_off = self.y_off + 1.0 / self.totalD

    def classify(self, tree, feat_labels, test_data):
        '''
        predict the label of the test data
        '''
        first_str = tree.keys()[0]
        second_dict = tree[first_str]
        feat_index = feat_labels.index(first_str)
        for key in second_dict.keys():
            if test_data[feat_index] == key:
                if type(second_dict[key]).__name__ == 'dict':
                    label = self.classify(second_dict[key], feat_labels, test_data)
                else:
                    label = second_dict[key]
        return label

def main():
    tree = DecisionTreeClassifier()
    data, labels = tree.create_dataset()
    myTree = tree.create_tree(data, labels)
    print myTree
    tree.tree_plotter(myTree)

if __name__ == '__main__':
    main()

2. 結果

決策樹

機器學習之決策樹演算法python實現

一. 理論基礎 1. 特徵選擇 a. 資訊熵 H(D)=−∑i=0kpilogpi b. 條件熵 H(Y|X)=∑i=0npiH(Y|X=xi) c. 資訊增益 I(D,A)=H(D)−H(D|A) d. 資訊增益比

機器學習之決策樹演算法詳解

1-1 基本流程決策樹是一個有監督分類與迴歸演算法。決策樹的生成只考慮區域性最優，相對的，決策樹剪枝則考慮全域性最優。一、概念：決策樹：是一種樹形結構，其中每個內部節點表示一個屬性上的判斷，每個分支代表一個判斷結果的輸出，最後每個葉節點代表一

機器學習之決策樹演算法（一）

0 引言決策樹是一種基本的分類和迴歸方法。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。可以認為是if-then規則的集合，也可以認定是定義在特徵空間與類空間上的條件概率分佈。其主要特點是模型具有可讀性，分類速度快。學習時，利用訓

機器學習之決策樹演算法（1）

上一集中，我們講解了K近鄰演算法，那是一個十分入門的演算法，並沒有顯式的訓練方法。這次，我們要做一個真正的機器學習演算法，決策樹演算法。當然，它也是一個多元分類器。相比較K近鄰演算法對於數值型的資料處理較為舒服，因為畢竟是算距離，所以你就算是跑到天涯海角，也能算出來。但是決

機器學習之決策樹演算法

一、決策樹　　在機器學習中，決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物件的值。決策樹僅有單一輸出，若欲有複數輸出，可以建立獨立的決策樹以處理不同輸出。資料探

機器學習之決策樹----python實現

# -*- coding: utf-8 -*- import numpy as np import scipy as sp import matplotlib.pyplot as plt from sklearn import tree from sklearn.metric

機器學習之決策樹（Decision Tree）及其Python程式碼實現

　　決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物

機器學習入門之決策樹（python實現）

本次學習利用MT_Train.csv中所給的資料對MT_Test.csv中的資料進行預測，判斷客戶是否會定期存款。根據所學知識，可採用sklearn中的決策樹等方法進行程式設計。歡迎大家一起討論學習進步。訓練集和測試集連結如下：一. 設計思路 1.讀取訓練集和測試集檔

【機器學習】決策樹演算法（二）— 程式碼實現

#coding=utf8 ‘’’ Created on 2018年11月4日 @author: xiaofengyang 決策樹演算法：ID3演算法 ‘’’ from sklearn.feature_extraction import DictVectorize

機器學習之決策樹機器學習之K-近鄰演算法

　　都說萬事開頭難，可一旦開頭，就是全新的狀態，就有可能收穫自己未曾預料到的成果。從2018.12.28開始，決定跟隨《機器學習實戰》的腳步開始其征程，記錄是為了更好的監督、理解和推進，學習過程中用到的資料集和程式碼都將上傳到github 　　機器學習系列部落格：（1）機器學習之K-近鄰演算法

機器學習之決策樹 Decision Tree（三）scikit-learn演算法庫

1、scikit-learn決策樹演算法類庫介紹 scikit-learn決策樹演算法類庫內部實現是使用了調優過的CART樹演算法，既可以做分類，又可以做迴歸。分類決策樹的類對應的是DecisionTreeClassifier，而回歸決策樹的類對應的是D

機器學習之決策樹（Decision Tree）文字演算法的精確率

目錄背景效果圖整體流程這裡用詞向量，而不是TF-IDF預處理後的向量原始碼背景最近的專案中，用到了很多機器學習的演算法，每個機器學習的演算法在不同的樣本下的精準率是不同的。為了驗證每個演算法在每種不同樣本數

Python機器學習之決策樹案例

# -*- coding: utf-8 -*- __author__ = 'gerry' # 先匯入所有的class import xgboost from numpy import * from s

機器學習之--決策樹遞歸算法實現

決策 def 產生直接 asi split classlist 好的 EDA import numpy as np import math #產生數據的函數 def createdatabase(): dataSet = [[1,1,‘yes‘],

機器學習之決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我機器歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：汪毅雄導語本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義，相信能幫助初學者真正地理解相關知識

機器學習之決策樹（二）

天氣次數 format 定義表示葉子節點 ast 代碼 wid 一、復習信息熵　　為了解決特征選擇問題，找出最優特征，先要介紹一些信息論裏面的概念。　　1、熵（entropy）　　　　　　　　python3代碼實現： def calcShannonEnt(

機器學習實戰——k-近鄰演算法Python實現問題記錄

準備 kNN.py 的python模組 from numpy import * import operator def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

[三]機器學習之決策樹與隨機森林

3.1 目標任務 1.學習決策樹和隨機森林的原理、特性 2.學習編寫構造決策樹的python程式碼 3.學習使用sklearn訓練決策樹和隨機森林，並使用工具進行決策樹視覺化 3.2 實驗資料資料集：鳶尾花資料集，詳情見[機器學習之迴歸]的Logistic迴歸實驗 3.3

機器學習_8.決策樹演算法

1.ID3演算法預備知識 1.資訊熵： 2.資訊增益演算法內容引入了資訊理論中的互資訊（資訊增益）作為選擇判別因素的度量，即：以資訊增益的下降速度作為選取分類屬性的標準，所選的測試屬性是從根節點到當前節點的路徑上從沒有

機器學習之決策樹

決策樹簡介決策樹是一種基本的分類方法，當然也可以用於迴歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中，表示基於特徵對例項進行分類的過程，它可以認為是if-then規則的集合。在決策樹的結構中，每一個例項都被一條路徑或者一條規則所覆蓋。

機器學習之決策樹演算法python實現

一. 理論基礎

1. 特徵選擇

a. 資訊熵

b. 條件熵

c. 資訊增益

d. 資訊增益比

2. 決策樹的生成

3. 決策樹的剪枝

二. python實現

1. 程式碼

2. 結果

相關推薦