機器學習演算法 —— 決策樹

阿新 • • 發佈：2020-10-12

演算法概述

優點:計算複雜度不高,榆出結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵資料。
缺點:可能會產生過度匹配問題。
適用資料範圍: 數值型 和 標稱型 。

演算法流程

資料
- 樣本資料（多維多行資料 + 標籤）
- 預測資料（多維一行資料）

構建決策樹

遍歷資料集每一個 feature ，計算資訊熵的增益
選擇資訊增益最大的 feature 作為樹的節點
資料集按照 feature 值進行分組，對於每一個分組再次進行 1.2.3.遞迴計算
- 遞迴出口
  - 只剩下一個 feature 無法再分
  - labels 都一樣，無論 feature 什麼樣都不影響 labels 了

決策樹預測
- 按照決策樹結構進行預測資料的判斷直到葉子結點
熵的計算公式

程式碼示例

import collections
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.font_manager import FontProperties

def calcShannonEnt(dataCol):
    """
    資訊熵
    H = -pi * log2( pi )
    pi 為第 i 個值在所有值中出現的概率
    :param dataSet:
    :return:
    """
    labelNum = dataCol.shape[0]
    labelCounts = {}
    for label in dataCol:
        if label not in labelCounts.keys():
            labelCounts[label] = 0
        labelCounts[label] += 1
    entroy = 0.0
    for label, count in labelCounts.items():
        # 標籤值在所有值中的概率
        prob = count / labelNum
        entroy -= prob * math.log(prob,2)
    return  entroy

class DecisionTree:

    def __init__(self, dataSet, labels):
        self.tree = self.createTree(dataSet, labels)
        self.numLeafs = self.getNumLeafs(self.tree)
        self.deapth = self.getTreeDepth(self.tree)

    def splitDataSet(self, dataSet, axis, value):
        """
        劃分決策樹，抽取符合條件的資料
        :param dataSet:
        :param axis:
        :param value:
        :return:
        """
        reDataSet = []
        for featVec in dataSet:
            if featVec[axis] == value:
                reDataSet.append(np.hstack((featVec[:axis],featVec[axis+1:])).tolist())
        return np.array(reDataSet)

    def chooseBestFeatureToSplit(self, dataSet):
        """
        選取最優資料集劃分方式構建決策樹
        :param dataSet:
        :return:
        """
        numFeatures = len(dataSet[0]) - 1
        baseEntropy = calcShannonEnt(dataSet[:,-1])
        bestInfoGain, bestFeature = 0.0, -1
        for i in range(numFeatures):
            featList = dataSet[:,i]
            uniqueVals = set(featList)
            newEntropy = 0.0
            for value in uniqueVals:
                subDataSet = self.splitDataSet(dataSet, i, value)
                prob = len(subDataSet) / len(dataSet)
                # 熵 = 選擇的決策佔比概率 *
                newEntropy += prob * calcShannonEnt(subDataSet[:,-1])
            infoGain = baseEntropy - newEntropy
            if(infoGain > bestInfoGain):
                bestInfoGain = infoGain
                bestFeature = i
        return bestFeature

    def majorityCnt(self,classList):
        """
        找到出現次數最多的 class
        :param classList:
        :return:
        """
        return collections.Counter(classList).most_common(1)[0][0]
        # classCount = {}
        # for vote in classList:
        #     if vote not in classCount.keys():
        #         classCount[vote] = 0
        #     classCount[vote] += 1
        # sortedClassCount = sorted(classCount.items(), key=lambda x: x[1], reverse=True)
        # return sortedClassCount[0][0]

    def createTree(self, dataSet, labels):
        """
        構建決策樹
        :param dataSet:
        :param labels:
        :return:
        """
        classList = dataSet[:,-1]
        # 如果所有資料的 feature 都一樣，返回 feature
        if np.unique(classList).size == 1:
            return classList[0]
        # 如果只有一個 feature ，返回出現最多的 class
        if len(dataSet[0]) == 1:
            return self.majorityCnt(classList)
        # 選擇一個 feature，使得資訊增益最大
        bestFeat = self.chooseBestFeatureToSplit(dataSet)
        bestFeatLabel = labels[bestFeat]
        myTree = {bestFeatLabel:{}}
        del(labels[bestFeat])
        # 取出這個 feature 下的所有 class 作為分類標準
        featValues = [example[bestFeat] for example in dataSet]
        uniqueVals = set(featValues)
        for value in uniqueVals:
            subLabels = labels[:]
            # 遞迴建立決策樹
            myTree[bestFeatLabel][value] = self.createTree(
                self.splitDataSet(dataSet, bestFeat, value), subLabels)
        return myTree

    def getNumLeafs(self, myTree):
        numLeafs = 0                                   #初始化葉子
        # firstStr = list(myTree.keys())[0]
        firstStr = next(iter(myTree))
        secondDict = myTree[firstStr]                 #獲取下一組字典
        for key in secondDict.keys():
            if isinstance(secondDict[key], dict):
                numLeafs += self.getNumLeafs(secondDict[key])
            else:   numLeafs +=1
        return numLeafs

    def getTreeDepth(self, myTree):
        maxDepth = 0                                          #初始化決策樹深度
        firstStr = next(iter(myTree))
        secondDict = myTree[firstStr]                         #獲取下一個字典
        for key in secondDict.keys():
            if isinstance(secondDict[key], dict):        #測試該結點是否為字典，如果不是字典，代表此結點為葉子結點
                thisDepth = 1 + self.getTreeDepth(secondDict[key])
            else:
                thisDepth = 1
            if thisDepth > maxDepth:
                maxDepth = thisDepth     #更新層數
        return maxDepth

    def classify(self, inputTree, labels, testVec):
        """
        分類預測
        :param inputTree: 決策樹
        :param labels: 資料標籤
        :param testVec: 測試資料
        :return:
        """
        firstStr = next(iter(inputTree))      #獲取決策樹結點
        secondDict = inputTree[firstStr]      #下一個字典
        featIndex = labels.index(firstStr)
        for key in secondDict.keys():
            if str(testVec[featIndex]) == key:
                if isinstance(secondDict[key],dict):
                    classLabel = self.classify(secondDict[key], labels, testVec)
                else: classLabel = secondDict[key]
        return classLabel

if __name__ == "__main__":
    dataSet = [[0, 0, 0, 0, 'no'],  # 資料集
               [0, 0, 0, 1, 'no'],
               [0, 1, 0, 1, 'yes'],
               [0, 1, 1, 0, 'yes'],
               [0, 0, 0, 0, 'no'],
               [1, 0, 0, 0, 'no'],
               [1, 0, 0, 1, 'no'],
               [1, 1, 1, 1, 'yes'],
               [1, 0, 1, 2, 'yes'],
               [1, 0, 1, 2, 'yes'],
               [2, 0, 1, 2, 'yes'],
               [2, 0, 1, 1, 'yes'],
               [2, 1, 0, 1, 'yes'],
               [2, 1, 0, 2, 'yes'],
               [2, 0, 0, 0, 'no']]
    labels = ['年齡', '有工作', '有自己的房子', '信貸情況']  # 特徵標籤
    DTree = DecisionTree(np.array(dataSet), labels[:])
    print("tree:\t",DTree.tree)
    print("leaf nums:\t",DTree.numLeafs)
    print("deapth:\t",DTree.deapth)
    print("classify:\t", DTree.classify(DTree.tree, labels, [3,1,0,"yes"]))

機器學習演算法 —— 決策樹

演算法概述優點:計算複雜度不高,榆出結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵資料。

機器學習演算法-決策樹C4.5練習

決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物件的值。

python機器學習實現決策樹

本文例項為大家分享了python機器學習實現決策樹的具體程式碼，供大家參考，具體內容如下

【機器學習】決策樹-01

心得體會： #3-1構造決策樹 #計算夏農熵 from math import log def calcShannonEnt(dataSet): numEntries=len(dataSet)

機器學習實戰---決策樹CART迴歸樹實現

機器學習實戰---決策樹CART簡介及分類樹實現一：對比分類樹 CART迴歸樹和CART分類樹的建立演算法大部分是類似的，所以這裡我們只討論CART迴歸樹和CART分類樹的建立演算法不同的地方。首先，我們要明白，什麼是迴歸樹

機器學習：決策樹

table { margin: auto; } 決策樹是機器學習中非常基礎的演算法，也是我研究生生涯學習到的第一個有監督模型，其中最基礎的ID3是1986年被髮表出來的，一經發表，之後出現了眾多決策樹演算法，不過最常見的還是C4.5和

機器學習之決策樹和隨機森林

一、迴歸實踐程式碼知識點總結 sklearn常用庫函式總結： from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.linear_model import L

機器學習之決策樹

決策樹理論參考：https://www.cnblogs.com/fm-yangon/p/14072896.html 決策樹的sklearn實現決策樹模型（分類與迴歸引數方法屬性一致）：

機器學習之決策樹（Decision Tree）

1 引言　　決策樹（Decision Tree）是一種非引數的有監督學習方法，它能夠從一系列有特徵和標籤的資料中總結出決策規則，並用樹狀圖的結構來呈現這些規則，以解決分類和迴歸問題。決策樹中每個內部節點表示一個屬性

機器學習-4-決策樹

簡介　　　　決策樹是基於樹結構進行決策的，決策樹的目的是產生一顆泛化能力強，即處理未見示例能力強的決策樹，其基本流程遵循簡單而直觀的“分而治之”（divide-and-conquer）的策略。

python機器學習-鳶尾花決策樹

決策樹API class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)

機器學習演算法（六）：基於決策樹的分類預測

一、決策樹的介紹決策樹是一種常見的分類模型，在金融分控、醫療輔助診斷等諸多行業具有較為廣泛的應用。決策樹的核心思想是基於樹結構對資料進行劃分，這種思想是人類處理問題時的本能方法。例如在婚戀市場中，女方

各種機器學習演算法的應用場景分別是什麼（比如樸素貝葉斯、決策樹、K 近鄰、SVM、邏輯迴歸最大熵模型）？...

連結：https://www.zhihu.com/question/26726794 編輯：深度學習與計算機視覺宣告：僅做學術分享，侵刪

十二、機器學習演算法整合（knn、樸素貝葉斯、決策樹、隨機森林、線性迴歸、嶺迴歸、邏輯迴歸、聚類、支援向量機）

技術標籤：機器學習決策樹聚類機器學習一、需要匯入的庫： \'\'\' 作者:小宇最後完成日期：2021.2.28

簡單易學的機器學習演算法——梯度提升決策樹GBDT

梯度提升決策樹（Gradient Boosting Decision Tree，GBDT）演算法是近年來被提及比較多的一個演算法，這主要得益於其演算法的效能，以及該演算法在各類資料探勘以及機器學習比賽中的卓越表現，有很多人對GBDT演算法進

簡單易學的機器學習演算法——分類迴歸樹CART

引言分類迴歸樹（Classification and Regression Tree，CART）是一種典型的決策樹演算法，CART演算法不僅可以應用於分類問題，而且可以用於迴歸問題。

機器學習演算法（一）: 基於邏輯迴歸的分類預測

程式碼流程 Part1 Demo實踐 Step1:庫函式匯入 Step2:模型訓練 Step3:模型引數檢視 Step4:資料和模型視覺化

七個關鍵因素：如何選擇出最佳機器學習演算法？

全文共2240字，預計學習時長6分鐘圖源：unsplash 任意的機器學習問題都可以應用多種演算法，生成多種模型。例如，垃圾郵件檢測分類問題可以使用多種模型來解決，包括樸素貝葉斯模型、邏輯迴歸模型和像

Python機器學習演算法：線性迴歸

作者|Vagif Aliyev 編譯|VK 來源|Towards Data Science 線性迴歸可能是最常見的演算法之一，線性迴歸是機器學習實踐者必須知道的。這通常是初學者第一次接觸的機器學習演算法，瞭解它的操作方式對於更好地理解它至關

08-02 機器學習演算法原理

目錄機器學習演算法原理一、1.1 感知機演算法1.1 1.1.1 決策函式1.1.1 1.1.1.1 sign函式影象1.2 1.1.2 損失函式1.3 1.1.3 目標函式1.4 1.1.4 目標函式優化問題二、1.2 線性迴歸2.1 1.2.1 決策函式2.2 1.2.2 目標函式

機器學習演算法 —— 決策樹

演算法概述

演算法流程

程式碼示例

相關推薦