機器學習實戰-簡單決策樹編寫

阿新 • • 發佈：2018-12-12

#!/user/bin/env python
# !-*-coding:utf-8 -*-
# !Time :2018/9/28 4:12 PM
# !Author : hyCong
# [email protected]  : .py
from math import log
import operator
import treePlotter

# 計算熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)  # 資料集的長度
    labelCounts = {}  # 用來存放不同這一特徵的不同型別的樣例個數
    for featVec in dataSet:
        currentLabel = featVec[-1]  # 獲取當前樣例的類別
        if currentLabel not in labelCounts.keys():  # 判斷當前掃到的類別在labelCounts字典中是否存在，如果存在則出現次數加以，否則初始化為1
            labelCounts[currentLabel] = 1
        else:
            labelCounts[currentLabel] += 1
    shannonEnt = 0.0  # 初始化香濃⤴️為0
    for key in labelCounts:
        prob = float(labelCounts[key]) / numEntries  # 計算當前key類別的樣例個數/總個數,即Pk
        shannonEnt -= prob * log(prob, 2)  # 使用熵的計算公式計算熵
    return shannonEnt


# 判斷簡單魚類的資料建立函式
def createDataSet():
    dataSet = [
        [1, 1, 'yes'],
        [1, 1, 'yes'],
        [1, 0, 'no'],
        [0, 1, 'no'],
        [0, 1, 'no']
    ]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels


# 根據所給定的屬性和屬性值獲取相應的資料
def splitDataSet(dataSet, axis, value):  # 三個引數，資料集，所選定的屬性下標，需要返回的資料集的屬性的值
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:  # 如果符合要求，則將該行資料抽取出來（去除用於選擇的屬性列）
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis + 1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet


# ID3(迭代二分器)中的劃分屬性選擇方法：從候選的屬性中選出Gain最大的屬性進行劃分
def chooseBestFeatureToSplitInID3(dataSet):
    numFeatures = len(dataSet[0]) - 1  # 待選屬性的個數
    baseEntropy = calcShannonEnt(dataSet)  # Ent(D) 資料集的資訊熵
    bestInfoGain = 0.0;
    bestFeatur = -1  # 初始化最大資訊增益和相對應的屬性下標
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]  # 獲取第i個屬性的對應列
        uniqueVals = set(featList)  # 獲取屬性值集合
        newEntropy = 0.0  # 屬性資訊熵
        for value in uniqueVals:  # 針對第i種屬性的每一種屬性值，進行迴圈，計算其對應的資訊熵
            subDataSet = splitDataSet(dataSet, i, value)  # 抽取出i屬性的value屬性值得資料集
            prob = len(subDataSet) / float(len(dataSet))  # 計算Pk(v)
            newEntropy += prob * calcShannonEnt(subDataSet)  # Gain
        infoGain = baseEntropy - newEntropy  # i屬性的資訊增益
        if infoGain > bestInfoGain:  # 取出資訊增益最大的屬性
            bestInfoGain = infoGain
            bestFeatur = i
    return bestFeatur


# C4.5演算法中的劃分屬性選擇方法：使用啟發式，先從候選劃分屬性中找出資訊增益高於平均水平的那些屬性，再從中選出Gain_ratio資訊增益率最大的屬性
def chooseBestFeatureToSplitInC45(dataSet):
    numFeatures = len(dataSet[0]) - 1  # 待選屬性的個數
    baseEntropy = calcShannonEnt(dataSet)  # Ent(D) 資料集的資訊熵
    bestGainRatio = 0.0  # 最高資訊增益率
    gain_ratios = []  # 各屬性的資訊增益率
    gain_ratios_high = []  # 比平均資訊增益大的屬性的資訊增益率
    feats_high = []  # 比平均資訊增益大的屬性下標
    sumEntropy = 0.0  # 總資訊增益
    gainSet = []  # 各屬性的資訊增益
    bestFeatur = -1  # 初始化最大資訊增益和相對應的屬性下標
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]  # 獲取第i個屬性的對應列
        uniqueVals = set(featList)  # 獲取屬性值集合
        newEntropy = 0.0  # 屬性資訊熵
        IV = 0.0
        for value in uniqueVals:  # 針對第i種屬性的每一種屬性值，進行迴圈，計算其對應的資訊熵
            subDataSet = splitDataSet(dataSet, i, value)  # 抽取出i屬性的value屬性值得資料集
            prob = len(subDataSet) / float(len(dataSet))  # 計算Pk(v)
            newEntropy += prob * calcShannonEnt(subDataSet)  # Gain
            IV -= prob * log(prob, 2)  # 屬性i的固有值
        infoGain = baseEntropy - newEntropy  # i屬性的資訊增益
        gain_ratios.append(infoGain / IV)  # 記錄下屬性i的資訊增益率
        sumEntropy += infoGain  # 計算總資訊增益
        gainSet.append(infoGain)  # 將各屬性的資訊增益放入列表用於計算平均值
    avgEntropy = sumEntropy / numFeatures  # 資訊增益平均值
    for i in range(len(gainSet)):  # 迴圈找出大於平均資訊增益的屬性
        if gainSet[i] > avgEntropy:
            gain_ratios_high.append(gain_ratios[i])
            feats_high.append(i)
    for i in range(len(gain_ratios_high)):  # 找出增益率最大的屬性
        if gain_ratios_high[i] > bestGainRatio:
            bestGainRatio = gain_ratios_high[i]
            bestFeatur = feats_high[i]

    return bestFeatur


# CART決策樹演算法中劃分屬性的選擇：選擇屬性的基尼係數最小的進行劃分
def chooseBestFeatureToSplitInCART(dataSet):
    return 0


# 當候選屬性已經劃分完畢後，發現數據集仍然存在多個類別，則採用多數表決的方法進行決定分類
def majorityCnt(classList):
    classCount = {}  # 類別計數
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 1
        else:
            classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)  # 將統計好的各類別的樣本個數進行降序排序
    return sortedClassCount[0][0]  # 返回出現次數最多的類別


# 決策樹建立程式碼
def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]  # 當前資料集的類別列表
    if classList.count(classList[0]) == len(classList):  # 構造樹的第一類返回：當剩下的資料集都屬於同一類時 ，無需向下劃分
        return classList[0]
    if len(dataSet[0]) == 1:  # 構造樹的第二類返回：當剩下的資料集的列數只剩下一列時，可發現所有屬性都已用完，咋返回樣例佔比較大的類別
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplitInID3(dataSet)  # 選取剩下的屬性中最優的屬性
    bestFeatLabel = labels[bestFeat]  # 最優屬性的名稱
    myTree = {bestFeatLabel: {}}  # 新建用來存放樹節點的字典
    del (labels[bestFeat])  # 刪除當前已選擇了的屬性名稱
    featValues = [example[bestFeat] for example in dataSet]  # 迴圈將資料集中bestFeature的所有屬性值取出
    uniqueVals = set(featValues)  # 將獲取的屬性值進行去重
    for vallue in uniqueVals:
        subLabels = labels[:]  # python在函式呼叫時，是引用傳值，而labels是列表型別，實質上是一個指標，若直接傳入，可能會導致操作錯誤。
        # 進入下一次迭代的入口，在進入子樹進行建立時，首先需要將資料集進行劃分，抽取出所有符合當前選擇的屬性的屬性值的資料，將其傳入下一次建立過程。
        myTree[bestFeatLabel][vallue] = createTree(splitDataSet(dataSet, bestFeat, vallue), subLabels)
    return myTree


classLabel = ''


# 針對測試向量，判斷其類別
def classify(inputTree, featLabels, testVec):
    global classLabel
    firstStr = inputTree.keys()[0]  # 獲取當前樹的樹根的屬性名
    secondDict = inputTree[firstStr]  # 獲取根節點的孩子節點列表
    featIndex = featLabels.index(firstStr)  # 找到當前根節點屬性在屬性列表中的下標
    for key in secondDict.keys():  # 對孩子節點進行掃描
        if testVec[featIndex] == key:  # 若測試向量中有屬性和某一孩子節點相同，則判斷該孩子節點是否還有子樹，若有則繼續向下尋找葉節點，否則則返回孩子節點的分類標籤
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel


# 使用pickle模組儲存決策樹
def storeTree(inputTree, filename):
    import pickle
    fw = open(filename, 'w')
    pickle.dump(inputTree, fw)
    fw.close()


def grabTree(filename):
    import pickle
    fr = open(filename)
    return pickle.load(fr)
``

機器學習實戰-簡單決策樹編寫

#!/user/bin/env python # !-*-coding:utf-8 -*- # !Time :2018/9/28 4:12 PM # !Author : hyCong # [email protected] : .py from ma

機器學習實戰精讀--------決策樹

決策樹機器學習 python感覺自己像個學走路的孩子，每一步都很吃力和認真！機器根據數據集創建規則，就是機器學習。決策樹：從數據集合中提取一系列規則，適用於探索式的知識發現。決策樹本質：通過一系列規則對數據進行分類的過程。決策樹算法核心：構建精度高，數據規模小的決策樹。ID3算法：此算法目的在於減少樹的深

機器學習實戰——3決策樹

文章對應《機器學習實戰》第三章主要是對各個函式的功能進行了比較易懂的描述，可供python初學者參考。另外推薦機器學習實戰程式碼註釋，對在本書中入門python的同學應有很大幫助。 //計算給定資料集的夏農熵 def calcShannonEnt(dataSet):

機器學習實戰之決策樹

學習《機器學習實戰》 1、決策樹的構造 1、決策樹理解決策樹是一種分類器，根據已知的特徵，做一個最純淨的劃分。例子：現在想構建一個郵件分類系統，第一步：先檢測傳送郵件的域名的地址，若地址是myEmployer.com，就把郵件放在無聊時需要閱讀的郵件，若域

《機器學習實戰》決策樹(ID3演算法)的分析與實現

決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物件的值。決策樹僅有單一輸出，若欲有複數輸出，可以建立獨立的決策樹以處理不同輸出。資料探勘中決策樹是一

機器學習實戰：決策樹-隱形眼鏡型別

程式碼及資料地址輸出結果 model: {‘tearRate’: {‘reduced’: ‘no lenses’, ‘normal’: {‘astigmatic’: {‘yes’: {‘prescript’: {‘hyper’: {‘age’: {‘presbyopic

機器學習實戰：決策樹-是否有魚

程式碼及資料地址輸出結果 model: {‘no surfacing’: {0: ‘no’, 1: {‘flippers’: {0: ‘no’, 1: ‘yes’}}}} predict: [1, 1] yes 程式碼 """ @

機器學習實戰筆記--決策樹

本文為《機器學習實戰》學習筆記 1. 決策樹簡介決策樹可以從資料集合彙總提取一系列的規則，建立規則的過程就是機器學習的過程。在構造決策樹的過程中，不斷選取特徵劃分資料集，直到具有相同型別的資料均在資料子集內。 1.1 劃分資料集由於不

《機器學習實戰》——決策樹的構造及案例

ID3演算法的決策樹的構造決策樹的理論部分，不再贅述，本篇博文主要是自己的學習筆記（《機器學習實戰》）先看下述決策樹，希望對理解決策樹有一定的幫助。 3.1.1資訊增益首先需要了解兩個公式：建立名為treesde.py檔案，將下述程式碼新增進去 from m

機器學習實戰-3決策樹

劃分依據決策樹的主要依據為資訊熵計算，資訊熵最大的最為分類依據流程建立資料集 –> 計算資訊熵，最大值作為結點，劃分子資料集 –> 遞迴尋找程式碼 from math import log import operator '''

機器學習實戰——繪製決策樹（程式碼）

最近在學習Peter Harrington的《機器學習實戰》，程式碼與書中的略有不同，但可以順利執行。import matplotlib.pyplot as plt # 定義文字框和箭頭格式 decisionNode = dict(boxstyle='sawtooth',

Spark機器學習(6)：決策樹算法

projects 信息 txt .cn import n) .com util seq 1. 決策樹基本知識決策樹就是通過一系列規則對數據進行分類的一種算法，可以分為分類樹和回歸樹兩類，分類樹處理離散變量的，回歸樹是處理連續變量。樣本一般都有很多個特征，有的特征對分

機器學習入門之決策樹算法

所有最大的 id3 次數要去決策樹算法 4.5 獲取 ddl 1、什麽是決策樹（Decision Tree）決策樹是一個類似於流程圖的樹結構，其中每一個樹節點表示一個屬性上的測試，每一個分支代表一個屬性的輸出，每一個樹葉節點代表一個類或者類的分布

機器學習(十二) 決策樹

圖解通過 rop 監管運用一個系統分支對象屬性決策樹(Decision Tree）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取凈現值的期望值大於等於零的概率，評價項目風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。由於這種決策分支畫

機器學習之路--決策樹

eve 分析完成後保存 not lba 不同排序離散一,引言：上一章我們講的kNN算法，雖然可以完成很多分類任務，但它最大的缺點是無法給出數據的內在含義，而決策樹的主要優勢就在於數據形式非常容易理解。決策樹算法能夠讀取數據集合，決策樹的一個重要

HIT機器學習期末複習（1）——機器學習簡介及決策樹

劉楊的機器學習終於上完了惹，下週就要考試了，趕緊複習ing...... 趁機做個總結，就當是複習了惹...... 機器學習簡介 1、什麼是機器學習簡單來說，就是一個三元組<P, T, E> P——performance效能（對應著效能的評估函式，也就是常說的loss或者likeli

HIT機器學習期末復習（1）——機器學習簡介及決策樹

決策樹開始矩陣 improve 節點 policy heat red program 劉楊的機器學習終於上完了惹，下周就要考試了，趕緊復習ing...... 趁機做個總結，就當是復習了惹...... 機器學習簡介 1、什麽是機器學習簡單來說，就是一個三元組<P

機器學習篇：決策樹的理解

1、決策樹是一個樹結構（可以是二叉樹或非二叉樹）決策樹是一個樹結構（可以是二叉樹或非二叉樹)其每個非葉節點表示一個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇輸出分

【機器學習】分類決策樹與迴歸決策樹案例

一、回顧什麼是決策樹，資訊熵構建決策樹的過程 ID3、C4.5和CRAT演算法上面三篇，主要介紹了相關的理論知識，其中構建決策樹的過程可以很好地幫助我們理解決策樹的分裂屬性的選擇。本篇所有原始碼：Github 二

機器學習之分類決策樹DecisionTreeClassifier

機器學習之分類決策樹DecisionTreeClassifier # -*- coding: utf-8 -*- """ Created on Fri Nov 23 21:06:54 2018 @author: muli """ import numpy as np

機器學習實戰-簡單決策樹編寫

相關推薦