從零開始寫程式碼 ID3決策樹Python

阿新 • • 發佈：2021-11-06

視訊版地址B站：從零開始寫程式碼 Python ID3決策樹演算法分析與實現_嗶哩嗶哩_bilibili

程式碼如下：

# author:會武術之白貓
# date:2021-11-6
import math

def createDataSet():
    # dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
    # labels = ['no sufacing', 'flippers']
    dataSet = [
        [ 
1,1,2,0,1,1,0,'感冒'],
        [2,0,3,2,0,2,2,'流感'],
        [3,0,0,1,1,1,1,'流感'],
        [0,0,1,1,1,0,1,'感冒'],
        [3,1,2,2,0,2,2,'流感'],
        [0,1,2,0,1,0,0,'感冒'],
        [2,0,2,2,0,2,2,'流感'],
        [0,1,3,0,0,1,1,'感冒']]
    labels = ['發冷','喉嚨痛','咳嗽','頭痛','鼻塞','疲勞','發燒']
    return dataSet, labels

def calcShannonEnt(dataSet):
    numEntries  
= len(dataSet)
    # 為分類建立字典
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts.setdefault(currentLabel, 0)
        labelCounts[currentLabel] += 1

    # 計算夏農墒
    shannonEnt = 0.0
    for key in 
 labelCounts:
        prob = float(labelCounts[key]) / numEntries
        shannonEnt += prob * math.log2(1 / prob)
    return shannonEnt

# 定義按照某個特徵進行劃分的函式 splitDataSet
# 輸入三個變數（帶劃分資料集， 特徵，分類值)
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reduceFeatVec = featVec[:axis]
            reduceFeatVec.extend(featVec[axis + 1:])
            retDataSet.append(reduceFeatVec)
    return retDataSet  #返回不含劃分特徵的子集

#  定義按照最大資訊增益劃分資料的函式
def chooseBestFeatureToSplit(dataSet):
    numFeature = len(dataSet[0]) - 1
    baseEntropy = calcShannonEnt(dataSet)
    bestInforGain = 0
    bestFeature = -1

    for i in range(numFeature):
        featList = [number[i] for number in dataSet] #得到某個特徵下所有值
        uniqualVals = set(featList) #set無重複的屬性特徵值
        newEntrogy = 0

        #求和
        for value in uniqualVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet) / float(len(dataSet)) #即p(t)
            newEntrogy += prob * calcShannonEnt(subDataSet) #對各子集求夏農墒

        infoGain = baseEntropy - newEntrogy #計算資訊增益
        #print(infoGain)

        # 最大資訊增益
        if infoGain > bestInforGain:
            bestInforGain = infoGain
            bestFeature = i
    return bestFeature

# 投票表決程式碼
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount.setdefault(vote, 0)
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=lambda i:i[1], reverse=True)
    return sortedClassCount[0][0]

def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    # print(dataSet)
    # print(classList)
    # 類別相同，停止劃分
    if classList.count(classList[0]) == len(classList):
        return classList[0]

    # 判斷是否遍歷完所有的特徵,是，返回個數最多的類別
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)

    #按照資訊增益最高選擇分類特徵屬性
    bestFeat = chooseBestFeatureToSplit(dataSet) #分類編號
    bestFeatLabel = labels[bestFeat]  #該特徵的label
    myTree = {bestFeatLabel: {}}
    del (labels[bestFeat]) #移除該label

    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]  #子集合
        #構建資料的子集合，並進行遞迴
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree

def classify(inputTree, featLabels, testVec):
    """
    :param inputTree: 決策樹
    :param featLabels: 屬性特徵標籤
    :param testVec: 測試資料
    :return: 所屬分類
    """
    firstStr = list(inputTree.keys())[0] #樹的第一個屬性
    sendDict = inputTree[firstStr]

    featIndex = featLabels.index(firstStr)
    classLabel = None
    for key in sendDict.keys():

        if testVec[featIndex] == key:
            if type(sendDict[key]).__name__ == 'dict':
                classLabel = classify(sendDict[key], featLabels, testVec)
            else:
                classLabel = sendDict[key]
    return classLabel

if __name__ == '__main__':
    dataSet, labels = createDataSet()
    r = chooseBestFeatureToSplit(dataSet)
    #print(r)
    myTree = createTree(dataSet, labels)
    print(myTree)
    #  --> {'no sufacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}
    res = classify(myTree, ['發冷','喉嚨痛','咳嗽','頭痛','鼻塞','疲勞','發燒'], [1,1,2,0,1,1,0])
    print(res)

從零開始寫程式碼 ID3決策樹Python

視訊版地址B站：從零開始寫程式碼 Python ID3決策樹演算法分析與實現_嗶哩嗶哩_bilibili

從零開始寫程式碼-AdaBoost演算法的python實現

視訊版見B站： # author:會武術之白貓 # date:2021-11-11 import csv import numpy as np import random

用VHDL從零開始寫RISC-V指令集核——一個簡單的開始

0 寫在前面的話這個是在參考國外一個大神Domipheus搭建16位RISC-V作業系統核的過程的情況下（http://labs.domipheus.com/blog/tpu-series-quick-links/），進行的個人筆記的整理。用來記錄自己從一個VHDL小白，逐漸

從零開始寫模型LeNet

技術標籤：深度學習個人部落格同步更新，介面更美觀呀 Introduction 近來安裝了MindSpore框架，便想測試一下它和Pytorch等其他深度學習框架有什麼區別。首先便從模型的訓練耗時和測試耗時來測試，MindSpore官方

net根據list建立xml_從零開始寫文字編輯器（二十五）：支援對目錄URL遍歷XML資源...

技術標籤：net根據list建立xml 前言現階段的資源載入是固定的 string.xml 來載入所有字串資源。但一個檔案顯然不利於編輯和分類。當我把所有選單項字串列出時，已經多達230個，更不論對話方塊/按鈕等使用的字串

new file()的路徑能用中文嗎_從零開始寫文字編輯器（八）：介面文字支援中文...

技術標籤：new file()的路徑能用中文嗎程式設計師這行業有點噁心的地方在於，很多小眾領域的優秀軟體沒有中文，其實也不是故意不支援中文，多半是計算機發展的歷史原因。

從零開始寫 OS 核心 - 全域性描述符表 GDT

系列目錄序篇準備工作BIOS 啟動到真實模式GDT 與保護模式虛擬記憶體初探載入並進入 kernel顯示與列印全域性描述符表 GDT中斷處理虛擬記憶體完善實現堆和 malloc建立第一個核心執行緒多執行緒執行與切換鎖與多執行緒同

從零開始寫一個BitTorrent下載器

參與真實BitTorrent網路環境 BT協議簡介 BT協議Bit Torrent（BT）是一種通訊協議，又是一種應用程式，廣泛用於對等網路通訊（P2P）。曾經風靡一時，由於它引起了巨大的流量，對因特網的運營、維護和管理都產生

從零開始寫 PHP 擴充套件

PHP 是用 C 語言寫的。對於每個 PHPer 來說，都有著內心的一種希望寫擴充套件的衝動了吧。然而，缺乏一個很好的切入點。Google 上搜 PHP 擴充套件開發，大部分都是複製品文章，甚至有些人連操作都沒有操作過就搬運在

一個起點---從零開始寫部落格

前言：本人今年大三在讀，由於疫情原因（具體來說是學校突然陽了一個)早早的就放假回家了。突然有了一段難得的空閒時間，想起自己想開通部落格的願望，便動手去做了。

CEO 親自寫程式碼登上熱榜，從零開始打造“裸金屬”樹莓派

10 月 10 日訊息CEO 親自寫的程式碼是啥樣？來自 RealVNC 公司的 CEO 說，自己常年當管理者，程式碼生疏了，所以決定重拾一下程式設計師工作，寫一點樹莓派的程式碼。結果，一不小心就上了技術論壇 Hacker News 熱門

從零開始手寫 spring ioc 框架，深入學習 spring 原始碼

IoC Ioc 是一款 spring ioc 核心功能簡化實現版本，便於學習和理解原理。創作目的

Python3 ID3決策樹判斷申請貸款是否成功的實現程式碼

1. 定義生成樹 # -*- coding: utf-8 -*- #生成樹的函式 from numpy import * import numpy as np import pandas as pd

從零開始手寫 mybatis（二）mybatis interceptor 外掛機制詳解

前景回顧第一節從零開始手寫 mybatis（一）MVP 版本中我們實現了一個最基本的可以執行的 mybatis。

從零開始手寫 mybatis （三）jdbc pool 從零實現資料庫連線池

前景回顧第一節從零開始手寫 mybatis（一）MVP 版本中我們實現了一個最基本的可以執行的 mybatis。

從零開始手寫 mybatis（四）- mybatis 事務管理機制詳解

前景回顧第一節從零開始手寫 mybatis（一）MVP 版本中我們實現了一個最基本的可以執行的 mybatis。

java 從零開始手寫 redis（11）clock時鐘淘汰演算法詳解及實現

前言 java從零手寫實現redis（一）如何實現固定大小的快取？ java從零手寫實現redis（三）redis expire 過期原理

從零開始手寫快取框架（12）redis expire 過期的隨機特性詳解及實現

前言 java從零手寫實現redis（一）如何實現固定大小的快取？ java從零手寫實現redis（二）redis expire 過期原理

從零開始學JAVA——類的成員之四，程式碼塊（或初始化塊）

技術標籤：javajava 類的成員之四，程式碼塊（或初始化塊） 1.程式碼塊的使用：用來初始化類、物件2.程式碼塊如果有修飾的話，只能使用static3.分類：靜態程式碼塊與非靜態程式碼塊4.靜態程式碼塊

ros 寫node 儲存資料到txt_從零開始搭二維鐳射SLAM 瞭解雷達資料

技術標籤：ros 寫node 儲存資料到txt 終於到了寫程式碼的階段了，哈哈。上一篇文章我們通過實驗知道了雷達資料的各種性質，但是雷達資料在程式碼裡是如何體現的呢？

從零開始寫程式碼 ID3決策樹Python

相關推薦