python3.5實現決策樹c4.5（連續值版本）

阿新 • • 發佈：2019-02-16

最近學的python決策樹c4.5，網上沒找到連續值的code，自己xjb寫的，歡迎群巨前來指正·····orz

# -*- coding: utf-8 -*-
"""
Created on Wed Mar  7 18:54:11 2018

@author: jkrs
"""

from math import log
import matplotlib.pyplot as plt
import random
import operator
from sklearn.datasets import load_iris

def ent(data):
    feat = {}
    for feature in data:
        curlabel = feature[-1]
        if curlabel not in feat:
            feat[curlabel] = 0
        feat[curlabel] += 1
    s = 0.0
    num = len(data)
    for it in feat:
        p = feat[it] * 1.0 / num
        s -= p * log(p,2)
    return s

def remove_feature(data,i,value,flag):
    newdata = []
    for row in data:
        if flag == True:
            if row[i] < value:
                temp = row[:i]
                temp.extend(row[i + 1:])
                newdata.append(temp)
        else:
            if row[i] >= value:
                temp = row[:i]
                temp.extend(row[i + 1:])
                newdata.append(temp)
#    print('newdata = ',newdata)
    return newdata

# =============================================================================
# 如果是離散值，則使用以下函式進行feature選擇
# =============================================================================
# =============================================================================
# def choosebestfeature(data):
#     num = len(data[0]) - 1
#     S = ent(data)
#     maxgain = -1.0
#     bestfeature = -1
#     for i in range(num):
#         curlabel = [it[i] for it in data]
#         curlabel = set(curlabel)
#         if len(curlabel) == 1:
#             continue
#         s = 0.0
#         split = 0.0
#         for value in curlabel:
#             subdata = remove_feature(data,i,value)
#             p = len(subdata) * 1.0 / len(data)
#             s += p * ent(subdata)
#             split -= p * log(p,2)
#         if split == 0:
#             continue
#         gain = (S - s) / split
#         if gain > maxgain:
#             maxgain = gain
#             bestfeature = i
#     return bestfeature
# =============================================================================

def choosebest(data):
    m = len(data)
    maxgain = 0.0
    bestfeature = -1
    bestpoint = -1.0
    n = len(data[0]) - 1
    S = ent(data)
    for i in range(n):
        curfeature = []
        for j in range(m):
            curfeature.append(data[j][i])
        curfeature.sort()
        maxgain = 0.0
        point_id = -1
        for j in range(m - 1):
            point = float(curfeature[j + 1] + curfeature[j]) / 2
            Set = [[it for it in curfeature if it < point],[it for it in curfeature if it > point]]
            p1 = float(len(Set[0])) / m
            p2 = float(len(Set[1])) / m
            split = 0
            if p1 != 0:
                split -= p1 * log(p1,2)
            if p2 != 0:
                split -= p2 * log(p2,2)
            if split == 0:
                continue
            gain = (S - p1 * ent(remove_feature(data,i,point,True)) - p2 * ent(remove_feature(data,i,point,False))) / split
            if gain > maxgain:
                maxgain = gain
                bestfeature = i
                bestpoint = point
    return bestfeature,bestpoint
        
        

def classify(tree,feature,value):
    if type(tree).__name__ != 'dict':
        return tree
    root = list(tree.keys())[0]
    sons = tree[root]
    i = feature.index(root)
    if value[i] >= list(sons.keys())[1]:
        return classify(sons[list(sons.keys())[1]],feature,value)
    else:
        return classify(sons[list(sons.keys())[0]],feature,value)

def majorityCnt(classList):  
    classCount = {}  
    for vote in classList:  
        if vote not in classCount.keys(): classCount[vote] = 0  
        classCount[vote] += 1  
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]  


def build(data,feature):
    curlabel = [it[-1] for it in data]
    if curlabel.count(curlabel[0]) == len(curlabel):
        return curlabel[0]
# =============================================================================
#     對於大資料可使用以下if條件進行剪枝，其中n為feature總數，也可以將int(log(n,2))改成指定數值，意為葉子節點包含的樣本數
#     對應超引數min_samples_split
# =============================================================================
#    if len(curlabel) <= int(log(n,2)):
#        return majorityCnt(curlabel)
    if  len(data[0]) == 1:
        return majorityCnt(curlabel)
    i,point = choosebest(data)
    bestfeature = feature[i]
    tree = {bestfeature : {}}
    del feature[i]
    newfeature = feature[:]
    newdata = remove_feature(data,i,point,True)
    tree[bestfeature][0] = build(newdata,newfeature)
    newdata = remove_feature(data,i,point,False)
    newfeature = feature[:]
    tree[bestfeature][point] = build(newdata,newfeature)
    return tree
    


def dfs(tree,deep,sample):
    if (type(tree) != sample):
        return deep
    cnt = 0
    for key in tree.keys():
        cnt = max(cnt,dfs(tree[key],deep + 1,sample))
    return cnt

def main():
    iris = load_iris()
    train_data = iris['data'][:105]
    feature = iris['feature_names']
    label = iris['target'][:105]
    data = train_data.tolist()
    lab = label.tolist()
    test_feature = feature[:]
    num = len(data)
    for i in range(num):
        data[i].append(lab[i])
    tree = build(data,feature)
# =============================================================================
#     檢視決策樹的生成情況
# =============================================================================
#    print('tree = ',tree)
    test_data = iris['data'][106:]
    rest = iris['target'][106:]
    test = test_data.tolist()
    ans = rest.tolist()
    num = len(test_data)
    res = []
    for i in range(num):
        res.append(classify(tree,test_feature,test[i]))
    cnt = 0
    for i in range(num):
        if ans[i] == res[i]:
            cnt += 1
    print('precise = ',cnt * 1.0 / num)

if __name__ == '__main__':
    main()

python3.5實現決策樹c4.5（連續值版本）

最近學的python決策樹c4.5，網上沒找到連續值的code，自己xjb寫的，歡迎群巨前來指正·····orz # -*- coding: utf-8 -*- """ Created on Wed Mar 7 18:54:11 2018 @author: jkr

決策樹C4 5分類演算法的C++實現

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【用python實現《統計學習方法》】之決策樹C4.5/ID3

宣告：本文根據李航博士的《統計學校方法》中的決策樹章節的原理：最大熵資訊增益、資訊增益比進行決策樹的實現。在視覺化方面主要參考的這篇博文。決策樹演算法是一類在資料探勘中應用的特別多的符號學派分類器，並在整合學習中被大大采用。經典的c4.5和id3以及後來的c

Qt實現的區域網通訊軟體（仿QQ版本）

Qt5實現的區域網通訊工具，支援公網。類似軟體百度一大把，但是還是想整理一份屬於自己的專屬QQ。支援跨平臺。 1目的本文主要介紹利用Qt實現區域網通訊的主要實現流程和一些技術知識點的設計說明。 2總體設計 2.1 功能特點這款區域網通訊軟體是基

決策樹分類器（ID3、C4.5 Java實現）

分類什麼是分類？舉個例子，銀行貸款員需要分析資料，以便搞清楚哪些是貸款申請者是值得信賴的。通訊公司也希望能分清楚哪些客戶容易接受某一套餐，從而定向營銷。資料分類一般又包括學習階段（構建分類器）和分類階段（使用模型預測給定資料的類標號）。決策樹分類器

決策樹的進化（ID3、C4.5、CART、GBDT、RF、DART、lambdaMART、XGBoost、lightGBM）

pipeline 在資料探勘領域中，決策樹是對資料進行建模的一種很有效的手段。當資料集被清洗好後，資料集就是樣本的集合，每一個樣本都是有一樣多的屬性，但屬性值可能不同（也有可能不存在即屬性值缺失）。每一個樣本，分為屬性（也可稱為特徵）和label兩部分，我們運用決策樹處理資

演算法-基於ID3和C4.5的決策樹演算法

目錄摘要構建過程 ID3演算法注意點： C4.5 參考文獻：摘要決策樹演算法是相對比較清晰簡單的有監督分類演算法，所謂有監督就是需要給出標準的已知分類的樣本資料集，根據資料集訓練或者說構建出一個模型，然後根據模型對新的資料進行預測分類。

ID3演算法改進的C4.5演算法決策樹演算法

最早的決策時演算法是由 Hunt 等人於 1966 年提出的 CLS 。當前最有影響的決策樹演算法是 Quinlan 於 1986 年提出的 ID3 和 1993 年提出的 C4.5 。 ID3 只能處理離散型描述屬性，它選擇資訊增益最大的屬性劃分訓練樣本，其目的是進行分枝時系統的熵最小，從而提高演算法

Windows10離線安裝tensorflow_gpu-1.5.0rc1-cp36-cp36m-win_amd64.whl（對應GPU版本的tensorflow，對應python3.6）

Windows10離線安裝tensorflow_gpu-1.5.0rc1-cp36-cp36m-win_amd64.whl（對應GPU版本的tensorflow，對應python3.6） 1. 確保python版本是3.5 64位及以上。（tensorflow從1.2開始支援python

python3實現決策樹(機器學習實戰)

from math import log def calcShannonEnt(dataSet):#計算給定資料集的夏農熵 numEntries = len(dataSet) labelCounts = {} for featVec i

統計學習方法李航---第5章決策樹

第5章決策樹決策樹(decision tree)是一種基本的分類與迴歸方法。本章主要討論用於分類的決策樹。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。其主要

TensorFlow學習筆記（5）--實現卷積神經網路（MNIST資料集）

這裡使用TensorFlow實現一個簡單的卷積神經網路，使用的是MNIST資料集。網路結構為：資料輸入層–卷積層1–池化層1–卷積層2–池化層2–全連線層1–全連線層2（輸出層），這是一個簡單但非常有代表性的卷積神經網路。 import tensorflow

【機器學習演算法-python實現】決策樹-Decision tree（1）資訊熵劃分資料集

1.背景決策書演算法是一種逼近離散數值的分類演算法，思路比較簡單，而且準確率較高。國際權威的學術組織，資料探勘國際會議ICDM （the IEEE International Con

機器學習經典演算法詳解及Python實現--決策樹（Decision Tree）

（一）認識決策樹 1，決策樹分類原理決策樹是通過一系列規則對資料進行分類的過程。它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和迴歸樹兩種，分類樹對離散變數做決策樹，迴歸樹對連續變數做決策樹。近來的調查表明決策樹也是最經常使用的資料探勘演算法，它

【LeetCode】線段樹 segment-tree（共9題）+ 樹狀陣列 binary-indexed-tree（共5題）

第一部分---線段樹：https://leetcode.com/tag/segment-tree/ p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px Helvetica } 【218】The Skyline Problem&n

Python 資料科學手冊 5.8 決策樹和隨機森林

5.8 決策樹和隨機森林之前，我們深入研究了簡單的生成分類器（見樸素貝葉斯分類）和強大的辨別分類器（參見支援向量機）。這裡我們來看看另一個強大的演算法的動機 - 一種稱為隨機森林的非引數演算法。隨機森林是組合方法的一個例子，這意味著它依賴於更簡單估計

決策樹原理例項（python程式碼實現）

決策數(Decision Tree)在機器學習中也是比較常見的一種演算法，屬於監督學習中的一種。看字面意思應該也比較容易理解，相比其他演算法比如支援向量機(SVM)或神經網路，似乎決策樹感覺“親切”許多。優點：計算複雜度不高，輸出結果易於理解，對中間值的缺

計算1^1+2^2+3^3+4^4+5^5+……+20^20 ，大數運算（加，乘）java實現

這個題目是明顯的大數運算，不能直接使用int long double 早就超出範圍了，要用陣列結合字串進行處理，分別實現大數的加法和乘法，然後使用實現的加法和乘法寫出來n的n次冪的實現，最後把它們加起來首先存進來就是要用string來存貯，運算的時候按位運算，charAt(

python實現決策樹分類（三）

在上一篇文章中，我們已經構建了決策樹，接下來可以使用它用於實際的資料分類。在執行資料分類時，需要決策時以及標籤向量。程式比較測試資料和決策樹上的數值，遞迴執行直到進入葉子節點。這篇文章主要使用決策樹分類器就行分類，資料集採用UCI資料庫中的紅酒，白酒資料，主要特徵包括12

資料探勘入門系列教程（四）之基於scikit-lean實現決策樹

資料探勘入門系列教程（四）之基於scikit-lean決策樹處理Iris載入資料集資料特徵訓練隨機森林調參工程師結尾資料探勘入門系列教程（四）之基於scikit-lean決策樹處理Iris 在上一篇部落格，我們介紹了決策樹的一些知識。如果對決策樹還不是很瞭解的話，建議先閱讀上一篇部落格，在來學習這

python3.5實現決策樹c4.5（連續值版本）

相關推薦