ID3決策樹的生成

阿新 • • 發佈：2019-01-27

# coding=utf-8
import math

'''
決策樹模型，假設有三個條件
    年齡，有三個選項   1  表示老年人  2 表示中年 人  3 表示青年人
    工作，有兩個選項   1   表示有工作  2表示  沒有工作
    房子，有兩個選項   2  表示有房子   2表示  沒有房子
	信貸情況           1表示一般   2表示號  3表示非常好
    輸出，有兩個選項   1 表示給貸款    2表示  不予貸款
要求： 依次獲得每個選項的資訊增益
'''

output = []


class Node:
    def __init__(self, desc, child_list_input=[], child_desc=[], child=[]):
        self.desc = desc
        self.child = []
        self.child_list_input = child_list_input
        self.child_desc = child_desc

    def set_child(self, child):
        self.child = child

    def append_child(self, child):
        self.child.append(child)


g_desc = [
    {1: "老年人", 2: "中年人", 3: "青年人"},
    {1: "有工作", 2: "沒工作"},
    {1: "有房子", 2: "沒有房子"},
    {1: "信貸一般", 2: "信貸好", 3: "信貸非常好"}
]
g_columns = ["年齡", "工作", "房子", "信貸"]
limit_low_shang = 0.2
sample_input = [[3, 2, 2, 1, 2],
                [3, 2, 2, 2, 2],
                [3, 1, 2, 2, 1],
                [3, 1, 1, 1, 1],
                [3, 2, 2, 1, 2],
                [2, 2, 2, 1, 2],
                [2, 2, 2, 2, 2],
                [2, 1, 1, 2, 1],
                [2, 2, 1, 3, 1],
                [2, 2, 1, 3, 1],
                [1, 2, 1, 3, 1],
                [1, 2, 1, 2, 1],
                [1, 1, 2, 2, 1],
                [1, 1, 2, 3, 1],
                [1, 2, 2, 1, 2]]


# 計算 H(D)
def get_proper_column_index(sample_input, desc=""):
    # 獲得輸出的經驗熵
    if len(sample_input) == 0:
        return
    out_put_array = {}
    for i in sample_input:
        index = len(i) - 1
        if i[index] in out_put_array:
            out_put_array[i[index]] = out_put_array[i[index]] + 1
        else:
            out_put_array[i[index]] = 1
    N = len(sample_input)
    for i in out_put_array.keys():
        sample = out_put_array[i]
        out_put_array[i] = {}
        pi = sample / N
        out_put_array[i]['pi'] = pi
        out_put_array[i]['log'] = math.log(pi, 2)
        out_put_array[i]['count'] = sample
    HD = 0
    for i in out_put_array.keys():
        HD += 0 - (out_put_array[i]['pi'] * out_put_array[i]['log'])
    columns_num = len(sample_input[0])
    max_shang = 0
    current_index = 0
    for i in range(0, columns_num - 1):
        result = getTezhengX(sample_input, i, N, HD)
        if result > max_shang:
            max_shang = result
            current_index = i
    global limit_low_shang

    if max_shang < limit_low_shang:
        #print("未能成功分類：" + desc)
        output.append(desc)
        # 返回葉子節點
        return Node(desc, [])
    # 根據 current位置的資訊進行樣本分割
    result = {}
    global g_desc
    for item in sample_input:
        value = item[current_index]
        if value in result.keys():
            result[value]['item'].append(item)
        else:
            result[value] = {}
            result[value]['item'] = []
            result[value]['desc'] = g_desc[current_index][value]
            result[value]['item'].append(item)
    data_list = []
    desc_list = []
    for item in result.keys():
        data_list.append(result[item]['item'])
        desc_list.append(result[item]['desc'])
    # get_proper_column_index(result[item]['item'], result[item]['desc'])

    return Node(g_columns[current_index], data_list, desc_list)


# 接下來計算年齡特徵的資訊增益
def getTezhengX(sample_input, index, N, HD):
    result = {}
    for i in sample_input:
        key = i[index]
        if key not in result.keys():
            result[key] = {}
            result[key]['count'] = 0
        # 行元素最後一個是輸出
        out = i[len(i) - 1]
        if out in result[key].keys():
            result[key][out] = result[key][out] + 1
        else:
            result[key][out] = 1
        result[key]['count'] = result[key]['count'] + 1
    all_sum = 0
    # result.keys 裡面的值是 第i列的不同的值得陣列
    for key in result.keys():
        # 當前輸出類的概率是
        item = result[key]
        # 去掉count元素
        sum_count = item['count']
        result[key].pop('count')
        item = result[key]
        # 特徵X 在所有樣本中的概率
        sum_value = sum_count / N
        tmp_sum = 0
        for tmp in item.keys():
            pi = item[tmp] / sum_count
            log = math.log(pi, 2)
            tmp_sum = tmp_sum + pi * log
        sum_value = sum_value * (0 - tmp_sum)
        all_sum = all_sum + sum_value
    return HD - all_sum


def proc_Node(node):
    if len(node.child_list_input) == 0:
        # 說明是葉子節點
        return node
    else:
        node_list = []
        for k, item in enumerate(node.child_list_input):
            # print(node.child_list_input[k])
            tmp = get_proper_column_index(item, node.child_desc[k])
            current_node = proc_Node(tmp)
            node_list.append(current_node)
        node.child = node_list
        return node

def bianli_node(node, depth=0, parent=""):
    if depth == 0:
        print("根節點："+node.desc)
    else:
        print("父節點：" + parent + "  當前節點：" + node.desc + "  深度：" + str(depth))
    for i, item in enumerate(node.child_list_input):
        bianli_node(node.child[i], depth + 1, node.desc)

root = get_proper_column_index(sample_input)
root = proc_Node(root)

bianli_node(root)

ID3算法實現的決策樹生成

log 相關 com https mage 代碼 logs master es2017 代碼地址 https://coding.net/u/mich/p/easytry/git/tree/master/src/com/ml 目錄結構 decision目錄下主要為決策樹的相

ID3決策樹的生成

# coding=utf-8 import math ''' 決策樹模型，假設有三個條件年齡，有三個選項 1 表示老年人 2 表示中年人 3 表示青年人工作，有兩個選項 1 表示有工作 2表示沒有工作房子，有兩個選項

ID3決策樹中連續值的處理+周志華《機器學習》圖4.8和圖4.10繪製

轉載自 https://blog.csdn.net/Leafage_M/article/details/80137305 用一句話總結這篇部落格的內容就是: 對於當前n條資料,相鄰求平均值,得到n-1個分割值,要點如下: ①連續數值特徵的熵計算就是對上面的n-1個分割值不停嘗試, 嘗試得

ID3決策樹（python實現）

決策樹的生成（該函式是一個遞迴的過程）CreateTree 輸入：資料集、特徵輸出：字典型資料——決策樹 a、判斷是否滿足停止劃分的條件若當前資料集的屬性值為空，則投票表決當前樣本中最多的類別若當前所有的樣本類別相同，則返回當前資料的類別。

ID3決策樹程式碼詳解（weka平臺）

1 ID3演算法流程理論知識不必多講，下面講解ID3演算法的工作流程，以西瓜書為例： 2 演算法程式碼講解 2.1 前提必知 2.2 演算法流程 3:程式碼整個演算法實際就 makeTree和distributionForInsta

[機器學習]ID3決策樹詳細計算流程周志華機器學習筆記原創Excel手算方法

1.用到的主要三條熵公式： 1.1 資訊熵詳情見夏農資訊理論概率越平衡事件所含有的資訊量越大 1.2 條件熵代表某一屬性下不同分類的資訊熵之和 1.3 資訊增益等於資訊熵減去條件熵，從數值上，越大的資訊增益在資訊熵一定的情況下，代表條件熵越小，條件熵越

ID3決策樹

資訊熵與資訊增益：熵代表資訊的混亂程度。一個特徵的熵越小，說明這個特徵的資訊越純淨，價值越大，用總的資訊熵減去該特徵資訊熵的資訊增益就越大，越應該在初始的時候作為劃分資料集的特徵。實現程式碼：（環境為Python3.x） from numpy import *

《python資料分析和資料探勘》——ID3決策樹學習筆記

ID3決策樹決策樹在分類預測和規則提取中有著廣泛的應用。他是一樹狀結構，每一個節點對應著一個分類，非葉節點對應著在某個屬性上的劃分，根據樣本在該屬性上的不同取值將其劃分成若干個子集。構造決策樹的核心問題就是如何選擇適當的屬性對樣本進行拆分。基本原理 ————————希望自己能用

機器學習入門演算法及其java實現-ID3(決策樹)演算法

ID3決策樹也是決策樹的一種，其作用在於根據已有資料訓練決策樹，並通過決策樹的分支實現對新資料的分類，是一種有監督的學習。在生成決策樹的過程中，ID3使用的資訊熵增益對子節點類別進行確定。根據資訊熵越是有序的資料熵值越低，資訊熵增益越大表示當前屬性對於資料的

ID3決策樹演算法原理及C++實現(其中程式碼轉自別人的部落格)

分類是資料探勘中十分重要的組成部分. 分類作為一種無監督學習方式被廣泛的使用. 之前關於"資料探勘中十大經典演算法"中,基於ID3核心思想的分類演算法 C4.5榜上有名.所以不難看出ID3在資料分類中是多麼的重要了. ID3又稱為決策樹演算法,雖然現在廣義的決策樹演

論文筆記1《基於ID3決策樹改進演算法的客戶流失預測分析》

《電腦科學》 2010年部分摘要：指出了該演算法的取指偏向性以及運算效率不高等缺點，在此基礎上提出了改進的ID3演算法，該演算法通過引入先驗知識度引數，有效克服ID3演算法中的取值偏向性和運算效率

Python 決策樹生成PDF

包準備pydot、graphviz安裝conda install graphviz（完整安裝）pip install pydot 降級安裝示例 pip install robotframework==2.8.7 #生成決策樹import pandas as pdi

ID3演算法生成決策樹

from sklearn.externals.six import StringIO import pydot from sklearn import datasets from sklearn import tree iris = datasets.load_iris() clf = t

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧前面我們介紹了決策樹的特徵選擇，以及根據資訊增益構建決策樹。那麼決策樹的生成又有哪些經典演算法呢？本篇將主要介紹ID3的生成演算法，然後介紹C4.5中的生成演算法。最後簡單介紹CRAT演算法。 ID3演算法前面我們提到，一般而言，資訊增

手把手生成決策樹(dicision tree)

img ever load eight 嘗試存在 lan 3.6 https 手把手生成決策樹(dicision tree)

javascript實現樸素貝葉斯分類與決策樹ID3分類

.com 訓練集 this ice map ive sum length roc 今年畢業時的畢設是有關大數據及機器學習的題目。因為那個時間已經步入前端的行業自然選擇使用JavaScript來實現其中具體的算法。雖然JavaScript不是做大數據處理的最佳語言，相比還沒有

鵝廠優文 | 決策樹及ID3算法學習

存在常用種類每一個 cool HR 理論腳本無限歡迎大家前往騰訊雲+社區，獲取更多騰訊海量技術實踐幹貨哦~。作者：袁明凱|騰訊IEG測試開發工程師決策樹的基礎概念決策樹是一種用樹形結構來輔助行為研究、決策分析以及機器學習的方式，是機器學習中的一種基本的

決策樹之ID3算法

dex 信息增益 lan 進入根據 keys one 回顧改進一、決策樹之ID3算法簡述　　1976年-1986年，J.R.Quinlan給出ID3算法原型並進行了總結，確定了決策樹學習的理論。這可以看做是決策樹算法的起點。1993，Quinlan將ID3算法改進

決策樹演算法（ID3，C4.5，CART）

ID3，C4.5，CART是是決策樹的核心演算法。它們都由特徵選擇，樹的生成，剪枝組成。但ID3和C4.5用於分類，CART可用於分類與迴歸。 1.ID3演算法 ID3演算法遞迴地構建決策樹，從根節點開始，對所有特徵計算資訊增益，選擇資訊增益最大的特徵作為節點的特徵，由該特徵的不同取值建

ID3的REP（Reduced Error Pruning）剪枝程式碼詳細解釋+周志華《機器學習》決策樹圖4.5、圖4.6、圖4.7繪製

處理資料物件:離散型資料資訊計算方式：熵資料集：西瓜資料集2.0共17條資料訓練集（用來建立決策樹）：西瓜資料集2.0中的第1,2,3,6,7,10,14,15,16,17,4 請注意，書上說是10條，其實是上面列出的11條。驗證集（用來對決策樹剪枝）：西瓜資料集2.0中的5,8

ID3決策樹的生成

相關推薦