決策樹-屬性選擇

阿新 • • 發佈：2021-11-18

現在，我們要做的是進行屬性(或者說特徵)的選擇

光看程式清單3-2，以及把陣列帶進去執行一遍可能也有點不清晰，最好先看一下西瓜書

然後意思是傳進去一個數據集，對於某一列(axis=0表示第1列)，如果為0(value=0)，那麼保留這一行但是不要這個屬性對應的值

import shannonEnt

dataSet = shannonEnt.dataSet
labelSet = shannonEnt.labelSet


def splitDataSet(dataSet, axis, value):
    featureDataSet = []
    for featureVec in dataSet:
        if featureVec[axis] == value:
            tempVec = featureVec[:axis]
            tempVec.extend(featureVec[axis + 1:])
            featureDataSet.append(tempVec)
    return featureDataSet


a = splitDataSet(dataSet, 0, 0)
b = splitDataSet(dataSet, 0, 1)
print(a)
print(b)

[[1, 'no'], [1, 'no']]
[[1, 'yes'], [1, 'yes'], [0, 'no']]

這裡a是對第0列取值為0的行進行了處理，b是對第0列取值為1的行進行了處理

這裡想更簡單點的話，用pd去掉某一列，然後再算比例也可以

接著書上使用ID3進行屬性選擇

思路如下：

首先計算總的Ent，得到總共有2個屬性
然後對於2個屬性進行遍歷，對於第1個屬性，得到其對應的屬性取值為[1, 1, 1, 0, 0]
那麼對於剛剛得到的[1, 1, 1, 0, 0]，我們知道有兩種取值，用set得到列表[1,0]
從這兩個取值中再去用剛剛寫好的splitDataSet函式得到1對應的子集，以及0對應的子集
這裡我們能知道1對應的子集個數為3，那麼由西瓜書公式4.2去計算$sigma$和Ent

結合起來程式碼如下

import shannonEnt

dataSet = shannonEnt.dataSet
labelSet = shannonEnt.labelSet


def splitDataSet(dataSet, axis, value):
    featureDataSet = []
    for featureVec in dataSet:
        if featureVec[axis] == value:
            tempVec = featureVec[:axis]
            tempVec.extend(featureVec[axis + 1:])
            featureDataSet.append(tempVec)
    return featureDataSet


# a = splitDataSet(dataSet, 0, 0)
# b = splitDataSet(dataSet, 0, 1)
# print(a)
# print(b)


def bestFeature(dataSet):
    # 獲得特徵(屬性)個數，這裡為2
    featureNum = len(dataSet[0]) - 1
    # 按西瓜書來看，計算Ent(D)
    totalEntropy = shannonEnt.calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(featureNum):
        # 匿名函式，[1, 1, 1, 0, 0]，[1, 1, 0, 1, 1]
        # 即獲得每個屬性對應的列向量
        featList = [example[i] for example in dataSet]
        # print(featList)
        # 知道每個屬性可能有的取值
        uniqueVals = set(featList)
        # print(uniqueVals)
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet,i,value)
            prob = len(subDataSet)/len(dataSet)
            newEntropy += prob*shannonEnt.calcShannonEnt(subDataSet)
        infoGain = totalEntropy - newEntropy
        if infoGain > bestInfoGain:
            bestInfoGain = infoGain
            bestFeature = i

    return bestFeature

if __name__ == "__main__":
    result = bestFeature(dataSet)
    print(result)

這裡的內容，主要是要對ID3演算法比較熟，可以結合西瓜書多看幾遍

決策樹-屬性選擇

現在，我們要做的是進行屬性(或者說特徵)的選擇光看程式清單3-2，以及把陣列帶進去執行一遍可能也有點不清晰，最好先看一下西瓜書

決策樹分裂時的特徵選擇

類別特徵 1. 資訊增益資訊增益直觀理解：在選定特徵對資料進行劃分後，資料分佈不確定性減少的程度，資訊增益越大的特徵越好。

python機器學習實現決策樹

本文例項為大家分享了python機器學習實現決策樹的具體程式碼，供大家參考，具體內容如下

決策樹剪枝演算法的python實現方法詳解

本文例項講述了決策樹剪枝演算法的python實現方法。分享給大家供大家參考，具體如下：

python使用sklearn實現決策樹的方法示例

1. 基本環境安裝 anaconda 環境，由於國內登陸不了他的官網 https://www.continuum.io/downloads,不過可以使用國內的映象站點： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

Python3 ID3決策樹判斷申請貸款是否成功的實現程式碼

1. 定義生成樹 # -*- coding: utf-8 -*- #生成樹的函式 from numpy import * import numpy as np import pandas as pd

mooc機器學習第六天-K近鄰，決策樹，樸素貝葉斯分類器簡單嘗試

1.下面的程式碼是上一篇理論中的小例子 from sklearn.neighbors import KNeighborsClassifier # K近鄰分類器

【機器學習】決策樹-01

心得體會： #3-1構造決策樹 #計算夏農熵 from math import log def calcShannonEnt(dataSet): numEntries=len(dataSet)

機器學習實戰之決策樹學習筆記

from math import log import operator def calcShannonEnt(dataSet): numEntries=len(dataSet)#計算資料集例項總數

使用before和after屬性選擇器

最近仿造了小米官網寫了一遍，可以說是完全把官網給寫完了。官網中有一個log切換的動態效果，有點把我卡住了找方法找了許久，然後用一個簡單的方法實現了：

機器學習實戰---決策樹CART迴歸樹實現

機器學習實戰---決策樹CART簡介及分類樹實現一：對比分類樹 CART迴歸樹和CART分類樹的建立演算法大部分是類似的，所以這裡我們只討論CART迴歸樹和CART分類樹的建立演算法不同的地方。首先，我們要明白，什麼是迴歸樹

網格搜尋解析GridSearchCV（基於決策樹）

1.1 網格搜尋介紹機器學習演算法中有兩類引數：從訓練集中學習到的引數，比如邏輯斯蒂迴歸中的權重引數，另一類是模型的超引數，也就是需要人工設定的引數，比如正則項係數或者決策樹的深度。

決策樹在sklearn中的實現

決策樹在sklearn中的實現目錄決策樹在sklearn中的實現sklearn 入門決策樹1 概述1.1 決策樹是如何工作的1.2 sklearn中的決策樹2 DecisionTreeClassifier 與紅酒資料集2.1 重要引數2.1.1 criterion2.1.2 random_state