決策樹代碼《機器學習實戰》

阿新 • • 發佈：2017-08-10

必須 nbsp getter 什麽 key 畫圖不支持 spl name

22:45:17 2017-08-09

KNN算法簡單有效，可以解決很多分類問題。但是無法給出數據的含義，就是一頓計算向量距離，然後分類。

決策樹就可以解決這個問題，分類之後能夠知道是問什麽被劃分到一個類。用圖形畫出來就效果更好了，這次沒有學哪個畫圖的，下次。

這裏只涉及信息熵的計算，最佳分類特征的提取，決策樹的構建。剪枝沒有學，這裏沒有。

  1 # -*- oding: itf-8 -*-
  2 
  3 ‘‘‘
  4 function: 《機器學習實戰》決策樹的代碼，畫圖的部分沒有寫；
  5 note: 貼出來以後用方便一點~
  6 date: 2017.8.9
  7 ‘‘‘
  8 
 
  9 from numpy import *
 10 from math import log
 11 import operator
 12 
 13 #計算香濃信息熵
 14 def calcuEntropy(dataSet):
 15     numOfEntries = len(dataSet)
 16     featVec = {}
 17     for data in dataSet:
 18         currentLabel = data[-1]
 19         if currentLabel not in featVec.keys():
 20             featVec[currentLabel] = 1
 21 
         else:
 22             featVec[currentLabel] += 1
 23     shannonEntropy = 0.0
 24     for feat in featVec.keys():
 25         prob = float(featVec[feat]) / numOfEntries
 26         shannonEntropy += -prob*log(prob, 2) 
 27     return shannonEntropy
 28 
 29 #產生數據集
 30 def loadDataSet():
 31     dataSet = [[1,1,‘ 
yes‘],
 32                 [1,0,‘no‘],
 33                 [0,1,‘no‘],
 34                 [0,1,‘no‘]]
 35     labels = [‘no surfacing‘, ‘flippers‘]
 36     return dataSet, labels
 37 
 38 ‘‘‘
 39 function: split the dataset
 40 return: 基於劃分特征劃分之後我們想要的那部分集合
 41 parameters: dataSet: 數據集，axis: 要劃分的特征, value:要返回的集合的axis特征值
 42 ‘‘‘
 43 def splitDataSet(dataSet, axis, value):
 44     retDataSet = [] #防止原始的數據集被修改
 45     for featVec in dataSet:
 46         if featVec[axis] == value: #我們想要的數值存起來，一會返回
 47             reducedFeatVec = featVec[:axis]
 48             reducedFeatVec.extend(featVec[axis+1:])
 49             retDataSet.append(reducedFeatVec)
 50     return retDataSet
 51 
 52 ‘‘‘
 53 function: 找出數據集中最佳的劃分特征
 54 ‘‘‘
 55 def chooseBestClassifyFeat(dataSet):
 56     numOfFeatures = len(dataSet[0]) - 1
 57     bestFeature = -1  #初始化最佳的劃分特征
 58     baseInfoGain = 0.0 #信息增益
 59     baseEntropy = calcuEntropy(dataSet)
 60     for i in range(numOfFeatures):
 61         # if numOfFeatures == 1: #錯了，只有一個特征不是只有一個類別
 62         #     print(‘only one feature‘)
 63         #     print(dataSet[0][0])
 64         #     return dataSet[0][0] #只有一個特征直接返回該特征
 65         featList = [example[i] for example in dataSet] #或者第i個特征所有的取值
 66         unicVals = set(featList) #不重復的第i個特征取值
 67         newEntropy = 0.0
 68         for value in unicVals:
 69             subDataSet = splitDataSet(dataSet, i, value)
 70 
 71             #計算劃分之後各個子數據集的信息熵，然後累加就是這個劃分的信息熵
 72             currentEntropy = calcuEntropy(subDataSet) 
 73             prob = float(len(subDataSet)) / len(dataSet)
 74             newEntropy += prob * currentEntropy
 75         newInfoGain = baseEntropy - newEntropy
 76         if newInfoGain > baseInfoGain:
 77             bestFeature = i
 78             baseInfoGain = newInfoGain
 79     return bestFeature 
 80 
 81 ‘‘‘
 82 function: 多數表決，當分類器用完所有屬性，葉節點還是類別不統一的時候調用這個函數
 83 arg: labelList 類別標簽列表
 84 ‘‘‘
 85 def majorityCount(labelList):
 86     classCount = {}
 87     for label in labelList:
 88         if label not in classCount.keys():
 89             classCount[label] = 0
 90         classCount[label] += 1
 91     sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1),reverse = True)
 92     print(sortedClassCount)
 93     return sortedClassCount[0][0]
 94 
 95 
 96 ‘‘‘
 97 function: 遞歸的建造決策樹
 98 arg: dataset: 數據集 labels: 代表特征的標簽，起始算法不需要,比如fippers代表第一個特征的意義
 99 ‘‘‘
100 def createTree(dataSet, labels):
101     classList = [example[-1] for example in dataSet] #得到所有的類別
102     if classList.count(classList[0]) == len(classList): #只有一種類別，直接返回
103         return classList[0]
104     if len(dataSet[0]) == 1: #特征屬性用完了但是還沒有完全分開，多數表決
105         return majorityCount(classList)
106     bestFeat = chooseBestClassifyFeat(dataSet)
107     print(‘bestFeat = ‘ + str(bestFeat))
108     bestFeatLabel = labels[bestFeat]
109     del(labels[bestFeat]) #刪除這次使用的特征
110     featValues = [example[bestFeat] for example in dataSet]
111     myTree = {bestFeatLabel: {}}
112     unicVals = set(featValues)
113     for value in unicVals:
114         labelCopy = labels[:]
115         subDataSet = splitDataSet(dataSet, bestFeat, value)
116         myTree[bestFeatLabel][value] = createTree(subDataSet, labelCopy)
117     return myTree
118 
119 ‘‘‘
120 function: 用決策樹進行分類
121 arg: inputTree: 訓練好的決策樹，featLabels: 特征標簽，testVec: 待分類的向量
122 ‘‘‘
123 def classify(inputTree, featLabel, testVec):
124     firstStr = list(inputTree.keys())[0] #python3 dict,.keys()不支持索引，必須轉換一下
125     secondDict = inputTree[firstStr] #second tree
126     featIndex = featLabel.index(firstStr) #可利用index函數找到這個特征標簽對飲過的特征位置
127     for key in secondDict.keys():
128         if testVec[featIndex] == key:
129             if type(secondDict[key]).__name__ == ‘dict‘: #說明下面不是葉子節點，繼續分類
130                 classLabel = classify(secondDict[key], featLabel, testVec)
131             else:
132                 classLabel = secondDict[key] #到達葉子節點，直接返回類別標簽
133     return classLabel
134 
135 ‘‘‘
136 function: 使用pickle模塊持久化存儲決策樹
137 note:
138 ‘‘‘
139 def storeTree(inputTree, filename):
140     import pickle
141     fw = open(filename, ‘wb‘)
142     pickle.dump(inputTree, fw)
143     fw.close()
144 
145 ‘‘‘
146 function: 從本地文件中讀取決策樹
147 ‘‘‘
148 def grabTree(filename):
149     import pickle
150     fr = open(filename,‘rb‘)
151     return pickle.load(fr)
152 
153 #測試信息熵的計算
154 dataSet, labels = loadDataSet()
155 shannon = calcuEntropy(dataSet)
156 print(shannon)
157 
158 #測試數據集分割
159 print(dataSet)
160 retDataSet = splitDataSet(dataSet, 1, 1)
161 print(retDataSet)
162 retDataSet = splitDataSet(dataSet, 1, 0)
163 print(retDataSet)
164 
165 #尋找最佳的劃分特征
166 bestFeature = chooseBestClassifyFeat(dataSet)
167 print(bestFeature)
168 
169 #測試多數表決
170 out = majorityCount([1,1,2,2,2,1,2,2])
171 print(out)
172 
173 #創建決策大叔
174 myTree = createTree(dataSet, labels)
175 print(myTree)
176 
177 #測試分類器
178 dataSet, labels = loadDataSet()
179 classLabel = classify(myTree, labels, [0,1])
180 print(classLabel)
181 classLabel = classify(myTree, labels, [1,1])
182 print(classLabel)
183 
184 #持久化存儲決策樹
185 storeTree(myTree, ‘classifierStorage.txt‘)
186 outTree = grabTree(‘classifierStorage.txt‘)
187 print(outTree)

決策樹代碼《機器學習實戰》

必須 nbsp getter 什麽 key 畫圖不支持 spl name 22:45:17 2017-08-09 KNN算法簡單有效，可以解決很多分類問題。但是無法給出數據的含義，就是一頓計算向量距離，然後分類。決策樹就可以解決這個問題，分類之後能夠知道是問什麽被劃分到

機器學習實戰精讀--------決策樹

決策樹機器學習 python感覺自己像個學走路的孩子，每一步都很吃力和認真！機器根據數據集創建規則，就是機器學習。決策樹：從數據集合中提取一系列規則，適用於探索式的知識發現。決策樹本質：通過一系列規則對數據進行分類的過程。決策樹算法核心：構建精度高，數據規模小的決策樹。ID3算法：此算法目的在於減少樹的深

決策樹-機器學習實戰h5三公平臺安裝

set {} 樹形 www. www example import trie 分類決策樹h5三公平臺安裝(h5.hxforum.com) 聯系方式170618633533企鵝2952777280 源碼出售房卡出售後臺出租有意者私聊扣扣決策樹模型是一種描述對實例進行

《機器學習實戰》第7章的一處代碼錯誤

traceback com post cond 解決 elm back document image --------------------------------------------------------------------------- IndexError

機器學習實戰-第二章代碼+註釋-KNN

rep sdn odi als cti 元素集合 pre recv #-*- coding:utf-8 -*- #https://blog.csdn.net/fenfenmiao/article/details/52165472 from numpy import *

《機器學習實戰》(高清中文版PDF+高清英文版PDF+源代碼)

roc 粘貼 -o ref pan 實戰心得 oss pytho 《機器學習實戰》(高清中文版PDF+高清英文版PDF+源代碼) 高清中文版和高清英文版對比學習，帶目錄書簽，可復制粘貼；講解詳細並配有源代碼。下載：https://pan.baidu.com/s/1s7

《TensorFlow機器學習實戰指南》中文版PDF+英文版PDF+源代碼

源代碼配套 log shadow pdf ges https 機器學習實戰 ffffff 下載：https://pan.baidu.com/s/1Oeho172yfw1J6mCiXozQig 《TensorFlow機器學習實戰指南》中文版PDF+英文版PDF+源代碼高清

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

目錄 0. 前言 1. 資訊增益（ID3） 2. 決策樹（Decision Tree） 3. 實戰案例 3.1. 隱形眼鏡案例 3.2. 儲存決策樹 3.3. 決策樹畫圖表示學習完機器學習實戰的決策樹，簡單的做

機器學習實戰讀書筆記(2)--決策樹

決策樹決策樹的一個重要任務是為了資料中所蘊含的知識資訊,因此決策樹可以使用一系列不熟悉的資料集合,並從中提取系列規則,在這些機器根據資料集建立規則時,就是機器學習的過程.專家系統中經常使用決策樹決策樹的構造優點:計算複雜度不高,輸出結果易於理解,對中間值缺失不敏

機器學習實戰（Machine Learning in Action）學習筆記————03.決策樹原理、原始碼解析及測試

機器學習實戰（Machine Learning in Action）學習筆記————03.決策樹原理、原始碼解析及測試關鍵字：決策樹、python、原始碼解析、測試作者：米倉山下時間：2018-10-24機器學習實戰（Machine Learning in Action,@author: Peter Harr

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中英文PDF+源代碼

ESS alt mark 構建 image 機器學習實戰 dff com 化學下載：https://pan.baidu.com/s/1kNN4tDt58ckFoD_OWH5sGw 更多資料分享：http://blog.51cto.com/3215120 《機器學習實戰：基

機器學習實戰——決策樹Python實現問題記錄

問題：NameError: name 'reload' is not defined import imp import trees imp.reload(trees) 結論：已經匯入過的模組才能用reload, reload的引數應該是模組名，而不是檔名。在pyhton3.x中要先匯入檔案

機器學習實戰（2）-決策樹

構建決策樹最重要的是分裂屬性的選取,重要的是每個屬性在節點的位置，比如說第一個節點屬性為什麼是A而不是B。分裂屬性就是在某個節點處按照某一特徵屬性的不同劃分構造不同的分支，其目標是讓各個分裂子集更加的純，所謂的純是指儘量讓一個分裂子集中待分類項屬於同一類別。判斷純的方法有ID3，C4.5，CART演算法。&n

機器學習實戰筆記2—決策樹

注：此係列文章裡的部分演算法和深度學習筆記系列裡的內容有重合的地方，深度學習筆記裡是看教學視訊做的筆記，此處文章是看《機器學習實戰》這本書所做的筆記，雖然演算法相同，但示例程式碼有所不同，多敲一遍沒有壞處，哈哈。（裡面用到的資料集、程式碼可以到網上搜索，很容易找到。）。Python版本3.6

《機器學習實戰》學習總結2——決策樹構造

決策樹一種依託於策略抉擇而建立起來的樹。從資料產生決策樹的機器學習技術叫做決策樹學習。資料形式：決策過程只有：是/否適用資料型別：數值型和標稱型標稱型：其實就是離散型資料，變數的結果只在有限目標集中取值。資訊增益資訊熵：表示資訊的混亂程度，也就是說：資訊越有序，資

C++單刷《機器學習實戰》之二——決策樹

演算法概述：決策樹是用於分類的一種常用方法，根據資料集特徵值的不同，構造決策樹來將資料集不斷分成子資料集，直至決策樹下的每個分支都是同一類或用完所有的特徵值。決策樹的一般流程：（1）收集資料（2）準備資料：樹構造演算法只適用於標稱型資料，因此數值型資料必須離散化，最好轉為bool型

《機器學習實戰》：決策樹之為自己配個隱形眼鏡

《機器學習實戰》：決策樹之為自己配個隱形眼鏡檔案列表如下圖所示：一、構建決策樹建立trees.py檔案，輸入以下程式碼。 ''' Created on Oct 12, 2010 Decision Tree Source Code for Machine Learnin

機器學習實戰sklearn 構建決策樹

使用sklearn 房價資料集構建決策樹 1、匯入資料集 %matplotlib inline import matplotlib.pyplot as plt import pandas as pd # 匯入資料 from sklearn.datasets.california_hous

機器學習實戰-決策樹-畫圖

獲取樹節點的資料以及樹的層數 def getNumLeafs(myTree): numLeafs=0 firstStr

機器學習實戰——3決策樹

文章對應《機器學習實戰》第三章主要是對各個函式的功能進行了比較易懂的描述，可供python初學者參考。另外推薦機器學習實戰程式碼註釋，對在本書中入門python的同學應有很大幫助。 //計算給定資料集的夏農熵 def calcShannonEnt(dataSet):

決策樹代碼《機器學習實戰》

相關推薦