決策樹--從原理到實現

阿新 • • 發佈：2017-09-12

選擇方法入門我們 sta ... dex 什麽 sin

一.引入

決策樹基本上是每一本機器學習入門書籍必講的東西，其決策過程和平時我們的思維很相似，所以非常好理解，同時有一堆信息論的東西在裏面，也算是一個入門應用，決策樹也有回歸和分類，但一般來說我們主要講的是分類

其實，個人感覺，決策樹是從一些數據量中提取特征，按照特征的顯著由強到弱來排列。常見應用為：回答一些問題，猜出你心裏想的是什麽?

為什麽第一個問題，永遠都是男還是女？為什麽？看完這個就知道了

二.代碼

  1 from math import log
  2 import operator
  3 
  4 def createDataSet():
  5     dataSet = [[1, 1, ‘ 
yes‘],
  6                [1, 1, ‘yes‘],
  7                [1, 0, ‘no‘],
  8                [0, 1, ‘no‘],
  9                [0, 1, ‘no‘]]
 10     labels = [‘no surfacing‘,‘flippers‘]
 11     #change to discrete values
 12     return dataSet, labels
 13 
 14 def calcShannonEnt(dataSet):
 15     numEntries = len(dataSet)
 
 16     labelCounts = {}
 17     for featVec in dataSet: #the the number of unique elements and their occurance
 18         currentLabel = featVec[-1]
 19         if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
 20         labelCounts[currentLabel] += 1
 21     shannonEnt = 0.0
 22 
     for key in labelCounts:
 23         prob = float(labelCounts[key])/numEntries
 24         shannonEnt -= prob * log(prob,2) #log base 2
 25     return shannonEnt
 26     
 27 def splitDataSet(dataSet, axis, value):
 28     retDataSet = []
 29     for featVec in dataSet:
 30         if featVec[axis] == value:
 31             reducedFeatVec = featVec[:axis]     #chop out axis used for splitting
 32             reducedFeatVec.extend(featVec[axis+1:])
 33             retDataSet.append(reducedFeatVec)
 34     return retDataSet
 35     
 36 def chooseBestFeatureToSplit(dataSet):
 37     numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
 38     baseEntropy = calcShannonEnt(dataSet)
 39     bestInfoGain = 0.0; bestFeature = -1
 40     for i in range(numFeatures):        #iterate over all the features
 41         featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
 42         uniqueVals = set(featList)       #get a set of unique values
 43         newEntropy = 0.0
 44         for value in uniqueVals:
 45             subDataSet = splitDataSet(dataSet, i, value)
 46             prob = len(subDataSet)/float(len(dataSet))
 47             newEntropy += prob * calcShannonEnt(subDataSet)     
 48         infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy
 49         if (infoGain > bestInfoGain):       #compare this to the best gain so far
 50             bestInfoGain = infoGain         #if better than current best, set to best
 51             bestFeature = i
 52     return bestFeature                      #returns an integer
 53 
 54 def majorityCnt(classList):
 55     classCount={}
 56     for vote in classList:
 57         if vote not in classCount.keys(): classCount[vote] = 0
 58         classCount[vote] += 1
 59     sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
 60     return sortedClassCount[0][0]
 61 
 62 def createTree(dataSet,labels):
 63     classList = [example[-1] for example in dataSet]
 64     if classList.count(classList[0]) == len(classList): 
 65         return classList[0]#stop splitting when all of the classes are equal
 66     if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet
 67         return majorityCnt(classList)
 68     bestFeat = chooseBestFeatureToSplit(dataSet)
 69     bestFeatLabel = labels[bestFeat]
 70     myTree = {bestFeatLabel:{}}
 71     del(labels[bestFeat])
 72     featValues = [example[bestFeat] for example in dataSet]
 73     uniqueVals = set(featValues)
 74     for value in uniqueVals:
 75         subLabels = labels[:]       #copy all of labels, so trees don‘t mess up existing labels
 76         myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
 77     return myTree                            
 78     
 79 def classify(inputTree,featLabels,testVec):
 80     firstStr = inputTree.keys()[0]
 81     secondDict = inputTree[firstStr]
 82     featIndex = featLabels.index(firstStr)
 83     key = testVec[featIndex]
 84     valueOfFeat = secondDict[key]
 85     if isinstance(valueOfFeat, dict): 
 86         classLabel = classify(valueOfFeat, featLabels, testVec)
 87     else: classLabel = valueOfFeat
 88     return classLabel
 89 
 90 def storeTree(inputTree,filename):
 91     import pickle
 92     fw = open(filename,‘w‘)
 93     pickle.dump(inputTree,fw)
 94     fw.close()
 95     
 96 def grabTree(filename):
 97     import pickle
 98     fr = open(filename)
 99     return pickle.load(fr)
100

三.算法詳解

?信息增益

傳入數據集，得到該數據集的增益

 1 def calcShannonEnt(dataSet):
 2     numEntries = len(dataSet)
 3     labelCounts = {}
 4     for featVec in dataSet: #the the number of unique elements and their occurance
 5         currentLabel = featVec[-1]
 6         if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
 7         labelCounts[currentLabel] += 1
 8     shannonEnt = 0.0
 9     for key in labelCounts:
10         prob = float(labelCounts[key])/numEntries
11         shannonEnt -= prob * log(prob,2) #log base 2
12     return shannonEnt

得到信息熵後，我們按照獲取最大信息增益的方法劃分數據集就行了

eg.運行下面的數據集

          [[1, 1, ‘yes‘],
           [1, 1, ‘yes‘],
           [1, 0, ‘no‘],
           [0, 1, ‘no‘],
           [0, 1, ‘no‘]]

labelCounts是一個map結構

currentLabel　　labelCounts[currentLabel]   prob

yes　　　　　　　　2　　　　　　　　　　　　　　　　0.4
no　　　　　　　 　3　　　　　　　　　　　　　　　　0.6

用信息論就可以得到0.4*log(-0.4)+0,6*log(-0.6)=0.971

?劃分數據集

　　※按照給定特征劃分數據集

　　傳入數據集，第axis個（從0開始）特征，該特征的值

　　輸出根據該數據集劃分得到的子數據集

1 def splitDataSet(dataSet, axis, value):
2     retDataSet = []
3     for featVec in dataSet:
4         if featVec[axis] == value:
5             reducedFeatVec = featVec[:axis]     #chop out axis used for splitting
6             reducedFeatVec.extend(featVec[axis+1:])
7             retDataSet.append(reducedFeatVec)
8     return retDataSet

　eg.  myDat為
　　　　　 [[1, 1, ‘yes‘],
           [1, 1, ‘yes‘],
           [1, 0, ‘no‘],
           [0, 1, ‘no‘],
           [0, 1, ‘no‘]]
傳入(myDat,0,1）,輸出

[[1, ‘yes‘],[1, ‘yes‘], [0, ‘no‘]]

　　※選擇最好的數據集劃分方式

　　傳入數據集

　　輸出該數據集下按不同特征值排列得到信息熵變化最大的該特征值

 1 def chooseBestFeatureToSplit(dataSet):
 2     numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
 3     baseEntropy = calcShannonEnt(dataSet)
 4     bestInfoGain = 0.0; bestFeature = -1
 5     for i in range(numFeatures):        #iterate over all the features
 6         featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
 7         uniqueVals = set(featList)       #get a set of unique values
 8         newEntropy = 0.0
 9         for value in uniqueVals:
10             subDataSet = splitDataSet(dataSet, i, value)
11             prob = len(subDataSet)/float(len(dataSet))
12             newEntropy += prob * calcShannonEnt(subDataSet)     
13         infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy
14         if (infoGain > bestInfoGain):       #compare this to the best gain so far
15             bestInfoGain = infoGain         #if better than current best, set to best
16             bestFeature = i
17     return bestFeature                      #returns an integer

　eg.  myDat為
　　　　　 [[1, 1, ‘yes‘],
           [1, 1, ‘yes‘],
           [1, 0, ‘no‘],
           [0, 1, ‘no‘],
           [0, 1, ‘no‘]]
傳入(myDat）

第一次就是按第一個特征，值為1劃分
　　　　　按第一個特征，值為0劃分
　　　　　得到該情況下的信息熵
第二次就是按第二個特征，值為1劃分
　　　　　按第二個特征，值為0劃分
　　　　　得到該情況下的信息熵
......
選取信息熵最大時候的特征

?遞歸構建決策樹

1 def majorityCnt(classList):
2     classCount={}
3     for vote in classList:
4         if vote not in classCount.keys(): classCount[vote] = 0
5         classCount[vote] += 1
6     sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
7     return sortedClassCount[0][0]

O(∩_∩)O~創建樹啦

 1 def createTree(dataSet,labels):
 2     classList = [example[-1] for example in dataSet]
 3     if classList.count(classList[0]) == len(classList): 
 4         return classList[0]#stop splitting when all of the classes are equal
 5     if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet
 6         return majorityCnt(classList)
 7     bestFeat = chooseBestFeatureToSplit(dataSet)
 8     bestFeatLabel = labels[bestFeat]
 9     myTree = {bestFeatLabel:{}}
10     del(labels[bestFeat])
11     featValues = [example[bestFeat] for example in dataSet]
12     uniqueVals = set(featValues)
13     for value in uniqueVals:
14         subLabels = labels[:]       #copy all of labels, so trees don‘t mess up existing labels
15         myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
16     return myTree

O(∩_∩)O~~使用樹來決策了

 1 def classify(inputTree,featLabels,testVec):
 2     firstStr = inputTree.keys()[0]
 3     secondDict = inputTree[firstStr]
 4     featIndex = featLabels.index(firstStr)
 5     key = testVec[featIndex]
 6     valueOfFeat = secondDict[key]
 7     if isinstance(valueOfFeat, dict): 
 8         classLabel = classify(valueOfFeat, featLabels, testVec)
 9     else: classLabel = valueOfFeat
10     return classLabel

決策樹--從原理到實現

選擇方法入門我們 sta ... dex 什麽 sin 一.引入決策樹基本上是每一本機器學習入門書籍必講的東西，其決策過程和平時我們的思維很相似，所以非常好理解，同時有一堆信息論的東西在裏面，也算是一個入門應用，決策樹也有回歸和分類，但一般來說我們主要講的是分類其

決策樹演算法原理及JAVA實現(ID3)

package sequence.machinelearning.decisiontree.myid3; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.FileWri

MLlib中決策樹演算法的實現原理解析

決策樹作為一種分類迴歸演算法，在處理非線性、特徵值缺少的資料方面有很多的優勢，能夠處理不相干的特徵，並且對分類的結果通過樹的方式有比較清晰的結構解釋，但是容易過擬合，針對這個問題，可以採取對樹進行剪枝的方式，還有一些融合整合的解決方案，比如隨機森林RandomForest

決策樹演算法原理與 Python實現

轉自： https://blog.csdn.net/huahuazhu/article/details/73167610?locationNum=2&fps=1 ###########################################

決策樹演算法原理及實現

歡迎大家檢視實現的完整程式碼。。。決策樹模型分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別：內部節點和葉節點，內部節點表示一個特徵或屬性，葉節點表示一個分類類別。分類的時候，從根節點開始，按照某種策略對

寫程式學ML：決策樹演算法原理及實現（四）

[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。 2.3 決策樹的測試書中使用隱形眼鏡資料集對決策樹進行了測試。建立測試檔案contactLenses4Deci

ID3決策樹演算法原理及C++實現(其中程式碼轉自別人的部落格)

分類是資料探勘中十分重要的組成部分. 分類作為一種無監督學習方式被廣泛的使用. 之前關於"資料探勘中十大經典演算法"中,基於ID3核心思想的分類演算法 C4.5榜上有名.所以不難看出ID3在資料分類中是多麼的重要了. ID3又稱為決策樹演算法,雖然現在廣義的決策樹演

決策樹ID3原理及R語言python程式碼實現（西瓜書）

決策樹ID3原理及R語言python程式碼實現（西瓜書）摘要：決策樹是機器學習中一種非常常見的分類與迴歸方法，可以認為是if-else結構的規則。分類決策樹是由節點和有向邊組成的樹形結構，節點表示特徵或者屬性，而邊表示的是屬性值，邊指向的葉節點為對應的分類。在對樣本的分類過程中，由頂向下，根據特徵或屬性

【Python】決策樹的python實現

uia bmp say 不知道 times otto outlook lru bgm 【Python】決策樹的python實現 2016-12-08 數據分析師Nieson 1. 決策樹是什麽? 簡單地理解，就是根據一些 feature 進行分類，每個節點提一個問

西瓜書決策樹ID3演算法實現，離散屬性

from math import log import operator import csv def readDataset(filename): ''' 讀取資料 :param filename: 資料檔名，CSV格式 :return: 以列表形式返回資料列

決策樹演算法及實現

在電腦科學中，樹是一種很重要的資料結構，比如我們最為熟悉的二叉查詢樹（Binary Search Tree），紅黑樹（Red-Black Tree）等，通過引入樹這種資料結構，我們可以很快地縮小問題規模，實現高效的查詢。在監督學習中，面對樣本中複雜多樣的特徵，選取什麼樣的策略可以實

ID3決策樹（python實現）

決策樹的生成（該函式是一個遞迴的過程）CreateTree 輸入：資料集、特徵輸出：字典型資料——決策樹 a、判斷是否滿足停止劃分的條件若當前資料集的屬性值為空，則投票表決當前樣本中最多的類別若當前所有的樣本類別相同，則返回當前資料的類別。

決策樹演算法原理(上)

　　　　決策樹演算法在機器學習中算是很經典的一個算法系列了。它既可以作為分類演算法，也可以作為迴歸演算法，同時也特別適合整合學習比如隨機森林。本文就對決策樹演算法原理做一個總結，上篇對ID3， C4.5的演算法思想做了總結，下篇重點對CART演算法做一個詳細的介紹。選擇CART做重點介紹的原因是scikit-

決策樹演算法原理(下)

　　　　在決策樹演算法原理(上)這篇裡，我們講到了決策樹裡ID3演算法，和ID3演算法的改進版C4.5演算法。對於C4.5演算法，我們也提到了它的不足，比如模型是用較為複雜的熵來度量，使用了相對較為複雜的多叉樹，只能處理分類不能處理迴歸等。對於這些問題， CART演算法大部分做了改進。CART演算法也就是我們

決策樹的原理與構建--圍繞一個例項展開

1. 什麼是決策樹：決策樹是一種預測模型，用來進行分類，是一種有監督學習。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所

詳解決策樹、python實現決策樹

決策樹模型定義決策過程決策樹學習特徵選擇資訊增益計算方法 ID3演算法決策樹模型定義分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由節點（Node）和有向邊（directed edge）組成。節

視覺化決策樹之Python實現

決策樹(Decision Tree）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取淨現值的期望值大於等於零的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。一些

機器學習之決策樹演算法python實現

一. 理論基礎 1. 特徵選擇 a. 資訊熵 H(D)=−∑i=0kpilogpi b. 條件熵 H(Y|X)=∑i=0npiH(Y|X=xi) c. 資訊增益 I(D,A)=H(D)−H(D|A) d. 資訊增益比

機器學習入門之決策樹（python實現）

本次學習利用MT_Train.csv中所給的資料對MT_Test.csv中的資料進行預測，判斷客戶是否會定期存款。根據所學知識，可採用sklearn中的決策樹等方法進行程式設計。歡迎大家一起討論學習進步。訓練集和測試集連結如下：一. 設計思路 1.讀取訓練集和測試集檔

帶你搞懂決策樹演算法原理

一、決策樹是什麼？　　顧名思義，決策樹是由一個個“決策”組成的樹，學過資料結構的同學對樹一定不陌生。決策樹中，結點分為兩種，放“決策依據”的是非葉結點，放“決策結果”的是葉結點。　　那麼決策是什麼呢？很好理解，和人一樣，決策就是對於一個問題，有多個答案，

決策樹--從原理到實現

一.引入

二.代碼

三.算法詳解

相關推薦