決策樹，decision的pyton程式碼和註釋（機器學習實戰）

阿新 • • 發佈：2019-01-06

Decison Tree的註釋：畫圖部分不給註釋了

from math import log
import numpy
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}

#這個是字典，｛a:1,b:2｝其中a，b是key，1，2是對應的value
    for featVec in dataSet:
        currentLabel = featVec[-1]

#-1代表最後一行，也就是類標
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
 
labelCounts[currentLabel] += 1
shannonEnt = 0.0
for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2)
    return shannonEnt
def createDataSet():
    dataSet=[[1,1,'yes'],
             [1,1,'yes'],
             [1,0,'no'],
             [0,1,'yes' 
],
             [0,1,'no']]
    labels=['no surfacing','flippers']
    return dataSet,labels
#依據特徵劃分資料集  axis代表第幾個特徵  value代表該特徵所對應的值  返回的是劃分後的資料集def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]

#這裡的featVec[:axis]，是指從第1（就是下標0）個數到第axis個，不包含
            reducedFeatVec.extend(featVec[axis+1:])

#同上，這裡的[axis+1,:]就是從最後到axis+1
            retDataSet.append(reducedFeatVec)

#extend,append都是擴充套件用的，a=[1,2],b=[3,4],a.append(b)=[1,2,[3,4]],a.extend(b)=[1,2,3,4]
    return retDataSet

#選擇最好的資料集(特徵)劃分方式  返回最佳特徵下標
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1   #特徵個數
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):   #遍歷特徵 第i個
        featureSet = set([example[i] for example in dataSet])   #第i個特徵取值集合

#這一部分程式碼沒啥難度，跟matalb差不多，唯一就是這個set
        newEntropy= 0.0
        for value in featureSet:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)   #該特徵劃分所對應的entropy
        infoGain = baseEntropy - newEntropy
        if infoGain > bestInfoGain:
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

#建立樹的函式程式碼   python中用字典型別來儲存樹的結構 返回的結果是myTree-字典
def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList):    #類別完全相同則停止繼續劃分  返回類標籤-葉子節點
        return classList[0]
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)       #遍歷完所有的特徵時返回出現次數最多的
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]    #得到的列表包含所有的屬性值
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree

#多數表決的方法決定葉子節點的分類 ----  當所有的特徵全部用完時仍屬於多類
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.key():
            classCount[vote] = 0;
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key = operator.itemgetter(1), reverse = True)

#排序函式，至於怎麼用，help就好，裡面引數設定有詳細例子
    return sortedClassCount[0][0]

建立樹的函式程式碼   其實這一步應該放在上一步前面
def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList):    #類別完全相同則停止繼續劃分  返回類標籤-葉子節點
return classList[0]

#count是數數目的函式，a=[1,1,2] a.count[1]=2 len相當於matalb裡的length
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)       #遍歷完所有的特徵時返回出現次數最多的
bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]    #得到的列表包含所有的屬性值
uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)

#這一步creteTree裡面又用了creatTree，遞迴呼叫，直到len(dataSet[0]) == 1:
    return myTree

決策樹，decision的pyton程式碼和註釋（機器學習實戰）

Decison Tree的註釋：畫圖部分不給註釋了 from math import log import numpy def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts =

決策樹的一般思路分析（機器學習實戰）

'''決策樹：在構造決策樹時最重要的是確定劃分資料時，哪個特徵起決定性作用為了確定起決定性作用的特徵，必須先計算資訊的增益，獲得資訊增益最高的特徵就是最好的選擇集合資訊的度量方式稱為熵————資訊的期望資訊的定義：若待分類事物存在多個劃分，則符號xi的資訊定義為l(xi)=l

Redis原始碼剖析和註釋（二十五）--- Redis Cluster 的通訊流程深入剖析（載入配置檔案、節點握手、分配槽）

Redis Cluster 通訊流程深入剖析 1. Redis Cluster 介紹和搭建這篇部落格會介紹Redis Cluster的資料分割槽理論和一個三主三從叢集的搭建。 2. Redis Cluster 和 Redis Sentin

Redis原始碼剖析和註釋（二十七）--- Redis 故障轉移流程和原理剖析

Redis 故障轉移流程和原理 1. 故障轉移介紹 Redis叢集自身實現了高可用。高可用首先要解決叢集部分失敗的場景：當叢集內少量節點出現故障時通過自動故障轉移保證叢集可以正常對外提供服務。接下來就介紹故障轉移的細節，分析故障檢測和故障轉移。故障檢測

特殊許可權suid，sgid,sticky和acl（訪問控制列表）引數詳解

特殊許可權的設定基本檔案許可權見上文：http://blog.csdn.net/gui951753/article/details/79078682特殊許可權：SUID:當對一個可執行的二進位制檔案作用了suid許可權之後，任何人在執行該檔案時臨時擁有其所屬人的許可權。

大資料推薦系統演算法程式碼全接觸（機器學習演算法+Spark實現）

大資料推薦系統演算法程式碼全接觸（機器學習演算法+Spark實現）課程出自學途無憂網課程分享地址：https://pan.baidu.com/s/1piCNIxC2Sv0zMY0yWxY9Ug 提取碼：b10v 一、課程簡介：推薦系統是利用電子商務網站向

[機器學習]ID3決策樹詳細計算流程周志華機器學習筆記原創Excel手算方法

1.用到的主要三條熵公式： 1.1 資訊熵詳情見夏農資訊理論概率越平衡事件所含有的資訊量越大 1.2 條件熵代表某一屬性下不同分類的資訊熵之和 1.3 資訊增益等於資訊熵減去條件熵，從數值上，越大的資訊增益在資訊熵一定的情況下，代表條件熵越小，條件熵越

程式碼註釋：機器學習實戰第2章 k-近鄰演算法

寫在開頭的話：在學習《機器學習實戰》的過程中發現書中很多程式碼並沒有註釋，這對新入門的同學是一個挑戰，特此貼出我對程式碼做出的註釋，僅供參考，歡迎指正。 1、匯入資料： #coding:gbk from numpy import * import operator de

程式碼註釋：機器學習實戰第12章使用FP-growth演算法來高效發現頻繁項集

寫在開頭的話：在學習《機器學習實戰》的過程中發現書中很多程式碼並沒有註釋，這對新入門的同學是一個挑戰，特此貼出我對程式碼做出的註釋，僅供參考，歡迎指正。 #coding:gbk #作用：FP樹中節點的類定義 #輸入：無 #輸出：無 class treeNode:

一個博士（機器學習方向）關於發論文的幾點忠告

轉載於知乎：https://www.zhihu.com/question/25157730 問題：讀機器學習方向。發現機器學習演算法比較固定，演算法應用於文字和影象處理。畢業要求發表級別較高的期刊論文，演算法都已經存在甚至被改進過，怎麼能寫出自己的東西呢？沒有idea，也就沒有實驗。怎麼

一個博士（機器學習方向）的忠告

轉一個博士（機器學習方向）的忠告轉載於：https://blog.csdn.net/dengheCSDN/article/details/81877437 原轉載於知乎：https://www.zhi

【ML學習筆記】樸素貝葉斯演算法的demo（機器學習實戰例子）

礙於這學期課程的緊迫，現在需要儘快從課本上掌握一些ML演算法，我本不想經過danger zone，現在看來卻只能儘快進入danger zone，數學理論上的缺陷只能後面找時間彌補了。如果你在讀這篇文章，希望你不要走像我一樣的道路，此舉實在是出於無奈，儘量不要去做一個心

邏輯迴歸求解（機器學習python）

梯度下降 Logistic regression 目的：分類還是迴歸？它是經典的二分類演算法！機器學習演算法選擇：先邏輯迴歸再用複雜的，能簡單還是用簡單的邏輯迴歸的決策邊界：可以是非線性的 Sigmoid 函式公式：

機器學習之神經網路（機器學習技法）

神經網路的動機感知器的線性融合前面我們知道了將簡單的模型進行融合之後會得到一個非常強大的模型。我們試著將感知器（簡單的二元分類模型）做線性融合之後得到下圖：其中每一個節點都是一個感知器，其第一層的感知器都是由前一層X向量與W權重的線性組合，而第二層的感知器又是由前一層的得到的

機器學習之核函式邏輯迴歸（機器學習技法）

從軟間隔SVM到正則化從引數ξ談起在軟間隔支援向量機中引數ξ代表某一個資料點相對於邊界犯錯的程度，如下圖：在資料點沒有違反邊界時ξ的值為0，在違反邊界時的值就會大於0。所以總的來說ξ的值等於max(1 - y(WZ + b) , 0)。所以我們把問題合併如下：這樣這個問題就變

感知機學習演算法（PLA）的修正過程的理解（機器學習基石）

原理首先，PLA修正過程的數學表示：在一個迴圈中，t代表當前的迭代次數 1. 找到一個錯誤分類的點(xt,ytxt,yt): sign(wTtxn(t))≠yn(t)sign(wtTxn(t))≠yn(t) 2. 修正該錯誤 Wt+1←Wt+yn

機器學習之支援向量機迴歸（機器學習技法）

核函式山脊迴歸Represent Theorem表達理論就是指如果一個模型是帶有L2正則化的線性模型，那麼它在最佳化的時候的權重引數值W*將能夠用Z空間的資料的線性組合來表示。它的推論就是L2的正則化線性模型能夠核函式化如下圖所示：現在我們的目標就是用核函式的方式去解決迴歸問

機器學習之線性迴歸（機器學習基石）

引子在一個二元分類的問題中我們通常得到的結果是1/0，而在分類的過程中我們會先計算一個得分函式然後在減去一個門檻值後判斷它的正負若為正則結果為1若為負結果為0。事實上從某種角度來看線性迴歸只是二元分類步驟中的一個擷取它沒有後面取正負號的操作，它的輸出結果為一個實數而非

機器學習中的噪音（機器學習基石）

noise的產生在機器學習中我們在獨立隨機抽樣的時候會出現一些搞錯的資訊，這些錯誤的資料我們稱之為雜訊（或者噪音 noise），一般可以歸結為一下兩種（以二分為例）：輸出錯誤：1.同樣的一筆資料會出現兩種不同的評判 2.在同樣的評判下會有不同的後續處理。輸入錯誤：1.在收

讀書筆記：機器學習實戰(2)——章3的決策樹程式碼和個人理解與註釋

首先是對於決策樹的個人理解：通過尋找最大資訊增益（或最小資訊熵）的分類特徵，從部分已知類別的資料中提取分類規則的一種分類方法。資訊熵：其中，log底數為2，額，好吧，圖片我從百度截的。。這裡只解釋到它是一種資訊的期望值，深入的請看維基百科

決策樹，decision的pyton程式碼和註釋（機器學習實戰）

相關推薦