python 決策樹演算法的實現

'''
資料集：Mnist
訓練集數量：60000
測試集數量：10000
------------------------------
執行結果：ID3(未剪枝)
  正確率：85.9%
  執行時長：356s
'''

import time
import numpy as np


def loadData(fileName):
  '''
  載入檔案
  :param fileName:要載入的檔案路徑
  :return: 資料集和標籤集
  '''
  # 存放資料及標記
  dataArr = [];
  labelArr = []
  # 讀取檔案
  fr = open(fileName)
  # 遍歷檔案中的每一行
  for line in fr.readlines():
    # 獲取當前行，並按“，”切割成欄位放入列表中
    # strip：去掉每行字串首尾指定的字元（預設空格或換行符）
    # split：按照指定的字元將字串切割成每個欄位，返回列表形式
    curLine = line.strip().split(',')
    # 將每行中除標記外的資料放入資料集中（curLine[0]為標記資訊）
    # 在放入的同時將原先字串形式的資料轉換為整型
    # 此外將資料進行了二值化處理，大於128的轉換成1，小於的轉換成0，方便後續計算
    dataArr.append([int(int(num) > 128) for num in curLine[1:]])
    # 將標記資訊放入標記集中
    # 放入的同時將標記轉換為整型
    labelArr.append(int(curLine[0]))
  # 返回資料集和標記
  return dataArr,labelArr


def majorClass(labelArr):
  '''
  找到當前標籤集中佔數目最大的標籤
  :param labelArr: 標籤集
  :return: 最大的標籤
  '''
  # 建立字典，用於不同類別的標籤技術
  classDict = {}
  # 遍歷所有標籤
  for i in range(len(labelArr)):
    # 當第一次遇到A標籤時，字典內還沒有A標籤，這時候直接幅值加1是錯誤的，
    # 所以需要判斷字典中是否有該鍵，沒有則建立，有就直接自增
    if labelArr[i] in classDict.keys():
      # 若在字典中存在該標籤，則直接加1
      classDict[labelArr[i]] += 1
    else:
      # 若無該標籤，設初值為1，表示出現了1次了
      classDict[labelArr[i]] = 1
  # 對字典依據值進行降序排序
  classSort = sorted(classDict.items(),key=lambda x: x[1],reverse=True)
  # 返回最大一項的標籤，即佔數目最多的標籤
  return classSort[0][0]


def calc_H_D(trainLabelArr):
  '''
  計算資料集D的經驗熵，參考公式5.7 經驗熵的計算
  :param trainLabelArr:當前資料集的標籤集
  :return: 經驗熵
  '''
  # 初始化為0
  H_D = 0
  # 將當前所有標籤放入集合中，這樣只要有的標籤都會在集合中出現，且出現一次。
  # 遍歷該集合就可以遍歷所有出現過的標記並計算其Ck
  # 這麼做有一個很重要的原因：首先假設一個背景，當前標籤集中有一些標記已經沒有了，比如說標籤集中
  # 沒有0（這是很正常的，說明當前分支不存在這個標籤）。 式5.7中有一項Ck，那按照式中的針對不同標籤k
  # 計算Cl和D並求和時，由於沒有0，那麼C0=0，此時C0/D0=0,log2(C0/D0) = log2(0)，事實上0並不在log的
  # 定義區間內，出現了問題
  # 所以使用集合的方式先知道當前標籤中都出現了那些標籤，隨後對每個標籤進行計算，如果沒出現的標籤那一項就
  # 不在經驗熵中出現（未參與，對經驗熵無影響），保證log的計算能一直有定義
  trainLabelSet = set([label for label in trainLabelArr])
  # 遍歷每一個出現過的標籤
  for i in trainLabelSet:
    # 計算|Ck|/|D|
    # trainLabelArr == i：當前標籤集中為該標籤的的位置
    # 例如a = [1,1],c = (a == 1): c == [True,false,True]
    # trainLabelArr[trainLabelArr == i]：獲得為指定標籤的樣本
    # trainLabelArr[trainLabelArr == i].size：獲得為指定標籤的樣本的大小，即標籤為i的樣本
    # 數量，就是|Ck|
    # trainLabelArr.size：整個標籤集的數量（也就是樣本集的數量），即|D|
    p = trainLabelArr[trainLabelArr == i].size / trainLabelArr.size
    # 對經驗熵的每一項累加求和
    H_D += -1 * p * np.log2(p)

  # 返回經驗熵
  return H_D


def calcH_D_A(trainDataArr_DevFeature,trainLabelArr):
  '''
  計算經驗條件熵
  :param trainDataArr_DevFeature:切割後只有feature那列資料的陣列
  :param trainLabelArr: 標籤集陣列
  :return: 經驗條件熵
  '''
  # 初始為0
  H_D_A = 0
  # 在featue那列放入集合中，是為了根據集合中的數目知道該feature目前可取值數目是多少
  trainDataSet = set([label for label in trainDataArr_DevFeature])

  # 對於每一個特徵取值遍歷計算條件經驗熵的每一項
  for i in trainDataSet:
    # 計算H(D|A)
    # trainDataArr_DevFeature[trainDataArr_DevFeature == i].size / trainDataArr_DevFeature.size:|Di| / |D|
    # calc_H_D(trainLabelArr[trainDataArr_DevFeature == i]):H(Di)
    H_D_A += trainDataArr_DevFeature[trainDataArr_DevFeature == i].size / trainDataArr_DevFeature.size \
         * calc_H_D(trainLabelArr[trainDataArr_DevFeature == i])
  # 返回得出的條件經驗熵
  return H_D_A


def calcBestFeature(trainDataList,trainLabelList):
  '''
  計算資訊增益最大的特徵
  :param trainDataList: 當前資料集
  :param trainLabelList: 當前標籤集
  :return: 資訊增益最大的特徵及最大資訊增益值
  '''
  # 將資料集和標籤集轉換為陣列形式
  # trainLabelArr轉換後需要轉置，這樣在取數時方便
  # 例如a = np.array([1,2,3]); b = np.array([1,3]).T
  # 若不轉置，a[0] = [1,3]，轉置後b[0] = 1,b[1] = 2
  # 對於標籤集來說，能夠很方便地取到每一位是很重要的
  trainDataArr = np.array(trainDataList)
  trainLabelArr = np.array(trainLabelList).T

  # 獲取當前特徵數目，也就是資料集的橫軸大小
  featureNum = trainDataArr.shape[1]

  # 初始化最大資訊增益
  maxG_D_A = -1
  # 初始化最大資訊增益的特徵
  maxFeature = -1
  # 對每一個特徵進行遍歷計算
  for feature in range(featureNum):
    # “5.2.2 資訊增益”中“演算法5.1（資訊增益的演算法）”第一步：
    # 1.計算資料集D的經驗熵H(D)
    H_D = calc_H_D(trainLabelArr)
    # 2.計算條件經驗熵H(D|A)
    # 由於條件經驗熵的計算過程中只涉及到標籤以及當前特徵，為了提高運算速度（全部樣本
    # 做成的矩陣運算速度太慢，需要剔除不需要的部分），將資料集矩陣進行切割
    # 資料集在初始時刻是一個Arr = 60000*784的矩陣，針對當前要計算的feature，在訓練集中切割下
    # Arr[:,feature]這麼一條來，因為後續計算中資料集中只用到這個（沒明白的跟著算一遍例5.2）
    # trainDataArr[:,feature]:在資料集中切割下這麼一條
    # trainDataArr[:,feature].flat：將這麼一條轉換成豎著的列表
    # np.array(trainDataArr[:,feature].flat)：再轉換成一條豎著的矩陣，大小為60000*1（只是初始是
    # 這麼大，執行過程中是依據當前資料集大小動態變的）
    trainDataArr_DevideByFeature = np.array(trainDataArr[:,feature].flat)
    # 3.計算資訊增益G(D|A)  G(D|A) = H(D) - H(D | A)
    G_D_A = H_D - calcH_D_A(trainDataArr_DevideByFeature,trainLabelArr)
    # 不斷更新最大的資訊增益以及對應的feature
    if G_D_A > maxG_D_A:
      maxG_D_A = G_D_A
      maxFeature = feature
  return maxFeature,maxG_D_A


def getSubDataArr(trainDataArr,trainLabelArr,A,a):
  '''
  更新資料集和標籤集
  :param trainDataArr:要更新的資料集
  :param trainLabelArr: 要更新的標籤集
  :param A: 要去除的特徵索引
  :param a: 當data[A]== a時，說明該行樣本時要保留的
  :return: 新的資料集和標籤集
  '''
  # 返回的資料集
  retDataArr = []
  # 返回的標籤集
  retLabelArr = []
  # 對當前資料的每一個樣本進行遍歷
  for i in range(len(trainDataArr)):
    # 如果當前樣本的特徵為指定特徵值a
    if trainDataArr[i][A] == a:
      # 那麼將該樣本的第A個特徵切割掉，放入返回的資料集中
      retDataArr.append(trainDataArr[i][0:A] + trainDataArr[i][A + 1:])
      # 將該樣本的標籤放入返回標籤集中
      retLabelArr.append(trainLabelArr[i])
  # 返回新的資料集和標籤集
  return retDataArr,retLabelArr


def createTree(*dataSet):
  '''
  遞迴建立決策樹
  :param dataSet:(trainDataList， trainLabelList) <<-- 元祖形式
  :return:新的子節點或該葉子節點的值
  '''
  # 設定Epsilon，“5.3.1 ID3演算法”第4步提到需要將資訊增益與閾值Epsilon比較，若小於則直接處理後返回T
  Epsilon = 0.1
  # 從引數中獲取trainDataList和trainLabelList
  trainDataList = dataSet[0][0]
  trainLabelList = dataSet[0][1]
  # 列印資訊：開始一個子節點建立，列印當前特徵向量數目及當前剩餘樣本數目
  print('start a node',len(trainDataList[0]),len(trainLabelList))

  # 將標籤放入一個字典中，當前樣本有多少類，在字典中就會有多少項
  # 也相當於去重，多次出現的標籤就留一次。舉個例子，假如處理結束後字典的長度為1，那說明所有的樣本
  # 都是同一個標籤，那就可以直接返回該標籤了，不需要再生成子節點了。
  classDict = {i for i in trainLabelList}
  # 如果D中所有例項屬於同一類Ck，則置T為單節點數，並將Ck作為該節點的類，返回T
  # 即若所有樣本的標籤一致，也就不需要再分化，返回標記作為該節點的值，返回後這就是一個葉子節點
  if len(classDict) == 1:
    # 因為所有樣本都是一致的，在標籤集中隨便拿一個標籤返回都行，這裡用的第0個（因為你並不知道
    # 當前標籤集的長度是多少，但執行中所有標籤只要有長度都會有第0位。
    return trainLabelList[0]

  # 如果A為空集，則置T為單節點數，並將D中例項數最大的類Ck作為該節點的類，返回T
  # 即如果已經沒有特徵可以用來再分化了，就返回佔大多數的類別
  if len(trainDataList[0]) == 0:
    # 返回當前標籤集中佔數目最大的標籤
    return majorClass(trainLabelList)

  # 否則，按式5.10計算A中個特徵值的資訊增益，選擇資訊增益最大的特徵Ag
  Ag,EpsilonGet = calcBestFeature(trainDataList,trainLabelList)

  # 如果Ag的資訊增益比小於閾值Epsilon，則置T為單節點樹，並將D中例項數最大的類Ck
  # 作為該節點的類，返回T
  if EpsilonGet < Epsilon:
    return majorClass(trainLabelList)

  # 否則，對Ag的每一可能值ai，依Ag=ai將D分割為若干非空子集Di，將Di中例項數最大的
  # 類作為標記，構建子節點，由節點及其子節點構成樹T，返回T
  treeDict = {Ag: {}}
  # 特徵值為0時，進入0分支
  # getSubDataArr(trainDataList,trainLabelList,Ag,0)：在當前資料集中切割當前feature，返回新的資料集和標籤集
  treeDict[Ag][0] = createTree(getSubDataArr(trainDataList,0))
  treeDict[Ag][1] = createTree(getSubDataArr(trainDataList,1))

  return treeDict


def predict(testDataList,tree):
  '''
  預測標籤
  :param testDataList:樣本
  :param tree: 決策樹
  :return: 預測結果
  '''
  # treeDict = copy.deepcopy(tree)

  # 死迴圈，直到找到一個有效地分類
  while True:
    # 因為有時候當前字典只有一個節點
    # 例如{73: {0: {74:6}}}看起來節點很多，但是對於字典的最頂層來說，只有73一個key，其餘都是value
    # 若還是採用for來讀取的話不太合適，所以使用下行這種方式讀取key和value
    (key,value),= tree.items()
    # 如果當前的value是字典，說明還需要遍歷下去
    if type(tree[key]).__name__ == 'dict':
      # 獲取目前所在節點的feature值，需要在樣本中刪除該feature
      # 因為在建立樹的過程中，feature的索引值永遠是對於當時剩餘的feature來設定的
      # 所以需要不斷地刪除已經用掉的特徵，保證索引相對位置的一致性
      dataVal = testDataList[key]
      del testDataList[key]
      # 將tree更新為其子節點的字典
      tree = value[dataVal]
      # 如果當前節點的子節點的值是int，就直接返回該int值
      # 例如{403: {0: 7,1: {297:7}}，dataVal=0
      # 此時上一行tree = value[dataVal]，將tree定位到了7，而7不再是一個字典了，
      # 這裡就可以直接返回7了，如果tree = value[1]，那就是一個新的子節點，需要繼續遍歷下去
      if type(tree).__name__ == 'int':
        # 返回該節點值，也就是分類值
        return tree
    else:
      # 如果當前value不是字典，那就返回分類值
      return value


def accuracy(testDataList,testLabelList,tree):
  '''
  測試準確率
  :param testDataList:待測試資料集
  :param testLabelList: 待測試標籤集
  :param tree: 訓練集生成的樹
  :return: 準確率
  '''
  # 錯誤次數計數
  errorCnt = 0
  # 遍歷測試集中每一個測試樣本
  for i in range(len(testDataList)):
    # 判斷預測與標籤中結果是否一致
    if testLabelList[i] != predict(testDataList[i],tree):
      errorCnt += 1
  # 返回準確率
  return 1 - errorCnt / len(testDataList)


if __name__ == '__main__':
  # 開始時間
  start = time.time()

  # 獲取訓練集
  trainDataList,trainLabelList = loadData('../Mnist/mnist_train.csv')
  # 獲取測試集
  testDataList,testLabelList = loadData('../Mnist/mnist_test.csv')

  # 建立決策樹
  print('start create tree')
  tree = createTree((trainDataList,trainLabelList))
  print('tree is:',tree)

  # 測試準確率
  print('start test')
  accur = accuracy(testDataList,tree)
  print('the accur is:',accur)

  # 結束時間
  end = time.time()
  print('time span:',end - start)
以上就是python 決策樹演算法的實現的詳細內容，更多關於python 決策樹演算法的資料請關注我們其它相關文章！
python 決策樹演算法的實現

python 決策樹演算法的實現

python實現決策樹演算法

三種決策樹演算法（ID3, CART, C4.5）及Python實現

python機器學習——決策樹演算法

python決策樹

深入淺出理解決策樹演算法（一）-核心思想

機器學習回顧篇（8）：CART決策樹演算法

決策樹演算法-實戰篇

決策樹演算法(上)

決策樹演算法（下）

Python決策樹視覺化：GraphViz's executables not found的解決方法

實驗四決策樹演算法及應用

機器學習實驗四決策樹演算法及應用

決策樹演算法及應用

決策樹演算法及其應用

實驗四決策樹演算法及應用

決策樹演算法與應用

實驗四——決策樹演算法

實驗四、決策樹演算法及應用

機器學習——實驗四決策樹演算法及應用

python 決策樹演算法的實現

相關推薦