基於決策樹預測隱形眼鏡型別

阿新 • • 發佈：2018-12-20

隱形眼鏡資料集是著名的資料集，它包含很多患者眼部狀況的觀察條件以及醫生推薦的隱形眼鏡型別。隱形眼鏡的型別包括硬材質、軟材質以及不適合佩戴隱形眼鏡。資料集如下圖所示，第一列代表年齡‘age’，第二列代表醫生的建議‘prescript’,第三列代表是否散光‘astigmatic’,第四列代表戴眼鏡的頻率‘tearRate’。

1.匯入資料集，將資料集轉換到列表中

fr = open('lenses.txt')
lenses = [line.strip().split('\t') for line in fr.readlines()]
lensesLabels = ['age','prescript','astigmatic','tearRate']
lenses

執行結果：
[['young', 'myope', 'no', 'reduced', 'no lenses'],
 ['young', 'myope', 'no', 'normal', 'soft'],
 ['young', 'myope', 'yes', 'reduced', 'no lenses'],
 ['young', 'myope', 'yes', 'normal', 'hard'],
 ['young', 'hyper', 'no', 'reduced', 'no lenses'],
 ['young', 'hyper', 'no', 'normal', 'soft'],
 ['young', 'hyper', 'yes', 'reduced', 'no lenses'],
 ['young', 'hyper', 'yes', 'normal', 'hard'],
 ['pre', 'myope', 'no', 'reduced', 'no lenses'],
 ['pre', 'myope', 'no', 'normal', 'soft'],
 ['pre', 'myope', 'yes', 'reduced', 'no lenses'],
 ['pre', 'myope', 'yes', 'normal', 'hard'],
 ['pre', 'hyper', 'no', 'reduced', 'no lenses'],
 ['pre', 'hyper', 'no', 'normal', 'soft'],
 ['pre', 'hyper', 'yes', 'reduced', 'no lenses'],
 ['pre', 'hyper', 'yes', 'normal', 'no lenses'],
 ['presbyopic', 'myope', 'no', 'reduced', 'no lenses'],
 ['presbyopic', 'myope', 'no', 'normal', 'no lenses'],
 ['presbyopic', 'myope', 'yes', 'reduced', 'no lenses'],
 ['presbyopic', 'myope', 'yes', 'normal', 'hard'],
 ['presbyopic', 'hyper', 'no', 'reduced', 'no lenses'],
 ['presbyopic', 'hyper', 'no', 'normal', 'soft'],
 ['presbyopic', 'hyper', 'yes', 'reduced', 'no lenses'],
 ['presbyopic', 'hyper', 'yes', 'normal', 'no lenses']]

2.計算原始資料夏農熵

#計算原始資料的夏農熵
import numpy as np
import math
from math import log
def shannonEntropy(dataSet):
    num = len(dataSet)
    classCount = {}
    for a in dataSet:
        label = a[-1]#最後一列為類別標籤
        classCount[label] = classCount.get(label,0)+1
    shangnon = 0.0
    for key in classCount:
        prob = float(classCount[key])/num
        shangnon += -prob*log(prob,2)#夏農熵計算公式
    return shangnon

shannonEntropy(lenses)
執行結果：1.3260875253642983

3.劃分資料集

#劃分資料集
def splitDataSet(dataSet,feature_index,feature_value):
    subDataSet = []
    for b in dataSet:
        if b[feature_index]==feature_value:
            temp = b[:feature_index]#注意這裡不能直接用del刪除而應該用切片，用del原資料集會改變
            temp.extend(b[feature_index+1:])
            subDataSet.append(temp)
    return subDataSet

4.選擇根節點

#選擇根節點
def selectRootNode(dataSet):
    baseEntropy = shannonEntropy(dataSet)#計算原始夏農熵
    numFeatures = len(dataSet[0])-1#特徵個數
    maxInfoGain = 0.0;bestFeature = 0
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqVals = set(featList)
        newEntropy = 0.0
        for j in uniqVals:
            subDataSet = splitDataSet(dataSet,i,j)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * shannonEntropy(subDataSet)
        infoGain = baseEntropy - newEntropy#資訊增益
        if(infoGain>maxInfoGain):
            maxInfoGain = infoGain
            bestFeature = i
    return bestFeature

5.構建樹結構

#選擇根節點
def selectRootNode(dataSet):
    baseEntropy = shannonEntropy(dataSet)#計算原始夏農熵
    numFeatures = len(dataSet[0])-1#特徵個數
    maxInfoGain = 0.0;bestFeature = 0
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqVals = set(featList)
        newEntropy = 0.0
        for j in uniqVals:
            subDataSet = splitDataSet(dataSet,i,j)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * shannonEntropy(subDataSet)
        infoGain = baseEntropy - newEntropy#資訊增益
        if(infoGain>maxInfoGain):
            maxInfoGain = infoGain
            bestFeature = i
    return bestFeature

lensesLabels = ['age', 'prescript', 'astigmatic','tearRate']
myTree = createTree(lenses,lensesLabels)
myTree
執行結果：{'tearRate': {'normal': {'astigmatic': {'no': {'age': {'young': 'soft',
      'pre': 'soft',
      'presbyopic': {'prescript': {'hyper': 'soft', 'myope': 'no lenses'}}}},
    'yes': {'prescript': {'hyper': {'age': {'young': 'hard',
        'pre': 'no lenses',
        'presbyopic': 'no lenses'}},
      'myope': 'hard'}}}},
  'reduced': 'no lenses'}}

6.使用樹結構執行分類

def classifier(myTree,featLabels,testVec):
    firstFeat = list(myTree.keys())[0]
    secondDict = myTree[firstFeat]
    featIndex = featLabels.index(firstFeat)
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classifier(secondDict[key],featLabels,testVec)
            else:classLabel = secondDict[key]
    return classLabel

classifier(myTree, ['age','prescript','astigmatic','tearRate'],['young','myope','yes','normal'])
執行結果：'hard'

7.畫樹形圖，這裡用Graphviz和pydotplus畫，資料集需要為數字

#將屬性用數字代表，'young'=0,'pre'=1,'presbyopic=2';'myope=0','hyper=1';'no'=0,'yes'=1;'reduced'=0,'normal'=1
a = np.array([0 if line[0]=='young' else 1 if line[0]=='pre' else 2 for line in lenses])
b = np.array([0 if line[1]=='myope' else 1 for line in lenses])
c = np.array([0 if line[2]=='no' else 1 for line in lenses])
d = np.array([0 if line[3]=='reduced' else 1 for line in lenses])
e = [a,b,c,d]
data = np.array(e).T
data
執行結果：
array([[0, 0, 0, 0],
       [0, 0, 0, 1],
       [0, 0, 1, 0],
       [0, 0, 1, 1],
       [0, 1, 0, 0],
       [0, 1, 0, 1],
       [0, 1, 1, 0],
       [0, 1, 1, 1],
       [1, 0, 0, 0],
       [1, 0, 0, 1],
       [1, 0, 1, 0],
       [1, 0, 1, 1],
       [1, 1, 0, 0],
       [1, 1, 0, 1],
       [1, 1, 1, 0],
       [1, 1, 1, 1],
       [2, 0, 0, 0],
       [2, 0, 0, 1],
       [2, 0, 1, 0],
       [2, 0, 1, 1],
       [2, 1, 0, 0],
       [2, 1, 0, 1],
       [2, 1, 1, 0],
       [2, 1, 1, 1]])

#畫樹形圖
from sklearn import tree
clf = tree.DecisionTreeClassifier()
target =np.array([line[-1] for line in lenses])
clf = clf.fit(data,target)
import pydotplus
dot_data = tree.export_graphviz(clf, out_file=None)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf("lenses.pdf")

基於決策樹預測隱形眼鏡型別

隱形眼鏡資料集是著名的資料集，它包含很多患者眼部狀況的觀察條件以及醫生推薦的隱形眼鏡型別。隱形眼鏡的型別包括硬材質、軟材質以及不適合佩戴隱形眼鏡。資料集如下圖所示，第一列代表年齡‘age’，第二列代表醫生的建議‘prescript’,第三列代表是否散光‘astigmatic’

【python和機器學習入門2】決策樹3——使用決策樹預測隱形眼鏡型別

參考部落格：決策樹實戰篇之為自己配個隱形眼鏡（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第三章3.4

《機器學習實戰》學習筆記———使用決策樹預測隱形眼鏡型別

擬解決基本問題描述本文擬解決預測隱形眼鏡型別的問題，決策樹是概念學習的一種模型和學習演算法，所謂概念學習可以看成是一個搜尋過程，搜尋的範圍是假設定義的空間，搜尋的目標是尋找能更好得擬合訓練樣例的假設。決策樹希望通過構造一種IF-THEN的規則的

python3.5《機器學習實戰》學習筆記（五）：決策樹演算法實戰之預測隱形眼鏡型別

一、使用決策樹預測隱形眼鏡型別在上一篇文章中，我們學習了決策樹演算法，接下來，讓我們通過一個例子講解決策樹如何預測患者需要佩戴的隱形眼鏡型別。隱形眼鏡資料集是非常著名的資料集，它包含了很多患者眼部狀況的觀察條件以及醫生推薦的隱形眼鏡型別。隱形眼鏡

【Paper Note】基於決策樹演算法的電信運營商客戶流失預測

隨著網際網路業務的速發展，移動業務市場的客戶流失預警成為每一個電信運營商重點關注的內容，在商務智慧與機器學習快速發展的當下，運用資料探勘的方法，實現對電信客戶的挽留、轉化、精準營銷越來越彰顯其商業價值。如何最大程度地挽留在網使用者、吸取新客戶，是電信企業最關注的問題之一。競爭對手的促銷、公司資費軟著陸措施的出

Python建立決策樹—解決隱形眼鏡選擇問題

現在我們碰到這樣一個問題，一個人去醫院想配一副隱形眼鏡。我們需要通過問他4個問題，決定他需要帶眼鏡的型別。那麼如何解決這個問題呢？我們決定用決策樹。首先我們去下載一個隱形眼鏡資料集，資料來源於UCI資料庫。下載了lenses.data檔案，如下： 1 1 1 1 1 3 2 1 1

基於決策樹模型對 IRIS 資料集分類

基於決策樹模型對 IRIS 資料集分類文章目錄基於決策樹模型對 IRIS 資料集分類 1 python 實現載入資料集視覺化資料集分類和預測計算準確率 2 基於MATLA

Python資料探勘入門與實踐---用決策樹預測獲勝球隊

參考書籍：《Python資料探勘入門與實踐》 1.載入資料集：使用pandas載入資料集，有1319行資料， 8個特徵，檢視前5項資料集，並查詢是否有重複資料 #coding=gbk #使用決策樹來預測獲勝球隊 import time start =

Python 決策樹預測分類演算法

準備工作：安裝pandas pip3 install pandas 資料載入和清洗 import os import numpy as np import pandas as pd home_folder = os.path.expanduse

【10月31日】機器學習實戰（二）決策樹：隱形眼鏡資料集

決策樹的優點：計算的複雜度不高，輸出的結果易於理解，對中間值的確實不敏感，可以處理不相關的特徵資料決策樹的缺點：可能會產生過度匹配的問題。其本質的思想是通過尋找區分度最好的特徵（屬性），用於支援分類規則的制定。那麼哪些特徵是區分度好的，哪些特徵是區分度壞的呢？換句話說

分析貸款申請風險-基於決策樹（分而治之演算法）

1.收集資料 credit <- read.csv("credit.csv") 2.探索資料（略） 3.準備資料 a.將資料隨機化 set.seed(12345) credit_rand <- credit[order(runif(1000)), ]

決策樹和基於決策樹的集成方法（DT,RF,GBDT,XGB）復習總結

alpha 做了 .org ntb 變量 feature sum mac 實踐摘要：　　1.算法概述　　2.算法推導　　3.算法特性及優缺點　　4.註意事項　　5.實現和具體例子內容： 1.算法概述　　1.1 決策樹（DT）是一種基本的分類和

基於決策樹的簡單驗證碼識別

原理核心思想：相似的輸入必會產生相似的輸出。原理：首先從訓練樣本矩陣中選擇第一個特徵進行劃分，使每個子表中該特徵的值全部相同(比如第一個特徵是男女，則可以劃分出兩個子表，男表和女表)，然後再在每個子表中選擇下一個特徵按照同樣的規則繼續劃分更小的子表(比如第二個特徵是年齡，我可以劃分成三個子表(當然根據情況

Python實現決策樹應用之判斷隱形眼鏡的型別

程式碼模組一、DecisionTreePlot # -*- coding:utf-8 -*- __author__ = 'yangxin_ryan' import matplotlib.pyplot as plt """ 定義文字框和箭頭格式【 sawtooth 波浪方框, rou

第3章決策樹（ID3演算法、建立繪製決策樹、分類器、儲存、預測隱性眼鏡型別）

ID3演算法 ID3演算法的核心是在決策樹各個結點上對應資訊增益準則選擇特徵，遞迴地構建決策樹。具體方法是：從根結點(root node)開始，對結點計算所有可能的特徵的資訊增益，選擇資訊增益最大的特徵作為結點的特徵，由該特徵的不同取值建立子節點；再對子結點遞迴地呼叫以上方法，構建決策樹

機器學習實戰：決策樹-隱形眼鏡型別

程式碼及資料地址輸出結果 model: {‘tearRate’: {‘reduced’: ‘no lenses’, ‘normal’: {‘astigmatic’: {‘yes’: {‘prescript’: {‘hyper’: {‘age’: {‘presbyopic

【Machine Learning】決策樹案例：基於python的商品購買能力預測系統

作者：白寧超 2016年12月24日22:05:42 摘要：隨著機器學習和深度學習的熱潮，各種圖書層出不窮。然而多數是基礎理論知識介紹，缺乏實現的深入理解。本系列文章是作者結合視訊學習和書籍基礎的筆記所得。本系列文章將採用理論結合實踐方式編寫。首先介紹機器學習和深度學習的範疇，然後介紹關於訓練集、

論文筆記1《基於ID3決策樹改進演算法的客戶流失預測分析》

《電腦科學》 2010年部分摘要：指出了該演算法的取指偏向性以及運算效率不高等缺點，在此基礎上提出了改進的ID3演算法，該演算法通過引入先驗知識度引數，有效克服ID3演算法中的取值偏向性和運算效率

機器學習之路: python 決策樹分類預測泰坦尼克號乘客是否幸存

現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到特征的提取，數據類型保留，分類類型抽取出來新的類型需要網上下載數據集，我把他們下載到了本地，可以到我的git下載代碼和數據集: https

決策樹實戰-根據物資目錄預測物資數量

擬合 .sh ear .com 9.png 代碼實現 amp 代碼 lib 代碼實現： 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Thu Aug 30 08:48:18 2018 4 5 @author: zhe

基於決策樹預測隱形眼鏡型別

相關推薦