py2.7 : 《機器學習實戰》 Adaboost 2.24號：ROC曲線的繪製和AUC計算函式

阿新 • • 發佈：2019-01-10

前言：可以將不同的分類器組合，這種組合結果被稱為整合方法、元演算法

使用：1.不同演算法的整合 2.同一演算法下的不同設定整合 3.不同部分分配給不同分類器的整合

演算法介紹：AdaBoost

優點：泛華錯誤率低，易編碼，可以應用在大部分的分類器上，無引數調整

缺點：對離群點敏感（離群點是指一個時間序列中，遠離序列的一般水平的極端大值和極端小值）

運用資料型別：數值型或者標稱型資料

7-1 ：單層決策樹生成函式

# -*- coding: utf-8 -*-
from numpy import *
def loadSimpData():
    datMat = matrix([[1. , 2.1],
                     [2. , 1.1],
                     [1.3 , 1.],
                     [1. , 1.],
                     [2. ,1.]])
    classLabels = [1.0 , 1.0 , -1.0 ,-1.0 ,1.0]
    return datMat , classLabels

#通過閾值比較對資料進行分類函式，在閾值一邊的會分到-1類別，另一邊的分到類別+1
#先全部初始化為1，然後進行過濾，不滿足不等式的變為-1
def stumpClassify(dataMatrix , dimen , threshVal , threshIneq) :
    retArray = ones((shape(dataMatrix)[0] , 1 ))
    if threshIneq == 'lt' :
        retArray[dataMatrix[:,dimen] <= threshVal] = -1.0
    else:
        retArray[dataMatrix[:,dimen] > threshVal] = -1.0
    return retArray
#遍歷上述函式所有可能輸入，找到最佳單層決策樹
def buildStump(dataArr,classLabels,D):
    dataMatrix = mat(dataArr) ; labelMat = mat(classLabels).T
    m,n = shape(dataMatrix)
    numSetps = 10.0 #在特徵的所有可能值上進行遍歷
    bestStump = {}  #儲存給定權重D得到的最佳單層決策樹
    bestClasEst = mat(zeros((m,1)))
    minError = inf #初始化為無窮大，找最小錯誤率
    for i in range(n) :#在特徵上進行遍歷，計算最大最小值來求得合理步長
        rangeMin = dataMatrix[:,i].min() ; rangeMax = dataMatrix[:,i].max();
        stepSize = (rangeMax-rangeMin)/numSetps
        for j in range(-1,int(numSetps)+1):
            for inequal in ['lt' , 'gt'] :#大於小於切換不等式
                threshVal = (rangeMin+float(j)*stepSize)
                predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)
                errArr = mat(ones((m,1))) #如果預測值≠真實值，為1
                errArr[predictedVals==labelMat] = 0
                weightedError = D.T * errArr #相乘求和得到錯誤權重數值
                if weightedError < minError :
                    minError = weightedError
                    bestClasEst = predictedVals.copy()
                    bestStump['dim'] = i
                    bestStump['thresh'] = threshVal
                    bestStump['ineq']  = inequal
    return bestStump , minError , bestClasEst

執行

# -*- coding: utf-8 -*-
import adaboost
from numpy import *
D = mat(ones((5,1))/5)
dataMat , classLabels = adaboost.loadSimpData()
print adaboost.buildStump(dataMat,classLabels,D)

效果：

({'dim': 0, 'ineq': 'lt', 'thresh': 1.3}, matrix([[ 0.2]]), array([[-1.],
       [ 1.],
       [-1.],
       [-1.],
       [ 1.]]))

7.4 完整AdaBoost訓練過程：

def adaBoostTrainDS(dataArr,classLabels,numIt = 40) : #=資料集，類別標籤，迭代次數numIt
    weakClassArr = []
    m = shape(dataArr)[0] #m是資料的數目
    D = mat(ones((m,1))/m) #每個資料點的權重
    aggClassEst = mat(zeros((m,1))) #記錄每個資料點的類別估計累計值
    for i in  range(numIt): #如果在迭代次數內錯誤率為0則退出
        bestStump , error , classEst = buildStump(dataArr,classLabels,D)
        #返回利用D得到的最小錯誤率單層決策樹，最小的錯誤率和估計的類別向量
        print "D:" , D.T
        alpha = float(0.5*log((1.0-error)/max(error,1e-16))) #分類器分配的權重，這裡比較是為了防止0出現溢位
        bestStump['alpha'] = alpha
        weakClassArr.append(bestStump)
        print "classEst : " , classEst.T
        expon = multiply(-1*alpha*mat(classLabels).T , classEst)
        D = multiply(D,exp(expon))
        D = D/D.sum()
        aggClassEst += alpha*classEst
        print "aggClassEst : " , aggClassEst.T
        aggErrors = multiply(sign(aggClassEst)!=mat(classLabels).T , ones((m,1)))
        errorRate = aggErrors.sum() / m
        print "Total error : " , errorRate , "\n"
        if errorRate ==0.0 : break
    return weakClassArr

樣例輸入：

# -*- coding: utf-8 -*-
import adaboost
from numpy import *
D = mat(ones((5,1))/5)
dataMat , classLabels = adaboost.loadSimpData()
lassifierArray = adaboost.adaBoostTrainDS(dataMat,classLabels,9)
print lassifierArray

樣例輸出：

D: [[ 0.2  0.2  0.2  0.2  0.2]]
classEst :  [[-1.  1. -1. -1.  1.]]
aggClassEst :  [[-0.69314718  0.69314718 -0.69314718 -0.69314718  0.69314718]]
Total error :  0.2 

D: [[ 0.5    0.125  0.125  0.125  0.125]]
classEst :  [[ 1.  1. -1. -1. -1.]]
aggClassEst :  [[ 0.27980789  1.66610226 -1.66610226 -1.66610226 -0.27980789]]
Total error :  0.2 

D: [[ 0.28571429  0.07142857  0.07142857  0.07142857  0.5       ]]
classEst :  [[ 1.  1.  1.  1.  1.]]
aggClassEst :  [[ 1.17568763  2.56198199 -0.77022252 -0.77022252  0.61607184]]
Total error :  0.0 

[{'dim': 0, 'ineq': 'lt', 'thresh': 1.3, 'alpha': 0.6931471805599453}, {'dim': 1, 'ineq': 'lt', 'thresh': 1.0, 'alpha': 0.9729550745276565}, {'dim': 0, 'ineq': 'lt', 'thresh': 0.90000000000000002, 'alpha': 0.8958797346140273}]

可以看到第一次的D是都初始化為了1/5 ，且第一個被錯分了，提高概率，正確的降低，以此類推

def adaClassify(datToClass,classifierArr):#基於adaboost的分類
    dataMatrix = mat(datToClass)
    m = shape(dataMatrix)[0]
    aggClassEst = mat(zeros((m,1)))
    for i in range(len(classifierArr)): #訓練多個弱分類器
        classEst = stumpClassify(dataMatrix,classifierArr[i]['dim'],
                                 classifierArr[i]['thresh'],
                                 classifierArr[i]['ineq'])
        aggClassEst += classifierArr[i]['alpha']*classEst
        print aggClassEst
    return sign(aggClassEst)

7-5 ROC曲線繪製和AUC計算函式

def plotROC(predStrengths, classLabels):
    import matplotlib.pyplot as plt
    cur = (1.0,1.0) #保留繪製游標的位置
    ySum = 0.0 #計算AUC的值
    numPosClas = sum(array(classLabels)==1.0)
    yStep = 1/float(numPosClas); 
    xStep = 1/float(len(classLabels)-numPosClas)
    sortedIndicies = predStrengths.argsort()#獲取排序索引
    fig = plt.figure()
    fig.clf()
    ax = plt.subplot(111)
    #畫圖
    for index in sortedIndicies.tolist()[0]:
        if classLabels[index] == 1.0:
            delX = 0; 
            delY = yStep;
        else:
            delX = xStep; 
            delY = 0;
            ySum += cur[1]
        ax.plot([cur[0],cur[0]-delX],[cur[1],cur[1]-delY], c='b')
        cur = (cur[0]-delX,cur[1]-delY)
    ax.plot([0,1],[0,1],'b--')
    plt.xlabel('False positive rate'); plt.ylabel('True positive rate')
    plt.title('ROC curve for AdaBoost horse colic detection system')
    ax.axis([0,1,0,1])
    plt.show()
    print "the Area Under the Curve is: ",ySum*xStep

py2.7 : 《機器學習實戰》 Adaboost 2.24號：ROC曲線的繪製和AUC計算函式

前言：可以將不同的分類器組合，這種組合結果被稱為整合方法、元演算法使用：1.不同演算法的整合 2.同一演算法下的不同設定整合 3.不同部分分配給不同分類器的整合演算法介紹：AdaBoost 優點：泛華錯誤率低，易編碼，可以應用在大部分的分類器上，無引數調整缺點：

機器學習實戰（2）-決策樹

構建決策樹最重要的是分裂屬性的選取,重要的是每個屬性在節點的位置，比如說第一個節點屬性為什麼是A而不是B。分裂屬性就是在某個節點處按照某一特徵屬性的不同劃分構造不同的分支，其目標是讓各個分裂子集更加的純，所謂的純是指儘量讓一個分裂子集中待分類項屬於同一類別。判斷純的方法有ID3，C4.5，CART演算法。&n

機器學習實戰筆記2—決策樹

注：此係列文章裡的部分演算法和深度學習筆記系列裡的內容有重合的地方，深度學習筆記裡是看教學視訊做的筆記，此處文章是看《機器學習實戰》這本書所做的筆記，雖然演算法相同，但示例程式碼有所不同，多敲一遍沒有壞處，哈哈。（裡面用到的資料集、程式碼可以到網上搜索，很容易找到。）。Python版本3.6

機器學習實戰筆記2：使用K-近鄰演算法改進約會網站的配對效果

一背景在學習了上一節簡單的k-近鄰演算法實現後，這一篇文章講一下書中給出的一個例子，在約會網站上使用k-近鄰演算法： 1）收集資料：可以使用爬蟲進行資料的收集，也可以使用第三方提供的免費或收費的資料。一般來講，資料放在txt文字檔案中，按照一定的格式進行

機器學習實戰---adaboost

一、介紹 AdaBoost是一種迭代型的演算法，其核心思想是針對同一個訓練集訓練不同的學習演算法，即弱學習演算法，然後將這些弱學習演算法集合起來，構造一個更強的最終學習演算法 adaboost希望在下一輪訓練時被上一個子分類器正確分類的樣本權重和與被錯誤分類的樣本權重和相

機器學習實戰（2）—— k-近鄰演算法

老闆：來了，老弟！我：來了來了。老闆：今天你要去看看KNN了，然後我給你安排一個工作！我：好嘞！就是第二章嗎？老闆：對！去吧！可惡的老闆又給我安排任務了！《機器學習實戰》這本書中的第二章為我們介紹了K-近鄰演算法，這是本書中第一個機器學習演算法，它非常有效而且易於

機器學習實戰——1.2決策樹（2）

宣告：參考書目《機器學習實戰》作者: Peter Harrington 出版社: 人民郵電出版社譯者: 李銳 / 李鵬 / 曲亞東 / 王斌宣告：參考書目《統計學習方法》作者: 李航出版社: 清華大學出版社 ISBN: 9787302275954

機器學習實戰——1.2決策樹（1）

機器學習實戰筆記2(k-近鄰演算法)

1：演算法簡單描述給定訓練資料樣本和標籤，對於某測試的一個樣本資料，選擇距離其最近的k個訓練樣本，這k個訓練樣本中所屬類別最多的類即為該測試樣本的預測標籤。簡稱kNN。通常k是不大於20的整數，這裡的距離一般是歐式距離。 2：python程式碼實現建立一個

程式碼註釋：機器學習實戰第2章 k-近鄰演算法

寫在開頭的話：在學習《機器學習實戰》的過程中發現書中很多程式碼並沒有註釋，這對新入門的同學是一個挑戰，特此貼出我對程式碼做出的註釋，僅供參考，歡迎指正。 1、匯入資料： #coding:gbk from numpy import * import operator de

基於pyhton3.6-機器學習實戰-AdaBoost程式碼解釋

本人是一名數學系研究生，於2017年底第一次接觸python和機器學習，作為一名新手，歡迎與大家交流。我主要給大家講解程式碼，理論部分給大家推薦3本書：《機器學習實戰中文版》《機器學習》周志華《統計學習方法》李航以上3本書，第一本是基於python2的程式碼實現；剩餘兩本主要

機器學習實戰——AdaBoost

書籍：《機器學習實戰》中文版 IDE：Spyder 環境：Adaconda3 python3.6 (Spyder相對pycharm來說，比較簡潔，而且對於常用matlab的人，感覺更親切。它可以方便的觀察變數值，檢視執行結果等。但是spyder沒有程式碼摺疊！程式碼提

機器學習實戰教程（一）：線性回歸基礎篇（上）

學習 reg style spa 目標 pub auto 機器輸入一什麽是回歸？　　回歸的目的是預測數值型的目標值，最直接的辦法是依據輸入，寫入一個目標值的計算公式。　　假如你想預測小姐姐男友汽車的功率，可能會這麽計算：　　　　　　　　　　　　　　Ho

機器學習實戰——預測數值型資料：迴歸實現記錄

關於利用資料集繪圖建立模型 >>> import regression >>> xArr, yArr= regression.loadDataSet('ex0.txt') >>> ws= regression.standRegres(xAr

《機器學習實戰》第五章：Logistic迴歸（1）基本概念和簡單例項

最近感覺時間越來越寶貴，越來越不夠用。不過還是抽空看了點書，然後整理到部落格來。加快點節奏，廢話少說。 Keep calm & carry on. ----------------------------------------------------------

機器學習實戰教程（三）：決策樹實戰篇之為自己配個隱形眼鏡

原文連結：cuijiahua.com/blog/2017/1… 一、前言上篇文章機器學習實戰教程（二）：決策樹基礎篇之讓我們從相親說起講述了機器學習決策樹的原理，以及如何選擇最優特徵作為分類特徵。本篇文章將在此基礎上進行介紹。主要包括：決策樹構建決策樹視覺化使用決

機器學習實戰系列（五）：SVM支援向量機

課程的所有資料和程式碼在我的Github：Machine learning in Action，目前剛開始做，有不對的歡迎指正，也歡迎大家star。除了版本差異，程式碼裡的部分函式以及程式碼正規化也和原書不一樣（因為作者的程式碼實在讓人看的彆扭，我改過後看起來舒服多了）

機器學習實戰教程（五）：樸素貝葉斯實戰篇之新浪新聞分類

原文連結： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html 一、前言上篇文章機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器講解了樸素貝葉斯的基礎知識。本篇文章將在此基礎上進行擴充套件，你將看到以下內容：拉普拉

機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器

word 最可 dog 一個 mac github上開課和數基礎上原文鏈接： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_4_bayes_1.html 一、前言樸素貝葉斯算法是有監督的學習算法，解決的是分類問題，

《機器學習實戰》第三章：決策樹（1）基本概念

有半個月沒來了。最近一段時間...大多在忙專案組的事（其實就是改一改現有程式碼的bug，不過也挺費勁的，畢竟程式碼不是自己寫的）。另外就是自己租了幾臺美帝的vps，搭了$-$的伺服器，效果還不錯。自己搭的話就不用去買別人的服務了，不過租vps畢竟還是要成本的，光用來番茄

py2.7 : 《機器學習實戰》 Adaboost 2.24號：ROC曲線的繪製和AUC計算函式

相關推薦