Adaboost底層程式碼(python)——非常詳細

阿新 • • 發佈：2018-12-16

參考《機器學習實戰》，程式碼可執行

#!/user/bin/python3
# Author: HuangCong
# -*- coding:utf-8 -*-
import numpy as np

#建立簡單資料集
def loadSimpData():
    datMat = np.mat([[1., 2.1],
                     [2., 1.1],
                     [1.3, 1.],
                     [1., 1.],
                     [2., 1.]])
    classLabel = 
 [1.0, 1.0, -1.0, -1.0, 1.0]
    return datMat, classLabel


#通過閾值比較對資料進行分類——(特徵矩陣、維度、閾值、閾值不等號)
def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):
    retArray = np.ones((dataMatrix.shape[0], 1))  #建立列向量[m, 1]——與標籤列相對應
    if threshIneq == 'lt':
        retArray[dataMatrix[:, dimen] <= threshVal] 
 = -1  #在該dimen維度的特徵值小於等於閾值時，取-1
    else:
        retArray[dataMatrix[:, dimen] > threshVal] = -1
    return retArray


#該函式會遍歷stumpClassify()函式所有可能的輸入值，並找到該資料集上的最佳單層樹——根據資料權重向量D來定義
def buildStump(dataArr, classLabels, D):
    dataMatrix = np.mat(dataArr); labelMat = np.mat(classLabels).T #classLabel向量為[1,n],需要轉置 

    m, n = dataMatrix.shape  #m個樣本，n個特徵
    numSteps = 10.0  #用於在特徵的所有可能值上進行遍歷
    bestStump = {} #該詞典儲存最佳單層決策樹的相應引數
    bestClasEst = np.mat(np.zeros((m, 1)))    #儲存最佳估計標籤值，先初始化[m,1]零向量
    minError = np.inf  #初始化為無窮大，用於尋找可能的最小錯誤率
    for i in range(n):  #在所有的特徵上進行遍歷
        rangeMin = dataMatrix[:, i].min()  #取該列特徵值中的最小值
        rangeMax = dataMatrix[:, i].max()  #同理以上
        stepSize = (rangeMax - rangeMin)/numSteps  #確定步長
        for j in range(-1, int(numSteps) + 1):  #將閾值設定為整個取值範圍之外也是也可以的
            for inequal in ['lt', 'gt']: #在大於和小於之間切換不等式
                threshVal = (rangeMin + float(j) * stepSize)   #確定閾值
                predictdVals = stumpClassify(dataMatrix, i, threshVal, inequal)  #進行預測
                errArr = np.mat(np.ones((m, 1)))   #錯誤矩陣，如果predictedVals值不等於labelMat中真正類別值，置為一
                errArr[predictdVals == labelMat] = 0
                weightedError = D.T * errArr  #權重向量與錯誤向量相乘得到錯誤率
                #適當列印，幫助理解函式的執行
                #print("split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f"% (i, threshVal, inequal, weightedError))
                if weightedError < minError:  #當前錯誤率小於已有的最小錯誤率
                    minError = weightedError  #進行更新
                    bestClasEst = predictdVals.copy()  #儲存預測值
                    bestStump['dim'] = i  #儲存維度
                    bestStump['thresh'] = threshVal  #儲存閾值
                    bestStump['ineq'] = inequal  #儲存不等號
    return bestStump, minError, bestClasEst


#基於單層決策樹的AdaBoost的訓練過程 (資料集、類別標籤、迭代次數)，尾部DS代表(decision stump單層決策樹)
def adaBoostTrainDS(dataArr, classLabels, numIt=40):  #迭代次數是演算法中唯一需要使用者指定的引數
    weakClassArr = []   #聚焦該分類器的所有資訊，最後返回
    m = dataArr.shape[0]  #樣本數為m
    D = np.mat(np.ones((m, 1)) / m)  #樣本權重初始化，都相等，後續迭代中會增加錯分資料的權重同時，降低正確分類資料的權重
    aggClassEst = np.mat(np.zeros((m, 1)))  #記錄每個資料點的類別估計累計值
    for i in range(numIt):  #numIt次迭代
        bestStump, error, classEst = buildStump(dataArr, classLabels, D)
        #上一行返回利用D得到的具有最小錯誤率的單層決策樹，同時返回最小錯誤率和估計的類別向量
        print("D:", D.T)
        #下一行alpha的計算公式可詳見李航藍本，max()函式以防發生除零錯誤
        alpha = float(0.5 * np.log((1.0 - error) / max(error, 1e-16)))
        bestStump['alpha'] = alpha  #繼續存入該字典——包括了分類所需要的所有資訊
        weakClassArr.append(bestStump)   #儲存資訊到列表中
        print("classEst: ", classEst.T) #列印類別估計值
        #以下三行用於計算下一次迭代中的新的資料權重向量D，公式可見李航藍本
        expon = np.multiply(-1 * alpha * np.mat(classLabels).T, classEst)
        D = np.multiply(D, np.exp(expon))
        D = D/D.sum()
        #以下四行用於錯誤率累加的計算，通過aggClassEst變數保持一個執行時的類別估計值來實現
        aggClassEst += alpha * classEst
        print("aggClassEst: ", aggClassEst)  #由於aggClassEst是浮點數，需要呼叫sign()函式
        aggErrors = np.multiply(np.sign(aggClassEst) != np.mat(classLabels).T, np.ones((m, 1)))
        errorRate = aggErrors.sum() / m

        print("errorRate: ", errorRate)
        if errorRate == 0.0:  #如果錯誤率為0，停止for迴圈
            break
    return weakClassArr  #返回資訊列表


#基於adaboost進行分類——(待分類樣例，多個弱分類器組成的陣列)
def adaClassify(dataToClass, classifierArr):
    dataMatrix = np.mat(dataToClass)  #首先轉成numpy矩陣
    m = dataMatrix.shape[0] #待分類樣例的個數為m
    aggClassEst = np.mat(np.zeros((m, 1)))  #構建0列向量，與adaBoostTrainDS中含義一樣
    for i in range(len(classifierArr)):  #遍歷所有的弱分類器
        #基於stumpClassify()對每個分類器得到一個類別的估計值
        classEst = stumpClassify(dataMatrix, classifierArr[i]['dim'],
                                 classifierArr[i]['thresh'], classifierArr[i]['ineq'])
        aggClassEst += classifierArr[i]['alpha']*classEst
        print(aggClassEst)
    return np.sign(aggClassEst)


# #定義自適應載入函式(很有用)
# def loadDataSet(fileName):
#     numFeat = len(open(fileName).readline().split('\t'))
#     dataMat = []
#     labelMat = []
#     fr = open(fileName)
#     for line in fr.readlines():
#         lineArr = []
#         curLine = line.strip().split('\t')
#         for i in range(numFeat-1):
#             lineArr.append(float(curLine[i]))
#         dataMat.append(lineArr)
#         labelMat.append(float(curLine[-1]))
#     return dataMat, labelMat


if __name__ == "__main__":
    dataMat, classLabels = loadSimpData()
    classifierArr = adaBoostTrainDS(dataMat, classLabels, 30)
    print(adaClassify([0, 0], classifierArr))  #估計資料點[0,0]的類別
    print(adaClassify([[5, 5], [0, 0]], classifierArr))  #估計資料點[5,5],[0,0]的類別

以上，祝好！

Adaboost底層程式碼(python)——非常詳細

參考《機器學習實戰》，程式碼可執行 #!/user/bin/python3 # Author: HuangCong # -*- coding:utf-8 -*- import numpy as np #建立簡單資料集 def loadSimpData():

用Python玩微信（非常詳細）

tree dir colors 位置 echarts 拼接 spl 表示開源項目代碼放在這裏：wzyonggege/python-wechat-itchat 詞雲那裏可以換成小黃人圖片 -----------------------------------------

Python程式設計入門電子書及視訊教程-非常詳細『強烈推薦』

這裡給初學Python的朋友提供一些建議和指導吧。大神請無視，俗話說：授人以魚不如授人以漁。所以我這裡只是闡述學習過程，並不會直接詳細寫某個知識點，畢竟程式設計的東西很多都是靠自學，靠自己的，只要大家足夠努力肯定沒問題的，多點敲程式碼。具體的應用部分--資料分析，網路爬蟲我後續會繼續寫的，如需獲取更多學習建議

決策樹基本理論學習以及Python程式碼實現和詳細註釋

首先是樹的概念我們都比較熟悉了，然後決策樹其實就是一棵樹，通過在每一個幾點通過特徵的不同，走向不同的子樹直到走到葉子節點找到分類的標籤，算是完成了分類的過程。分類的過程不難理解，主要的是資料構造過程。首先是構造的依據是什麼呢，以什麼依據作為特徵使用的選擇條件

x264程式碼閱讀筆記——非常詳細

（一）common/set.h的註釋 #ifndef _SET_H #define _SET_H 1 enum profile_e { PROFILE_BASELINE = 66, PROFILE_MAIN = 77, PROFILE_

用python登入WeChat 實現自動回覆(非常詳細)

如要轉載麻煩備註好原文出處！！！最近實現了一些微信的簡單玩法我們可以通過網頁版的微信微信網頁版，掃碼登入後去抓包爬取資訊，還可以post去傳送資訊。》》安裝itchat這個庫 pip install itchat 先

一個非常詳細測試上傳的姿勢

類型原理失望 php src dst gpa 小寫普通【情況】上傳點界面：這個上傳點只有一個界面，且上傳後會自動刪除。成功突破會返回一串秘鑰。上傳點抓包界面如下：上傳一個普通圖片，返回路徑upload/20160226222154_920.jpg可以看到，整個上傳包

Spring Bean的生命周期（非常詳細）(轉載)

res 包含初始 ini 文件 roc arc strac www Spring作為當前Java最流行、最強大的輕量級框架，受到了程序員的熱烈歡迎。準確的了解Spring Bean的生命周期是非常必要的。我們通常使用ApplicationContext作為Spring容

【轉】讓你不再害怕指針——C指針詳解(經典,非常詳細)

有一個情況 value 第一個字符接下來意思 strcpy abcdefg 數值前言:復雜類型說明要了解指針,多多少少會出現一些比較復雜的類型,所以我先介紹一下如何完全理解一個復雜類型,要理解復雜類型其實很簡單,一個類型裏會出現很多運算符,他們也像普通的表

讓你不再害怕指針——C指針詳解(經典,非常詳細)

[0 返回 hello spa 程序 string 和數過程建議 http://blog.csdn.net/soonfly/article/details/51131141 前言:復雜類型說明要了解指針,多多少少會出現一些比較復雜的類型,所以我先介紹一下如何完

python 隨機數詳細使用，推到以及字符串，雙色球小程序

pla import start 數組更改 b+ 導入 remove 替換字符 #隨機數的使用import random #導入randomrandom.randint(0,9)#制定隨機數0到9i=random.sample(range(1,34),6)#輸出6個隨機數

IntelliJ IDEA 下的svn配置及使用的非常詳細的圖文總結

產生而且 details 系統 jsp 有變 pom art hang 首先，使用的時候，自己得先在電腦上安裝個小烏龜。也就是svn啦。第一步安裝小烏龜。如下：具體安裝好像沒什麽具體要求，一路next，就好。如上圖箭頭所示，在安裝 TortoiseSVN 的時候，默認 c

Pycharm及python安裝詳細教程

nbsp exe www. center project 完成查詢 win window 首先我們來安裝python 1、首先進入網站下載：點擊打開鏈接（或自己輸入網址https://www.python.org/downloads/），進入之後如下圖，選擇圖中紅色圈中區

Caffe初學者第一部：Ubuntu14.04上安裝caffe(CPU）+Python的詳細過程 (親測成功, 20180524更新)

cython ase n-n 4.5 ipython 下載速度 nds evel CI 前言: 最近在學習深度學習，最先要解決的當然是開源框架的環境安裝了。之前一直在學習谷歌的Tensorflow開源框架，最近實驗中需要跟別人的算法比較，下載的別人的代碼很多都是Caffe的

非常詳細的Docker極速賽車平臺搭建教程

模式 image 輕量都是內部賽車主機新的虛擬一、Docker 極速賽車平臺搭建簡介 Docker 兩個主要部件：企娥:217 1793 408 Docker: 開源的容器虛擬化平臺Docker Hub: 用於分享、管理 Docker 容器的 Docker

年薪500萬Python工程師進階之道：Python就業詳細信息？

image 建議假設他會有一個北京詳細信息 process 字符信息這是Python程序員或程序員總結the5fire，零門檻的方法進入初級，初級到中級，中級到高級。僅供參考前言在小組結束時，基於這個問題，我不喜歡最基本的問題，那就是比較大腦的無情來解決

jadx反編譯—下載和使用（傻瓜教程，非常詳細）

一、在GitHub上直接下載 https://github.com/skylot/jadx 可以下這個版本：二、執行圖形化介面 1、將zip檔案解壓後定位到在lib資料夾中，在此處開啟命令列 2、執行jadx-gui-0.7.1.jar（前提是已經裝好了JDK1

Python安裝詳細步驟

Python-2.7.15,安裝步驟執行環境：win7 專業版 + python-2.7.15 下載地址: https://www.python.org/downloads/release/python-2715/ (選擇對應系統的版本等這裡我下載的：python-

用SVN遷移程式碼並在pycharm中進行程式碼提交的詳細配置

SVN 程式碼的遷移與提交文章目錄 SVN 程式碼的遷移與提交 1.簽出原始碼到本機 2. 文件的修改 3.pycham中svn配置 1.簽出原始碼

Python的詳細安裝步驟二—— Linux 環境

二、Linux 升級 Python Linux 作業系統本身自帶安裝 Python，不過一般都是 2.x 版本的，2.x 和 3.x 是互不相容的。以下是在 CentOS 中安裝 Python 3.6.5 的過程。 1.下載 1）進入官網，選擇 Downloads，然後選擇 Source

Adaboost底層程式碼(python)——非常詳細

相關推薦