統計學習方法_AdaBoost演算法實現

阿新 • • 發佈：2018-12-19

這裡用的是二值化的MNIST，同時將特徵的值也二值化了。書上舉的例子特徵只有一維，但大多數情況下特徵不會只有一維，這裡每次都會遍歷最優切分特徵和最優切分點，弱分類器選擇最簡單的閾值分類器，對於每個弱分類器都有與其對應的切分特徵和切分點，在預測的時候將預測資料也只使用需要的特徵值即可。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import time
import math
import logging

import numpy as np
import pandas as pd
import pandas as pd

from sklearn.cross_validation import train_test_split

class Sign(object):
	'''
		閾值分類器
		有兩種方向，
		1) x<v y=1
		2) x>v y=1
		因為這裡的MNIST資料集已經二值化，所以v只有三個取值：{0,1,2}
	'''
	def __init__(self, features, labels, w):
		self.X = features  # 訓練集，只有一個特徵
		self.Y = labels
		self.N = len(labels)

		self.w = w  # 訓練集的權值分佈

		self.indexes = [0, 1, 2]  # v可取的值

	def train_less_than(self):
		'''
			尋找最優切分點v
			且尋找的是(x<v y=1)的最優切分點
		'''
		index = -1
		error_score = 1000000

		for i in self.indexes:  # 遍歷所有切分點
			score = 0
			for j in range(self.N):  # 遍歷所有特徵值
				val = -1
				if self.X[j] < i:  # train_less_than函式假設的是小於v標籤為1
					val = 1  # val為分類器的預測值
				if val * self.Y[j] < 0:  # 被誤分類，所以加上權重
					score += self.w[j]
			if score < error_score:
				index = i
				error_score = score
		return index, error_score

	def train_more_than(self):
		'''
			尋找(x>v y=1)的最優切分點
		'''
		index = -1
		error_score = 1000000

		for i in self.indexes:
			score = 0
			for j in range(self.N):
				val = 1
				if self.X[j] < i:
					val = -1
				if val * self.Y[j] < 0:
					score += self.w[j]
			if score < error_score:
				index = i
				error_score = score
		return index, error_score

	def train(self):
		less_index, less_score = self.train_less_than()
		more_index, more_score = self.train_more_than()

		if less_score < more_score:
			self.is_less = True
			self.index = less_index
			return less_score
		else:
			self.is_less = False
			self.index = more_index
			return more_score

	def predict(self, feature):
		if self.is_less:
			if feature < self.index:
				return 1.0
			else:
				return -1.0
		else:
			if feature > self.index:
				return 1.0
			else:
				return -1.0

class AdaBoost(object):
	def __init__(self):
		pass

	def init_parameters(self, features, labels):
		self.X = features
		self.Y = labels

		self.n = features.shape[1]  # 特徵數
		self.N = features.shape[0]  # 訓練集大小
		self.M = 10  # 分類器數目

		self.w = [1.0 / self.N] * self.N  # 訓練集的權值
		self.alpha = []  # 分類器的權重
		self.classifier = []  # (特徵下標，分類器)，針對當前特徵的分類器

	def _w(self, index, classifier, i):
		'''
			公式(8.4)，但不包括規範化因子Z
			index是指當前弱分類器所選取的最優特徵，用來計算弱分類器預測值的
		'''
		return self.w[i] * math.exp(-self.alpha[-1] * self.Y[i] * classifier.predict(self.X[i][index]))

	def Z(self, index, classifier):
		'''
			公式(8.5)
		'''
		Z = 0
		for i in range(self.N):
			Z += self._w(index, classifier, i)
		return Z

	def train(self, features, labels):
		self.init_parameters(features, labels)

		for iteration in range(self.M):  # 每次迭代選出最優的特徵和分類器
			logging.debug('iteration %d' % iteration)

			# (誤差率，針對的特徵，分類器)
			best_classifier = (100000, None, None)
			for i in range(self.n):  # 尋找最優特徵
				features = list(map(lambda x: x[i], self.X))  # 獲得這個特徵下所有特徵值
				classifier = Sign(features, self.Y, self.w)
				error_score = classifier.train()

				if error_score < best_classifier[0]:
					best_classifier = (error_score, i, classifier)

		em = best_classifier[0]  # 最優分類誤差率
		if em == 0:
			self.alpha.append(100)
		else:
			self.alpha.append(0.5 * math.log((1 - em) / em))

		self.classifier.append(best_classifier[1:])

		Z = self.Z(best_classifier[1], best_classifier[2])

		# 計算新的訓練集權值分佈，(8.4)
		for i in range(self.N):
			self.w[i] = self._w(best_classifier[1], best_classifier[2], i) / Z

	def _predict(self, feature):
		result = 0.0
		for i in range(self.M):  # 遍歷弱分類器
			index = self.classifier[i][0]  # 獲取特徵下標
			classifier = self.classifier[i][1]  # 獲取弱分類器

			result += self.alpha[i] * classifier.predict(feature[index])

		if result > 0:
			return 1
		else:
			return -1

	def predict(self, features):
		results = []
		for feature in features:
			results.append(self._predict(feature))
		return results

# 將圖片二值化
def binaryzation(image):
    cv_img = []
    for i in image:
        if i > 0:
            cv_img.append(1)
        else:
            cv_img.append(0)
    return np.array(cv_img)

def binaryzation_features(train_set):
	features = []

	for img in train_set:
		img = binaryzation(img)
		features.append(img)

	features = np.array(features)
	features = features.reshape(-1, 784)
	return features

if __name__ == '__main__':
	logger = logging.getLogger()
	logger.setLevel(logging.DEBUG)

	print('Start reading data:')
	time1 = time.time()

	raw_data = pd.read_csv('data/train_binary.csv', header=0)
	data = raw_data.values

	imgs = data[:, 1:]
	labels = data[:, 0]

	# 首先將圖片二值化
	features = binaryzation_features(imgs)
	# 1/2訓練集，1/2測試集
	train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size=0.5, random_state=0)

	print(train_features.shape)

	time2 = time.time()
	print('read data cost %f seconds' % (time2 - time1))

	print('Start training:')
	# 將標籤轉化為1和-1，將lambda函式作用於train_labels
	# Python3 map返回迭代器物件，所以要外加list()
	train_labels = list(map(lambda x: 2 * x - 1, train_labels))
	ada = AdaBoost()
	ada.train(train_features, train_labels)
	time3 = time.time()
	print('training cost %f seconds' % (time3 - time2))

	print('Start predicting:')
	test_predict = ada.predict(test_features)
	time4 = time.time()
	print('predicting cost %f seconds' % (time4 - time3))

	# 測試集標籤也要轉化為1和-1
	test_labels = map(lambda x: 2 * x - 1, test_labels)
	accuracy = sum([test_labels[i] == test_predict[i] for i in range(len(test_labels))]) / len(test_labels)
	print("The accuracy is %f!" % accuracy)

'''
output:
Start reading data:
(21000, 784)
read data cost 17.040476 seconds
Start training:
DEBUG:root:iteration 0
DEBUG:root:iteration 1
...（執行時間過長，最終正確率可達98%以上）
'''

統計學習方法_AdaBoost演算法實現

這裡用的是二值化的MNIST，同時將特徵的值也二值化了。書上舉的例子特徵只有一維，但大多數情況下特徵不會只有一維，這裡每次都會遍歷最優切分特徵和最優切分點，弱分類器選擇最簡單的閾值分類器，對於每個弱分類器都有與其對應的切分特徵和切分點，在預測的時候將預測資料也只使用需要的特徵

《統計學習方法》+樸素貝葉斯演算法+C++程式碼（簡單）實現

首先，學習樸素貝葉斯演算法得了解一些基本知識，比如全概率公式和貝葉斯公式，這些知識隨便找一本書或者在網上都能夠獲得。在此，這裡僅關注貝葉斯演算法本身，以及其具體的實現（以例4.1的例子為參考）。貝葉斯演算法：程式設計實現以上演算法，

《李航：統計學習方法》--- K近鄰演算法(KNN)原理與簡單實現

k近鄰演算法簡單，直觀：給定一個訓練資料集，對新的輸入例項，在訓練集中找到與該例項最鄰近的k個例項，這k個例項的多數屬於某個類，就把該輸入例項分為這個類。如上圖所示，藍色正方形表示一個類別，紅色三角形表示另一個類別，綠色圓圈表示待分類的樣本。按照KNN演

《李航：統計學習方法》--- 感知機演算法原理與實現

感知機模型感知機是一個二類分類的線性分類模型。所謂二類分類就是它只能將例項分為正類和負類兩個類別。那麼為什麼是線性分類模型呢，我的理解是感知機學習旨在求出可以將資料進行劃分的分離超平面，而分離超平面的方程 w⋅x+b=0 為線性方程，所以感知機為線性分類模型

統計學習方法筆記9—EM演算法2

9.2 EM演算法的收斂性收斂定理9.1 觀測資料的似然函式單調遞增收斂定理9.2 EM演算法是收斂性包含對數似然函式序列的收斂性和關於引數估計序列的收斂性，即一定可以通過迭代發現似然函式的極值點。 9.3 EM演算法在高斯混合模型學習中的應用 9.3.1 高

【統計學習方法-李航-筆記總結】九、EM(Expectation Maximization期望極大演算法)演算法及其推廣

本文是李航老師《統計學習方法》第九章的筆記，歡迎大佬巨佬們交流。主要參考部落格: https://www.cnblogs.com/YongSun/p/4767517.html https://blog.csdn.net/u010626937/article/details/751160

[Python-程式碼實現]統計學習方法之感知機模型

內容簡介感知機模型 - 手寫 Coding 使用手寫模型進行鳶尾花分類使用 sklearn 中的感知機進行鳶尾花分類感知機模型 - 手寫 Coding class Model: """感知機模型""" def __init__(s

李航統計學習方法之樸素貝葉斯法（含python及tensorflow實現）

樸素貝葉斯法樸素貝葉斯法數學表示式後驗概率最大化的含義樸素貝葉斯是一個生成模型。有一個強假設：條件獨立性。我們先看下樸素貝葉斯法的思想，然後看下條件獨立性具體數學表示式是什麼樣的。

統計學習方法ｃ++實現之一　感知機

感知機前言最近學習了c++，俗話說‘光說不練假把式’，所以決定用c++將《統計學習方法》裡面的經典模型全部實現一下，程式碼在這裡，請大家多多指教。感知機雖然簡單，但是他可以為學習其他模型提供基礎，現在先簡單回顧一下基礎知識。感知機模型上圖就是簡單的感知機模型，其中$f$ 我們一般取

統計學習方法_支援向量機SVM實現

由於在MNIST上執行SVM耗時過久，所以這裡使用了偽造的資料集，並使用線性核和多項式核進行實驗。 #!/usr/bin/env python3and # -*- coding: utf-8 -*- import time import random import log

（轉載）李航博士的統計學習方法的python程式碼實現及資料下載

《統計學習方法》可以說是機器學習的入門寶典，許多機器學習培訓班、網際網路企業的面試、筆試題目，很多都參考這本書。本站根據網上資料用Python復現了課程內容，並提供本書的程式碼實現、課件下載。《統計學習方法》，作者李航，本書全面系統地介紹了統計學習的主要方法，特別是監督學習方法，包括感

統計學習方法筆記（一）：K近鄰法的實現：kd樹

實現k近鄰演算法時，首要考慮的問題是如何對訓練資料進行快速的k近鄰搜尋。這點在特徵空間的維數大於訓練資料容量時尤為重要。構造kd樹 kd 樹是一種對k為空間中的例項點進行儲存的一邊對其進行快速檢索的樹形資料結構。kd樹是二叉樹，表示對k維空間的一個劃分（parti

統計學習方法ｃ++實現之二　k近鄰法

統計學習方法ｃ++實現之二 k近鄰演算法前言 k近鄰演算法可以說概念上很簡單，即：“給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與這個例項最鄰近的k個例項，這k個例項的多數屬於某個類，就把該輸入分為這個類。”其中我認為距離度量最關鍵，但是距離度量的方法也很簡單，最長用的就是歐氏距離，其他的距離

統計學習方法_隱馬爾可夫模型HMM實現

這裡用到的資料集是三角波，使用長度20的序列訓練100次，生成長度為100的序列。HMM的初始化非常重要，這裡採用隨機初始化。 #!/usr/bin/env python3 # -*- coding: utf-8 -*- import csv import random

統計學習方法ｃ++實現之三　樸素貝葉斯法

樸素貝葉斯法前言樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法，這與我們生活中判斷一件事情的邏輯有點類似，樸素貝葉斯法的核心是引數的估計，在這之前，先來看一下如何用樸素貝葉斯法分類。程式碼地址https://github.com/bBobxx/statistical-learning,歡

資源下載| 機器學習經典書籍《統計學習方法》(Python3.6)程式碼實現(及課件)

本文來自GitHub黃海廣《統計學習方法》可以說是機器學習的入門寶典，許多機器學習培訓班、網際網路企業的面試、筆試題目，很多都參考這本書。本站根據網上資料用Python復現了課程內容，並提供本書的程式碼實現、課件下載。《統計學習方法》，作者李航，本書全面系統地介紹了統計學習的主要方法，特

《統計學習方法》筆記——樸素貝葉斯演算法

樸素貝葉斯演算法概述樸素貝葉斯（naive Bayes）法是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的訓練資料集，首先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈；然後基於此模型，對於給定的輸入x，利用貝葉斯定理求出後驗概率最大的輸出y。

《統計學習方法》樸素貝葉斯極大使然估計 Python實現

程式碼可在Github上下載:程式碼下載今天看了一下《統計學習方法》的樸素貝葉斯的演算法，然後結合參考了《機器學習實戰》一些程式碼。用Python實現了一下例4.1。實現的是P50頁的例4.1，先簡單說下公式。 $$y=argmax_{y_k}{P(Y=y_k)\p

演算法工程師修仙之路：李航統計學習方法（一）

第1章統計學習方法概論統計學習統計學習的特點統計學習（statistical learning）是關於計算機基於資料構建概率統計模型並運用模型對資料進行預測與分析的一門學科，統計學習也稱為統計機器學習（statistical machine learnin

第1章統計學習方法概論(LeastSquaresMethod)程式碼實現

上一篇：【目錄】====== 【回到目錄】====== 下一篇：【第一章課後習題參考解答】 import numpy as np from scipy.optimize import leastsq import matplot

統計學習方法_AdaBoost演算法實現

相關推薦