機器學習知識點(十六)整合學習AdaBoost演算法Java實現

阿新 • • 發佈：2019-01-05

理解http://blog.csdn.net/fjssharpsword/article/details/61913092中AdaBoost演算法，從網上找了一套簡單的程式碼加以理解。

1、基分類器，實現一個簡單的分類

1）物件類

package sk.adaboost;

public class Instance {

	public double[] dim;	//各個維度值
	public int label;		//類別標號
	
	public Instance(double[] dim, int label) {
		this.dim = dim;
		this.label = label;
	}
}

2）介面類

package sk.adaboost;

public abstract class Classifier {

	public double errorRate;
	public int errorNumber;
	
	public abstract int classify(Instance instance) ;

}

3）基學習器演算法

package sk.adaboost;

public class SimpleClassifier extends Classifier{

	double threshold ;	//分類的閾值
	int dimNum;			//對哪個維度分類
	int fuhao = 1;		//對閾值兩邊的處理
	
	public int classify(Instance instance) {
		
		if(instance.dim[dimNum] >= threshold) {
			return fuhao;
		}else {
			return -fuhao;
		}
	}
	
	/**
	 * 訓練出threshold和fuhao
	 * @param instances
	 * @param W 樣例的權重
	 * @param dim 對樣例的哪個維度進行訓練
	 */
	public void train(Instance[] instances, double[] W, int dimNum) {
		
		errorRate = Double.MAX_VALUE;
		this.dimNum = dimNum;
		double adaThreshold = 0;
		int adaFuhao = 0;
		for(Instance instance : instances) {
			threshold = instance.dim[dimNum];
			for(int fuhaoIt = 0; fuhaoIt < 2; fuhaoIt ++) {
				fuhao = -fuhao;
				double error = 0;
				int errorNum = 0;
				for(int i = 0; i< instances.length; i++) {
					if(classify(instances[i]) != instances[i].label) {
						error += W[i];
						errorNum++;
					}
				}
				if(errorRate > error){
					errorRate = error;
					errorNumber = errorNum;
					adaThreshold = threshold;
					adaFuhao = fuhao;
				}
			}
		}
		threshold = adaThreshold;
		fuhao = adaFuhao;
	}
}

4）adaboost整合學習演算法

package sk.adaboost;

import java.util.ArrayList;
import java.util.List;

public class Adaboost {

	Instance[] instances;
	List<Classifier> classifierList = null;	//各個弱分類器
	List<Double> alphaList = null;			//每個弱分類器的權重
	
	public Adaboost(Instance[] instances) {
		
		this.instances = instances;
	}
	
	public List<String> adaboost(int T) {//T個基學習器
		
		int len = this.instances.length;
		double[] W = new double[len];	//初始權重
		for(int i = 0; i < len; i ++) {
			W[i] = 1.0 / len;
		}
		classifierList = new ArrayList<Classifier>();
		alphaList = new ArrayList<Double>();
		List<String> iHP=new ArrayList<String>();
		for(int t = 0; t < T; t++) {//T輪
			Classifier cf = getMinErrorRateClassifier(W);
			classifierList.add(cf);
			double errorRate = cf.errorRate;
			//計算弱分類器的權重
			double alpha = 0.5 * Math.log((1 - errorRate) / errorRate);
			alphaList.add(alpha);
			//更新樣例的權重
			double z = 0;
			for(int i = 0; i < W.length; i++) {
				W[i] = W[i] * Math.exp(-alpha * instances[i].label * cf.classify(instances[i]));
				z += W[i];
			}
			for(int i = 0; i < W.length; i++) {//規範化因子
				W[i] /= z;
			}
			iHP.add(String.valueOf(getErrorCount()));//預測結果插入
		}
		return iHP;
	}
	
	private int getErrorCount() {
		
		int count = 0;
		for(Instance instance : instances) {
			if(predict(instance) != instance.label)
				count ++;
		}
		return count;
	}
	
	/**
	 * 預測
	 * @param instance
	 * @return
	 */
	public int predict(Instance instance) {
		
		double p = 0;
		for(int i = 0; i < classifierList.size(); i++) {
			p += classifierList.get(i).classify(instance) * alphaList.get(i);
		}
		if(p > 0) return 1;
		return -1;
	}

	/**
	 * 得到錯誤率最低的分類器
	 * @param W
	 * @return
	 */
	private Classifier getMinErrorRateClassifier(double[] W) {
		
		double errorRate = Double.MAX_VALUE;
		SimpleClassifier minErrorRateClassifier = null;
		int dimLength = instances[0].dim.length;
		for(int i = 0; i < dimLength; i++) {
			SimpleClassifier sc = new SimpleClassifier();
			sc.train(instances, W, i);//基學習器訓訓練
			if(errorRate > sc.errorRate){
				errorRate  = sc.errorRate;
				minErrorRateClassifier = sc;
			}
		}
		return minErrorRateClassifier;
	}
	
}

這裡面幾個重要步驟要清晰：public List<String> adaboost(int T)演算法中，先初始化權重然後開始T輪的基學習器演算法執行和權重更新，private Classifier getMinErrorRateClassifier(double[] W)開展基學習器訓練並返回錯誤率，返回的錯誤計算權重並更新分佈。

5）測試adaboost演算法，採用投票法的結合策略輸出整合學習預測結果

package sk.adaboost;

import java.util.List;

public class AdaboostTest {

public static void main(String[] args) {
		//模擬資料
		double[] ins1 = {0,3};
		double[] ins2 = {1,3};
		double[] ins3 = {2,3};
		double[] ins4 = {3,1};
		double[] ins5 = {4,1};
		double[] ins6 = {5,1};
		double[] ins7 = {6,3};
		double[] ins8 = {7,3};
		double[] ins9 = {8,0};
		double[] ins10 = {9,1};
		
		Instance instance1 = new Instance(ins1, 1);
		Instance instance2 = new Instance(ins2, 1);
		Instance instance3 = new Instance(ins3, 1);
		Instance instance4 = new Instance(ins4, -1);
		Instance instance5 = new Instance(ins5, -1);
		Instance instance6 = new Instance(ins6, -1);
		Instance instance7 = new Instance(ins7, 1);
		Instance instance8 = new Instance(ins8, 1);
		Instance instance9 = new Instance(ins9, 1);
		Instance instance10 = new Instance(ins10, -1);
		
		Instance[] instances = {instance1, instance2, instance3, instance4, instance5, instance6, instance7, instance8, instance9, instance10 };
		//整合學習，序列，基學習器之間存在強依賴關係
		Adaboost ab = new Adaboost(instances);
		List<String> iHP=ab.adaboost(10);
		//輸出預測結果，根據多數頭投票法的結合策略
		int pcount=0,ncount=0;
		for(String hp:iHP){
			if (hp.equals("1")) pcount++;//預測為正例的數字
			if (hp.equals("0")) ncount++;//預測為正例的數字
		}
		if (pcount>=ncount) System.out.println("1");
		else System.out.println("0");
	}
}

6）助於理解演算法本身，實際應用中基學習器可以換成其他演算法。

機器學習知識點(十六)整合學習AdaBoost演算法Java實現

理解http://blog.csdn.net/fjssharpsword/article/details/61913092中AdaBoost演算法，從網上找了一套簡單的程式碼加以理解。 1、基分類器，實現一個簡單的分類 1）物件類 package sk.adaboost;

機器學習知識點(三)方差和標準差Java實現

1、方差：方差是各個資料與平均數之差的平方的平均數。 2、標準差：標準差(Standard Deviation) 各資料偏離平均數的距離（離均差）的平均數，它是離差平方和平均後的方根。用σ表示。因

十進位制正整數轉十六進位制（Java實現）

import java.util.Scanner; /** *@Author wzy *@Date 2018年4月8日 *@Version JDK 1.8 *@Description Dem to Hex */ public class run {

六種常見排序演算法Java實現

一、氣泡排序氣泡排序實現簡單，但執行效率較慢。演算法思想是，設要排序的為陣列A中的元素，遍歷A.length-1次，每次找出待排序元素中最小的值放在相應位置，如：第一次遍歷陣列下標為A.length-1 到0的元素，將最小的值放在A[0]的位置，第二次遍歷

吳恩達機器學習（十六）機器學習流水線、上限分析

目錄 0. 前言 1. 流水線 2. 上限分析（Ceiling analysis）學習完吳恩達老師機器學習課程的照片OCR，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注

機器學習與深度學習系列連載：第二部分深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM）

深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM） RNN處理時間序列資料的時候，不僅可以正序，也可以正序+逆序（雙向）。下面顯示的RNN模型，不僅僅是simple RNN，可以是LSTM，或者GRU 1 B

機器學習（十六）電商O2O優惠券使用預測-2

介紹這篇文章是想繼續總結一遍優惠券預測，寫寫感受並進行一個記錄總結，零零散散以作為記錄整理之用。本篇是選了三點本人覺得專案中重要的寫了一下，其它內容暫時略過第一部分：資料清洗資料分析程式碼

機器學習筆記之十一——整合學習之Boosting及AdaBoosting

上一篇記述了Bagging的思維與應用： https://blog.csdn.net/qq_35946969/article/details/85045432 本篇記錄Boosting的思想與應用：AdaBoosting、GDBT（

機器學習（十六）無監督學習、聚類和KMeans聚類

無監督學習、聚類聚類是在樣本沒有標註的情況下，對樣本進行特徵提取並分類，屬於無監督學習的內容。有監督學習和無監督學習的區別就是需要分析處理的資料樣本是否事先已經標註。如下圖，左邊是有監督，右邊是無監督：應用場景也有所不同。無

機器學習知識點(十九)矩陣特徵值分解基礎知識及Java實現

1、特徵值分解基礎知識矩陣乘法Y=AB的數學意義在於變換，以其中一個向量A為中心，則B的作用主要是使A發生伸縮或旋轉變換。一個矩陣其實就是一個線性變換，因為一個矩陣乘以一個向量後得到的向量，其實就相當於將這個向量進行了線性變換。如果說一個向量v是方陣A的特徵向量，將一定

十大經典預測演算法六---整合學習（模型融合演算法）

模型融合演算法概念　　它不是具體的指某一個演算法，而是一種把多個弱模型融合合併在一起變成一個強模型的思想用模型融合演算法的原因　　1、單個模型容易過擬合，多個模型融合可以提高範化能力　　2、單個模型預測能力不高，多個模型往往能提高預測能力　　3、對於資料集過大或過小，可以分別進行劃分和有放

python機器學習案例系列教程——整合學習（Bagging、Boosting、隨機森林RF、AdaBoost、GBDT、xgboost）

可以通過聚集多個分類器的預測結果提高分類器的分類準確率，這一方法稱為整合（Ensemble）學習或分類器組合（Classifier Combination），該方法由訓練資料構建一組基分類器（Base Classifier），然後通過對每個基分類器的預測進行

FPGA機器學習之stanford機器學習第十六堂

Reinforcement Learning 強化學習。這裡舉例子是自主飛行的飛機。控制飛機，如果自主寫程式的話，會很難，所以需要它自學習。最好用的地方，就是下棋。不過，怎麼半監督學習演算

【機器學習入門二】整合學習及AdaBoost演算法的python實現

本文主要基於周志華老師的《機器學習》第八章內容個體與整合整合學習通過構建並結合多個學習器來完成學習任務。整合學習的一般結構如圖所示：先產生一組個體學習器，在用某種策略把它們結合在一起。個體學習器通常有一個現有的學習演算法從訓練資料產生，如決策

第十六周學習進度表

top 了解 align table 博客 wid tab val 左右第十六周學習進度表時間第十六周所花時間 10個小時左右代碼量 300行左右博客量 1篇了解到的知識點網頁版的顯示作業第

Java基礎學習筆記十六集合框架（二）

first 哈希 cat etag 基於 col 容器處的新元素 List List接口的特點: 它是一個元素存取有序的集合。例如，存元素的順序是11、22、33。那麽集合中，元素的存儲就是按照11、22、33的順序完成的。它是一個帶有索引的集合，通過索引就

【轉】 JMeter學習（十六）JMeter函數學習

blog 自動當前 3.2 add 函數的調用瀏覽器 con 保存 JMeter函數是一些能夠轉化在測試樹中取樣器或者其他配置元件的域的特殊值。一個函數的調用就像這樣：${_functionName(var1,var2,var3)}，-functionName匹配函數名

Linux學習（十六）VIM

etc es2017 移動進行 ges code inux nbsp 安裝一、簡介 VIM是vi的增強版。VIM是Linux平臺上的主要編輯器。基本上所有的文檔的新增，修改，保存都需要用到它。所以，掌握VIM是很有必要的。 vim的安裝非常簡單，一條命令就可以了： y

linux系統學習第十六天-<<工程師技術>>

linux工程師技術 linux管理員技術 linux雲計算運維深圳雲計算王森雲計算運維工程師虛擬機A 1. 將防火墻狀態設置為trusted 2.SELinux當前修改為permissive 3.SELinux永久狀態修改為permissive 4.清空Yu

第十六周學習筆記

class 文件 src post 日誌刪除 ast sql 十六本周的學習筆記主要關於MY SQL日誌 1.查詢日誌是否開啟 2.查看慢查詢日誌 3.查看二進制日誌 4.刪除所有二進制日誌文件 RESET MASTER; 5.只刪除部

機器學習知識點(十六)整合學習AdaBoost演算法Java實現

相關推薦