機器學習演算法原理解析——整合

阿新 • • 發佈：2018-11-09

1. 整合學習（Ensemble learning）

基本思想：讓機器學習效果更好，如果單個分類器表現的很好，那麼為什麼不適用多個分類器呢？

通過整合學習可以提高整體的泛化能力，但是這種提高是有條件的：

（1）分類器之間應該有差異性；
（2）每個分類器的精度必須大於0.5；

如果使用的分類器沒有差異，那麼整合起來的分類結果是沒有變化的。如下圖所示，分類器的精度p<0.5，隨著整合規模的增加，分類精度不斷下降；如果精度大於p>0.5，那麼最終分類精度可以趨向於1.

接下來需要解決的問題是如何獲取多個獨立的分類器呢？

我們首先想到的是用不同的機器學習演算法訓練模型，比如決策樹、KNN、神經網路、梯度下降、貝葉斯等等，但是這些分類器並不是獨立的，它們會犯相同的錯誤，因為許多分類器是線性模型，它們最終的投票不會改進模型的預測結果。

既然不同的分類器不適用，那麼可以嘗試將資料分成幾部分，每個部分的資料訓練一個模型。這樣做的優點是不容易出現過擬合，缺點是資料量不足導致訓練出來的模型泛化能力較差。

下面介紹三種比較實用的方法Bagging、Boosting和Stacking。

分類器間存在強依賴關係，必須序列生成的序列化方法，代表為Boosting；
分類器間不存在強依賴關係，可同時生成的並行化方法，代表為Bagging；

1.1 Bagging演算法（自舉匯聚法）

1.1.1 概述

全稱：boostrap aggregation（說白了就是並行訓練一堆分類器）

簡述：訓練多個分類器取平均

Bagging是通過組合隨機生成的訓練集而改進分類的整合演算法，是並行式整合學習最著名的代表。

Bagging演算法最典型的代表就是隨機森林，如下圖所示。隨機森林，隨機指資料取樣隨機、特徵選擇隨機，森林指：很多個決策樹並行放在一起。

Bagging基本流程：

取樣出T個含m個訓練樣本的取樣集Tree-n（n=1、2、3...n），採用自助取樣法：給定包含m個樣本的資料集Tree-n（n=1、2、3...n），我們先隨機取出一個樣本放入取樣集中，再把該樣本放回初始資料集，使得下次取樣時該樣本仍有可能被選中，這樣經過m次隨機取樣操作，我們得到含有m個樣本的取樣集，初始樣本集有的樣本在取樣集裡面出現多次，有的則從未出現。初始訓練集中約有63.2%的樣本出現在取樣集中。重複操作，得到T個含m個訓練樣本的取樣集Tree-n（n=1、2、3...n）；

基於每個取樣集Tree-n（n=1、2、3...n）訓練出一個基學習器Class-n（n=1、2、3、4...n）；
將這些基學習器進行結合（分類任務使用簡單投票，迴歸任務使用簡單平均法）。

1.1.2 隨機森林優勢

它能夠處理很高緯度（feature很多）的資料，並且不用做特徵選擇；
在訓練完後，它能夠給出哪些feature比較重要；
容易做成並行化方法，速度比較快；
可以進行視覺化展示，便於分析。

1.1.3 模型

KNN模型：KNN就不太適合，因為很難去隨機讓泛化能力變強！
樹模型：理論上越多的樹效果會越好，但實際上基本超過一定數量就差不多上下浮動了。

1.2 Boosting演算法（提升法）

簡述：從弱學習期開始加強，通過加權來進行訓練

Boosting演算法是一種可將弱學習演算法提升成強學習器的演算法。基本思想：不同的訓練集是通過調整每個樣本對應的權重實現的，不同的權重對應不同的樣本分佈，而這個權重為分類器不斷增加對錯分樣本的重視程度。

Boosting演算法的工作機制類似：

首先賦予每個訓練樣本相同的初始化權重，在此訓練樣本分佈下訓練出一個弱分類器；
利用該弱分類器的表現對每個訓練樣本的權重進行調整，分類錯誤的樣本認為是分類困難樣本，權重增加，反之權重降低，得到一個新的樣本分佈；
基於調整後的新樣本分佈下再訓練一個新的弱分類器，並且更新樣本權重，重複以上過程T次，得到T個弱分類器，最終將這T個弱分類器進行加權結合。

Boosting演算法原理圖：

Boosting演算法典型代表：AdaBoost、Xgboost。AdaBoost演算法特點如下：

每次迭代改變的是訓練樣本的分佈，而不是重複取樣；
樣本分佈的改變取決於樣本是否被正確分類，是分類正確的樣本權值低，還是分類錯誤的樣本權值高（通常是邊界附近的樣本）；
最終的結果是弱分類器（基分類器）的加權組合，權值表示該弱分類器的效能；

下面我們舉一個簡單的例子來看看AdaBoost的實現過程：

圖中，“+”和“-”分別表示兩種類別，在這個過程中，使用水平或者垂直的直線作為分類器。

第一步：根據分類的正確率，得到一個新的樣本分佈D2，一個子分類器h1，其中畫圈的樣本表示被分錯的，在右邊的圖中，比較大的“+”表示對該樣本做了加權；

圖中的ε1=0.3，表示的是錯誤率；α1=0.42，表示該分類器的權重，α1=1/2*ln(1- ε1/ ε1)

第二步：根據分類正確率，得到一個新的樣本分佈D3，一個子分類器h2；

第三步：得到一個子分類器h3；

第四步：整合所有的子分類器；

因此，可以得到整合的結果，從結果中看，即使簡單的分類器，組合起來也能獲得很好的分類效果。

AdaBoost演算法的兩個特性：（1）訓練錯誤率的上界，隨著迭代次數的增加，會逐漸下降；（2）即使訓練次數很多，也不會出現過擬合現象

AdaBoost的演算法流程如下：

步驟1. 首先，初始化資料的權值分佈，每一個訓練樣本最開始時都被賦予相同的權值：1/N

步驟2. 進行多輪迭代，用m=1,2,...M表示迭代的第多少輪

(a) 使用具有權值分佈Dm的訓練資料集學習，得到基本分類器（選取讓誤差率最低的閥值來設計基本分類器）：

(b) 計算Gm(x)在訓練資料集上的分類誤差率

由上述式子可知，Gm(x)在訓練資料集上的分類誤差率em就是被Gm(x)誤分類樣本的權值之和。

(c) 計算Gm(x)的係數，am表示Gm(x)在最終分類器中重要程度（目的：得到基本分類器在最終分類器中所佔的比重）：

由上述式子可知，em<=1/2時，am>=0，且am隨著em的減小而增大，意味著分類誤差率越小的基本分類器在最終分類器中的作用越大。

(d) 更新訓練資料集的權值分佈（目的：得到樣本的新的權值分佈），用於下一輪迭代

使得被基本分類器Gm(x)誤分類樣本的權值增大，而被正確分類樣本的權值減小。就這樣，通過這樣的方式，AdaBoost方法能“重點關注”或“聚焦”於那些較難分的樣本上。其中yi={+1,-1}，Zm是規範化因子，使得Dm+1成為一個概率分佈。

步驟3. 組合各個弱分類器

從而得到最終分類器，如下：

注：從偏差-方差分解的角度來看，Boosting主要關注降低偏差，因此Boosting能基於泛化能力相當弱的學習器構建出很強的整合。

1.3 Stacking演算法（瞭解即可）

簡述：聚合多個分類或迴歸模型（可以分階段來做）

堆疊：很暴力，拿來一堆直接上（各種分類器都來了），可以堆疊各種各樣的分類器（KNN，SVM，RF等等）

分階段：第一階段得出各自結果，第二階段再用前一階段結果訓練

堆疊在一起確實能使得準確率提升，但是速度是個問題。

參考資料：

https://www.cnblogs.com/sddai/p/7647731.html

https://www.cnblogs.com/rgly/p/6519744.html

機器學習演算法原理解析——整合

1. 整合學習（Ensemble learning）基本思想：讓機器學習效果更好，如果單個分類器表現的很好，那麼為什麼不適用多個分類器呢？通過整合學習可以提高整體的泛化能力，但是這種提高是有條件的：（1）分類器之間應該有差異性；（2）每個分類器的精度必須大於0.5；如

轉:機器學習演算法原理解析 - 分類

轉：http://www.cnblogs.com/swordfall/p/9517988.html 常見分類模型與演算法距離判別法，即最近鄰演算法KNN；貝葉斯分類器；線性判別法，即邏輯迴歸演算法；決策樹；支援向量機；神經網路； 1. KNN分類演算法

機器學習演算法實現解析——liblbfgs之L-BFGS演算法

在博文“優化演算法——擬牛頓法之L-BFGS演算法”中，已經對L-BFGS的演算法原理做了詳細的介紹，本文主要就開原始碼liblbfgs重新回顧L-BFGS的演算法原理以及具體的實現過程，在L-BFGS演算法中包含了處理L1正則的OWL-QN演算法，對於OWL-QN演算法的詳細原理，可以參見

機器學習演算法原理與程式設計實踐程式碼下載地址

@rover這個是C++模板 --胡滿超 stack<Postion> path__;這個裡面 ”<> “符號是什麼意思？我在C++語言裡面沒見過呢？初學者，大神勿噴。

機器學習演算法原理總結系列---演算法基礎之(13)模糊C均值聚類（Fuzzy C-means Clustering）

筆者在韓國Chonnam National University攻讀碩士學位，FCM演算法是professer Lim在這學期主要授課的內容，他說他剛發一篇FCM結合遺傳演算法還有各種腦電訊號處理，搭建分析AD病人的EEG訊號的計算智慧模型。反正就是各種難

機器學習演算法原理總結系列---演算法基礎之(11)聚類K均值(Clustering K-means）

一、原理詳解歸類：聚類(clustering) 屬於非監督學習 (unsupervised learning) 無類別標記(class label) 舉例： K-means 演算法： 3.1 Clustering 中

中文文字分類（機器學習演算法原理與程式設計實踐筆記）

以文字分類演算法為中心，詳細介紹一箇中文文字分類專案的流程及相關知識，知識點涉及中文分詞、向量空間模型、TF-IDF方法、幾個典型的文字分類演算法；主要有樸素貝葉斯演算法，kNN最近鄰演算法。所用到的外部庫：jieba 分詞、Scikit-Learning

《機器學習演算法原理與程式設計實踐》筆記

在這裡記錄一下看《機器學習演算法原理與程式設計實踐》這本書的一些東東。第一章數學基礎第二章中文文字分類由於書上用的是Python2，而我安裝的Anaconda是Python3，所以在程式碼方面有一些差異，有的甚至不

機器學習演算法原理與實踐（三）、卡爾曼濾波器演算法淺析及matlab實戰

卡爾曼濾波器是一種利用線性系統狀態方程，通過系統輸入輸出觀測資料，對系統狀態進行最優估計的演算法。而且由於觀測包含系統的噪聲和干擾的影響，所以最優估計也可看做是濾波過程。卡爾曼濾波器的核心

機器學習演算法原理與實踐（六）、感知機演算法

感知機感知機是二分類的線性分類模型，輸入為例項的特徵向量，輸出為例項的類別（取+1和-1）。感知機對應於輸入空間中將例項劃分為兩類的分離超平面。感知機旨在求出該超平面，為求得超平面匯入了基於誤分類的損失函式，利用梯度下降法對損失函式進行最優化（最優

機器學習演算法的基本原理-附Python和R語言程式碼

轉自：https://www.ziiai.com/blog/706 原文：https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/ 一般來說，有3種類型的機器學習演算法 1.監督學習

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [11] 整合學習

本篇內容為西瓜書第 8 章整合學習 8.1 8.2 8.3 8.4 8.5 的內容： 8.1 個體與整合 8.2 Boosting 8.3 Bagging與隨機森林 8.4 結合策略 8.5 多樣性如移動端無法正常顯示文中的公式，右上角跳至網頁即可正常閱讀。

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [12] 整合學習實踐

本篇內容為《機器學習實戰》第 7 章利用 AdaBoost 元演算法提高分類效能程式清單。所用程式碼為 python3。 AdaBoost優點：泛化錯誤率低，易編碼，可以應用在大部分分類器上，無引數調整。缺點：對離群點敏感。適用資料型別：數值型和標稱型資料。 bo

機器學習演算法--整合學習2--AdaBoost

以《機器學習實戰為例》程式設計實現AdaBoost演算法。 1.AdaBoost演算法原理 Boosting演算法主要基於多個弱學習器來構建強學習器，最終結果由多個弱學習器的加權平均決定，每個基學習器的權重並不相同，每個權重代表對應分類器在上一輪的迭代中成功度。訓練中

機器學習筆記之八—— knn-最簡單的機器學習演算法以及KD樹原理

上一節結束了線性迴歸、邏輯迴歸，今天一節來介紹機器學習中最簡單的演算法： K近鄰（KNN，全稱K-nearst Neighbor）概述：判斷一個樣本的label只需要判斷該樣本週圍其他樣本的label。簡言之，朋

【面試複習系列】常用機器學習演算法知識點及其解析，面試官會考的幾乎都有，歡迎補充

圖片慢慢上傳，看不到圖片的請點這裡： LR：logistic regression 對數機率迴歸/邏輯迴歸 sigmoid函式的作用就是用於把輸出歸一到1和0，也就

Spark MLlib 機器學習演算法與原始碼解析（網路課程—第一期）

《Spark MLlib 機器學習演算法與原始碼解析》spark是一個開源叢集運算框架，最初是由加州大學柏克利分校AMPLab所開發。Spark使用了記憶體內運算技術，在記憶體上的運算速度比Hadoop

機器學習演算法-K最近鄰從原理到實現（Python）

本來這篇文章是5月份寫的，今天修改了一下內容，就成今天發表的了，CSDN這是出BUG了還是什麼改規則了。。。引文：決策樹和基於規則的分類器都是積極學習方法（eager learner）的例子，因為一旦訓練資料可用，他們就開始學習從輸入屬性到類標號的對映模型。

從整合方法到神經網路：自動駕駛技術中的機器學習演算法有哪些？

來源：機器之心編譯：Lj Linjing、蔣思源物聯網智庫原創轉載請註明來源和出處 ------ 【導讀】------ 機器學習演算法可以融合來自車體內外不同感測器的資料，從而評估駕駛員狀況或者對駕駛場景進行分類。本文將粗略講解一下各類用於自動駕駛技術的演算法。如今，機器

機器學習數學原理（4）——樸素貝葉斯演算法

機器學習數學原理（4）——樸素貝葉斯模型樸素貝葉斯模型（Naive Bayes Model），是一種基於貝葉斯定理與特徵條件獨立假設的分類方法，與決策樹模型（Decision Tree Model）同為目前使用最廣泛的分類模型之一，在各個領域都有廣泛的應用，例如我們經常會用到的垃圾