《整合學習：XGBoost, lightGBM》[1]

阿新 • • 發佈：2020-08-29

視訊選集

5/19

https://www.bilibili.com/video/BV1Ca4y1t7DS?p=6

對新手不要太實用

差別不是很大

決策在kaggle上的利器(二)

雍瓏庚自然語言處理愛好者

本文繼續接上一篇

05 整合學習簡介

整合學習是通過構建並組合多個學習器來完成學習任務的演算法整合學習常用的有兩類

Bagging：基學習器之間無強依賴關係，可同時生成的並行化方法

Boosting：基學習器之間存在強烈的依賴關係，必須序列生成基分類器的方法

Bagging (Bootstrap Aggregating）方法

let n be the number of boostrap samples

for i=1 to n do
 Draw boostrap samples of size m,D
 Train base classifier h on D

y = model(h_1(x),...h_n(x))

Boosting 方法是將“弱學習演算法”提升為“強學習演算法”的過程，通過反覆學習得到一系列弱分類器（決策樹和邏輯迴歸），組合這些弱分類器得到一個強分類器。Boosting 演算法要涉及到兩個部分，加法模型和前向分步演算法。

加法模型就是說強分類器由一系列弱分類器線性相加而成般組合形式如下

其中，l (x; am）是弱分類器，m 是弱分類器學習到的最優引數，m 是弱學習在強分類器中所佔比重，P 是所有 m 和βm 的組合。這些弱分類器線性相加組成強分類器

前向分步是在訓練過程中，下一輪迭代產生的分類器是在上輪的基礎上訓練得來的。即

06Bagging：隨機森林

隨機森林= bagging+決策樹

同時訓練多個決策樹，預測時綜合考慮多個結果進行預測，例如取多個節點的均值（迴歸），或者是眾數（分類）。

消除了決策樹容易過擬合的缺點
減小了預測的方差，預測值不會因訓練資料的小變化而劇烈變化

隨機性體現在兩點

從原來的訓練資料集隨機（帶放回 bootstrap）取一個子集作為森林中某一個決策樹的訓練資料集

每一次選擇分又的特徵時，限定為在隨機選擇的特徵的子集中尋找一個特徵。

隨機森林實踐

現有某公司的員工離職資料，我們通過構建決策樹和隨機森林來預測某一員工是否會離職。並找出影響員工離職的重要特徵

https://github.com/TuringEmmy/Bible/blob/dev/DecisionTree/DecisionTree.RandomForest.ipynb

07Boosting:Adaboost

Adaboostt 的理解

Adaboostl 的思想是將關注點放在被錯誤分類的樣本上，減小上一輪被正確分類的樣本權值提高被錯誤分類的樣本權值

Adaboost 採用加權投票的方法分類誤差小的弱分類器的權重大，而分類誤差大的弱分類器的權重小。

Adaboostt 的演算法流程

假設輸入訓練資料為

其中, 迭代次數即弱分類器個數為 M

初始化訓練樣本的權值分佈為

對於

a）使用具有權值分佈的訓練資料集進行學習，得到弱分類器

b) 計算在訓練資料集上的分類誤差率

c) 計算在強分類器中所佔的權重

(d）更新訓練資料集的權值分佈（這裡，是歸一化因子，為了使樣本的概率分佈和為 1)

得到最終的分類器為

Adaboost 的證明

假設經過 m-1 輪迭代，得到弱分類器 Fm-l (x），根據前向分佈，有：

AdaBoosth 的損失函式是指數損失，則有

因為是已知的，所以將其移到前面

其中:是每輪迭代的樣本權重，證明化簡如下：

繼續化簡loss

重寫Loss:

對求偏導，並令其為0，則有：

Adaboostt 的實踐

Adaboosti 可以看作是加法模型、損失函式為指數損失函式、學習演算法為前向分佈演算法時的二分類學習方法。接下來我們使用 s learnt 中 Ada Boost 的介面進行實踐：

sklearn-AdaBoostClassifier

class sklearn.ensemble.AdaBoostClassifier(base_estimator=None, *, n_estimators=50, learning_rate=1.0, algorithm='SAMME.R', random_state=None)[source]

這裡是本人打比賽開始接觸的bagging和boosting的整合學習方法，作為一個深度學習工程師，第一次感受到機器學習演算法在各大比賽上的優勢。

讓我們一起分享，共同成長，分享使我們在程式設計路上並不孤獨。快來掃描微信二維碼，與博主一起快樂學習吧！

編輯於 06-29

https://github.com/Yara-S/PyDS-Basics/blob/master/DecisionTree-RandomForest.ipynb

https://github.com/TuringEmmy/Bible/blob/dev/DecisionTree/DecisionTree.RandomForest.ipynb

筆記見：

https://zhuanlan.zhihu.com/p/151866177

《整合學習：XGBoost, lightGBM》[1]

《整合學習：XGBoost, lightGBM》[1] 視訊選集 5/19 P101.內容簡介 P202.分類樹-資訊熵_bilibili

吳裕雄--天生自然ANDROID開發學習：2.5.1 ListView Item多佈局的實現

MutiLayoutAdapter.java： /** * Created by Jay on 2015/9/23 0023. */ public class MutiLayoutAdapter extends BaseAdapter{

吳裕雄--天生自然ANDROID開發學習：2.6.1 PopupWindow(懸浮框)的基本使用

官方文件：PopupWindow:http://androiddoc.qiniudn.com/reference/android/widget/PopupWindow.html 1）幾個常用的構造方法

整合學習：bagging、 boosting、stacking

一、什麼是整合學習整合學習通過構建並結合多個學習器來完成學習任務。要獲得好的整合，學習器之間要具有差異性。

拓端tecdat：Python整合學習：自己編寫構建AdaBoost分類模型視覺化決策邊界及sklearn包呼叫比較

原文連結：http://tecdat.cn/?p=24421 原文出處：拓端資料部落公眾號 AdaBoost是？ Boosting指的是機器學習元算法系列，它將許多 \"弱 \"分類器的輸出合併成一個強大的 \"集合\"，其中每個弱分類器單獨的錯誤率可能

Echarts學習：Django快速整合Echarts

django快速使用echarts準備 1.線上定製下載echartshttps://echarts.apache.org/zh/builder.html 2.建立一個django專案或者在已有的專案1.配置檔案中確保資料庫配置、static配置、與新增專案名到INSTALLED_APPS下。

吳裕雄--天生自然ANDROID開發學習：4.1.1 Activity初學乍練

官網文件：Activity：http://androiddoc.qiniudn.com/guide/components/activities.html Activity是一個應用程式的元件，他在螢幕上提供了一個區域，允許使用者在上面做一些互動性的操作，比如打電話，照相，傳

吳裕雄--天生自然ANDROID開發學習：4.1.2 Activity初窺門徑

package example.jay.com.activitytest1; import android.content.Intent; import android.support.v7.app.ActionBarActivity;

linux學習：持續整合篇--簡介-01

1、持續整合介紹持續整合是一種軟體開發實踐團隊開發成員經常整合他們的工作，每次整合都通過自動化構建（包括自動化編譯、測試、釋出）來驗證，從而儘快的發現整合錯誤

python學習-第十六週：裝飾器(1)

python學習-第十六週：裝飾器(1) 什麼是裝飾器？在不改變原有函式程式碼，且保持原函式呼叫方法不變的情況下，給原函式增加新的功能(或者給類增加屬性和方法)

【深度學習：目標檢測】1.1 Faster RCNN理論合集

1. R-CNN簡介 2014年之前都是使用傳統方法進行目標檢測，準確率僅30%左右，R-CNN出現後提升了30%的準確率。

機器學習回顧篇（1）：梯度下降法

注：本系列所有部落格將持續更新併發布在github上，您可以通過github下載本系列所有文章筆記檔案

JavaWeb學習：SSH整合（無障礙整合）

一、建立Web專案，引入jar包　　①、Struts2的jar包　　　　　　 asm-7.3.1.jar：提供了位元組碼的讀寫的功能,包含了核心的功能，而其他的jar,都是基於這個核心的擴充套件.

整合篇：零基礎學習與使用MongoDB

目錄配套資料，免費下載連結：https://pan.baidu.com/s/1jA217UgqXpONi_fV-aOzqw 提取碼：bm2g 複製這段內容後開啟百度網盤手機App，操作更方便哦

整合篇：零基礎學習與使用Redis

目錄配套資料，免費下載連結：https://pan.baidu.com/s/1jA217UgqXpONi_fV-aOzqw 提取碼：bm2g 複製這段內容後開啟百度網盤手機App，操作更方便哦

SpringBoot學習：SpringBoot整合Mybatis實現資料庫連線以及基本的增刪改查操作並測試

技術標籤：java學習程式碼目錄本文將按照pom.xml檔案----resources包----java包的順序來進行記錄，並在關鍵部分加入解釋，主要是起一個記錄和總結的作用，防止自己寫完的東西忘記。

資料探勘演算法和實踐（二十三）：XGBoost整合演算法案列（鳶尾花資料集）

技術標籤：機器學習/資料探勘實戰python機器學習深度學習人工智慧演算法本節繼續探討整合學習演算法，上一節介紹的是LGB的使用和調參，這裡使用datasets自帶的鳶尾花資料集介紹XGB，關於整合學習演算法的介紹可

Linux 系統程式設計學習：6-基於socket的網路程式設計1：有關概念

知識一開始學習網路程式設計的時候，看到 socket(套接字) 這個概念比較困擾。但後來通過搜尋以及在結合在似懂非懂的開發中，最終弄懂了套接字的含義:

Linux 系統程式設計學習：2-程序間通訊1：Unix IPC（1）管道

背景上一講我們介紹了建立子程序的方式。我們都知道，建立子程序是為了與父程序協作（或者是為了執行新的程式，參考Linux exec族函式解析）

Linux 系統程式設計學習：3-程序間通訊1：Unix IPC（2）訊號

背景上一講我們介紹了Unix IPC中的2種管道。回顧一下上一講的介紹，IPC的方式通常有：

《整合學習：XGBoost, lightGBM》[1]

視訊選集

決策在kaggle上的利器(二)

05 整合學習簡介

06Bagging：隨機森林

隨機森林= bagging+決策樹

隨機性體現在兩點

隨機森林實踐

07Boosting:Adaboost

Adaboostt 的理解

Adaboostt 的演算法流程

Adaboost 的證明

相關推薦