LCE：一個結合了隨機森林和XGBoost優勢的新的整合方法

阿新 • • 發佈：2022-05-28

隨機森林 [Breiman, 2001] 和 XGBoost [Chen and Guestrin, 2016] 已成為解決分類和迴歸的許多挑戰的最佳機器學習方法。Local Cascade Ensemble (LCE) [Fauvel et al., 2022] 是一種新的機器學習方法，它結合了它們的優勢並採用互補的多樣化方法來獲得更好的泛化預測器。因此，LCE 進一步增強了隨機森林和 XGBoost 的預測效能。

本文介紹了 LCE 和相應的 Python 包以及一些程式碼示例。LCE 包與 scikit-learn 相容並通過了 check_estimator測試，所以它可以非常方便的整合到scikit-learn 管道中。

LCE 簡介

整合方法的構建涉及結合相對準確和多樣化的個體預測器。有兩種互補的方法可以生成不同的預測變數：（i）通過改變訓練資料分佈和（ii）通過學習訓練資料的不同部分。

LCE 採用了這兩種多樣化的方法。(i) LCE 結合了兩種眾所周知的方法，這些方法可以修改原始訓練資料的分佈，並具有對偏差-方差權衡的互補效應：bagging [Breiman, 1996]（方差減少）和boosting [Schapire, 1990 ]（減少偏差）。(ii) LCE 學習訓練資料的不同部分，這樣可以捕獲基於分而治之策略（決策樹）無法發現的全域性關係。在詳細介紹 LCE 如何結合這些方法之前，我們先介紹它們背後的關鍵概念，這些概念將用於解釋 LCE。

偏差-方差權衡定義了學習演算法在訓練集之外泛化的能力。高偏差意味著學習演算法無法捕捉訓練集的底層結構（欠擬合）。高方差意味著演算法對訓練集的學習過於緊密（過擬合）。所有訓練的目標都是最小化偏差和方差。

Bagging 對方差減少有主要作用：它是一種生成多個版本的預測器（bootstrap replicates）並使用它們來獲得聚合預測器的方法。目前 bagging 的最先進的方法是隨機森林。

Boosting 對減少偏差有主要作用：它是一種迭代學習弱預測器並將它們相加以建立最終強預測器的方法。新增弱學習器後，重新調整資料權重，讓未來的弱學習器更多地關注先前弱學習器預測錯誤的示例。目前使用提升的最先進的方法是 XGBoost。圖 1 說明了 bagging 和 boosting 方法之間的區別。

圖 1. plant diseases資料集上的 Bagging 與 Boosting。n - 估計器的數量。

新整合方法 LCE 結合了 boosting-bagging 方法來處理機器學習模型面臨的偏差-方差權衡；此外，它採用分而治之的方法來個性化訓練資料不同部分的預測誤差。LCE 如圖 2 所示。

圖 2. plant diseases資料集上的 Local Cascade Ensemble，參考圖 1，藍色為 Bagging，紅色為 Boosting。n — 樹的數量，XGB — XGBoost。

具體來說，LCE 基於級聯泛化：它按順序使用一組預測器，並在每個階段向輸入資料集新增新屬性。新屬性來自預測器（例如，分類器的類概率）給出的輸出，稱為基礎學習器。LCE採用分治策略(決策樹)在區域性應用級聯泛化，並通過使用基於提升的預測器作為基礎學習器來減少決策樹的偏差。LCE 採用當前效能最好的最先進的 boosting 演算法作為基礎學習器（XGBoost，例如圖 2 中的 XGB¹⁰、XGB¹¹）。在生成樹的過程中，將每個決策節點處的基學習器的輸出作為新屬性新增到資料集（例如，圖 2 中的 XGB¹⁰(D¹)）來沿樹向下傳播提升。預測輸出表明基礎學習器正確預測樣本的能力。在下一個樹級別，新增到資料集的輸出被基礎學習器用作加權方案，這樣可以更多的關注先前錯誤預測的樣本。最後通過使用 bagging 來減輕由提升樹產生的過擬合。Bagging 通過從隨機抽樣中建立多個預測變數並替換原始資料集（例如，圖 2 中的 D¹、D²）以簡單多數票聚合樹來降低方差。LCE 在每個節點中儲存由基學習器生成的模型。

對於缺失資料的處理。與XGBoost類似，LCE排除了分離的缺失值，並使用塊傳播。在節點分離過程中，塊傳播將所有缺失資料的樣本傳送到錯誤較少的決策節點一側。

LCE 的超引數是基於樹的學習中的經典超引數（例如，max_depth、max_features、n_estimators）。此外，LCE 在樹的每個節點上學習一個特定的 XGBoost 模型，它只需要指定 XGBoost 超引數的範圍。然後，每個 XGBoost 模型的超引數由 Hyperopt [Bergstra et al., 2011] 自動設定，這是一種使用 Parzen 估計樹演算法的基於順序模型的優化。Hyperopt 從先前的選擇和基於樹的優化演算法中選擇下一個超引數。Parzen 估計樹的最終結果一般與超引數設定的網格搜尋和隨機搜尋效能相當並且大部分情況下會更好。

完整文章

https://avoid.overfit.cn/post/c10cc8f023484c95bab2bff5dd37c74c

LCE：一個結合了隨機森林和XGBoost優勢的新的整合方法

LCE 簡介

LCE：一個結合了隨機森林和XGBoost優勢的新的整合方法

MyCLI ：一個支援自動補全和語法高亮的 MySQL/MariaDB 客戶端

英雄聯盟手遊生態調研（六）：WRL開賽了，玩家和俱樂部怎麼看？

Angr：一個具有動態符號執行和靜態分析的二進位制分析工具

演演算法崗面試題：模型的bias和variance是什麼？用隨機森林舉例

輸入一個字串,內有數字和非數字字元,例如：A123x456 17960? ,302tab5876，將其中連續的數字作為一個整數,依次存放到一陣列a中。例如,123放在a[0],456放在a1[1].....統計共有多少個整數,並輸出這些數

C/C++程式設計筆記：編寫完成了一個C/C++程式，如何做一個介面出來？

演算法面試題：一個List<Student>，要求刪除裡面的男生，不用Linq和Lamda，求各種解，並說明優缺點！

kaggle 入門比賽：使用隨機森林解Bag of Words Meets Bags of Popcorn解題報告

《Java從入門到失業》第四章：類和物件（4.3）：一個完整的例子帶你深入類和物件

爆料者：考慮到使用者接受度和電池，蘋果 iPhone 12 系列在 120Hz 和 5G 之間選了後者

特斯拉又降價了：Model S長續航版和高效能版均降價人民幣2.3萬元

一個非科班大學生的四年，到秋招收穫了騰訊和位元組的offer

錯過這篇文章，或許你就錯過了「自由職業」的機會：一個你不得不重視的趨勢，而且資料會讓你很詫異...

機器學習之決策樹和隨機森林

R語言用邏輯迴歸、決策樹和隨機森林對信貸資料集進行分類預測

sklearn：隨機森林_分類器_紅酒資料集

sklearn：隨機森林_迴歸樹_波士頓房價_填補缺失值

用C#建立一個Student類，要求該類擁有StuName、StuClass兩個屬性和一個用於計算並返回總分的GradeSum（）方法。設計一個使用Student類的應用程式，執行時，使用者輸入了姓名、

@[機器學習應用篇：隨機森林]

LCE：一個結合了隨機森林和XGBoost優勢的新的整合方法

LCE 簡介

相關推薦