LightGBM，面試會問到的都在這了（附程式碼）！

1. LightGBM是什麼東東

不久前微軟DMTK(分散式機器學習工具包)團隊在GitHub上開源了效能超越其他boosting工具的LightGBM，在三天之內GitHub上被star了1000次，fork了200次。知乎上有近千人關注“如何看待微軟開源的LightGBM？”問題，被評價為“速度驚人”，“非常有啟發”，“支援分散式”，“程式碼清晰易懂”，“佔用記憶體小”等。

LightGBM （Light Gradient Boosting Machine）(請點選https://github.com/Microsoft/LightGBM)是一個實現GBDT演算法的框架，支援高效率的並行訓練。

LightGBM在Higgs資料集上LightGBM比XGBoost快將近10倍，記憶體佔用率大約為XGBoost的1/6，並且準確率也有提升。GBDT在每一次迭代的時候，都需要遍歷整個訓練資料多次。如果把整個訓練資料裝進記憶體則會限制訓練資料的大小；如果不裝進記憶體，反覆地讀寫訓練資料又會消耗非常大的時間。尤其面對工業級海量的資料，普通的GBDT演算法是不能滿足其需求的。

LightGBM提出的主要原因就是為了解決GBDT在海量資料遇到的問題，讓GBDT可以更好更快地用於工業實踐。

1.1 LightGBM在哪些地方進行了優化 (區別XGBoost)？

基於Histogram的決策樹演算法
帶深度限制的Leaf-wise的葉子生長策略
直方圖做差加速直接
支援類別特徵(Categorical Feature)
Cache命中率優化
基於直方圖的稀疏特徵優化多執行緒優化。

1.2 Histogram演算法

直方圖演算法的基本思想是先把連續的浮點特徵值離散化成k個整數（其實又是分桶的思想，而這些桶稱為bin，比如[0,0.1)→0, [0.1,0.3)→1），同時構造一個寬度為k的直方圖。

在遍歷資料的時候，根據離散化後的值作為索引在直方圖中累積統計量，當遍歷一次資料後，直方圖累積了需要的統計量，然後根據直方圖的離散值，遍歷尋找最優的分割點。

使用直方圖演算法有很多優點。首先，最明顯就是記憶體消耗的降低，直方圖演算法不僅不需要額外儲存預排序的結果，而且可以只儲存特徵離散化後的值，而這個值一般用8位整型儲存就足夠了，記憶體消耗可以降低為原來的1/8。然後在計算上的代價也大幅降低，預排序演算法每遍歷一個特徵值就需要計算一次分裂的增益，而直方圖演算法只需要計算k次（k可以認為是常數），時間複雜度從O(#data#feature)優化到O(k#features)。

1.3 帶深度限制的Leaf-wise的葉子生長策略

在XGBoost中，樹是按層生長的，稱為Level-wise tree growth，同一層的所有節點都做分裂，最後剪枝，如下圖所示：

Level-wise過一次資料可以同時分裂同一層的葉子，容易進行多執行緒優化，也好控制模型複雜度，不容易過擬合。但實際上Level-wise是一種低效的演算法，因為它不加區分的對待同一層的葉子，帶來了很多沒必要的開銷，因為實際上很多葉子的分裂增益較低，沒必要進行搜尋和分裂。

在Histogram演算法之上，LightGBM進行進一步的優化。首先它拋棄了大多數GBDT工具使用的按層生長 (level-wise)
的決策樹生長策略，而使用了帶有深度限制的按葉子生長 (leaf-wise)演算法。

Leaf-wise則是一種更為高效的策略，每次從當前所有葉子中，找到分裂增益最大的一個葉子，然後分裂，如此迴圈。因此同Level-wise相比，在分裂次數相同的情況下，Leaf-wise可以降低更多的誤差，得到更好的精度。Leaf-wise的缺點是可能會長出比較深的決策樹，產生過擬合。因此LightGBM在Leaf-wise之上增加了一個最大深度的限制，在保證高效率的同時防止過擬合。

1.4 直方圖差加速

LightGBM另一個優化是Histogram（直方圖）做差加速。一個容易觀察到的現象：一個葉子的直方圖可以由它的父親節點的直方圖與它兄弟的直方圖做差得到。通常構造直方圖，需要遍歷該葉子上的所有資料，但直方圖做差僅需遍歷直方圖的k個桶。

利用這個方法，LightGBM可以在構造一個葉子的直方圖後，可以用非常微小的代價得到它兄弟葉子的直方圖，在速度上可以提升一倍。

1.5 直接支援類別特徵

實際上大多數機器學習工具都無法直接支援類別特徵，一般需要把類別特徵，轉化到多維的0/1特徵，降低了空間和時間的效率。而類別特徵的使用是在實踐中很常用的。基於這個考慮，LightGBM優化了對類別特徵的支援，可以直接輸入類別特徵，不需要額外的0/1展開。並在決策樹演算法上增加了類別特徵的決策規則。在Expo資料集上的實驗，相比0/1展開的方法，訓練速度可以加速8倍，並且精度一致。據我們所知，LightGBM是第一個直接支援類別特徵的GBDT工具。

2. LightGBM優點

LightGBM （Light Gradient Boosting Machine）(請點選https://github.com/Microsoft/LightGBM)是一個實現GBDT演算法的框架，支援高效率的並行訓練，並且具有以下優點：

更快的訓練速度
更低的記憶體消耗
更好的準確率
分散式支援，可以快速處理海量資料

3. 程式碼實現

為了演示LightGBM在Python中的用法，本程式碼以sklearn包中自帶的鳶尾花資料集為例，用lightgbm演算法實現鳶尾花種類的分類任務。

GitHub：點選進入

作者：@mantchs

GitHub：https://github.com/NLP-LOVE/ML-NLP

歡迎大家加入討論！共同完善此專案！群號：【541954936】

相關推薦

LightGBM，面試會問到的都在這了（附程式碼）！

1. LightGBM是什麼東東不久前微軟DMTK(分散式機器學習工具包)團隊在GitHub上開源了效能超越其他boosting工具的LightGBM，在三天之內GitHub上被star了1000次，fork了200次。知乎上有近千人關注“如何看待微軟開源的LightGBM？”問題，被評價為“速度驚人”，“

曹工說Spring Boot原始碼（13）-- AspectJ的執行時織入（Load-Time-Weaving），基本內容是講清楚了（附原始碼）

寫在前面的話相關背景及資源：曹工說Spring Boot原始碼（1）-- Bean Definition到底是什麼，附spring思維導圖分享曹工說Spring Boot原始碼（2）-- Bean Definition到底是什麼，咱們對著介面，逐個方法講解曹工說Spring Boot原始碼（3）--

Python爬取知乎“神回覆”，笑得根本停不下來（附程式碼）

def get_answers_by_page(topic_id, page_no):    offset = page_no * 10    url = <topic_url> # topic_url是這個話題對應的url    headers = {        "User-Agent":

如果類a繼承類b，實現介面c，而類b和介面c中定義了同名變數，請問會出現什麼問題？（瞬聯）

如果類a繼承類b，實現介面c，而類b和介面c中定義了同名變數，請問會出現什麼問題？（瞬聯）interface      A{       int x = 0;}class B{       int x =1;}class C extends B implements A{

從小數學就不及格的我，竟然用極座標系表白了我的女神！（附程式碼）

歡迎大家前往騰訊雲+社群，獲取更多騰訊海量技術實踐乾貨哦~ 本文由郭詩雅發表於雲+社群專欄在數學中，極座標系（英語：Polar coordinate system）是一個二維座標系統。該座標系統中任意位置可由一個夾角和一段相對原點—極點的距離來表示。在兩點間的關

python爬取電影原始碼，小編以後看電影再也不用VIP了（有程式碼）

小編有發爬取電影的視訊，今天小編再發一篇爬取電影的文章。不是小編懶，是小編真的不知道寫什麼了，見諒。如果小編Get到新的技能，一定發。是不是有好多的小夥伴跟好久好久以前的小編一樣，看一個電影充個會員，這個沒關係，最主要的是，充一個平臺的VIP還不行得有好幾個才可以。這麼貧窮的小編，當然只能看6分鐘的視訊

學會資料視覺化，老闆給我漲薪了（附原型文件）

❝ 揭開資料視覺化的神祕面紗，升職加薪指日可待！ ❞ 敲黑板！「資料視覺化」就是讓領導，在看資料這件事上，獲得更爽體驗的辦法。領導爽到了，自然升職加薪也就水到渠成。所以咱們今天就來一起揭開資料視覺化的神祕面紗。 1 先看看實戰效果動態折線圖動態柱形圖動態環形圖動態條形圖 2 教練

北京不下雪，自己來點雪花看看吧~（附效果圖）

看看吧 pan utf class return 效果 tex near mat <!DOCTYPE html> <html> <head> <meta charset="UTF-8">

安卓識別身份證，自動提取身份證資訊功能實現（附原始碼）

原始碼下載地址：注：原始碼裡沒有騰訊優圖的賬號需要填寫自己的下載地址先講幾下.首先我們需要去騰訊優圖申請一個賬號，因為身份證識別需要用到第三方介面如圖所示我申請的是掃描身份證，當然還有其他的功能，比如掃描銀行卡，營業執照，車牌等等，大家可以去研究一下

區塊鏈能養貓養狗了？！手把手帶你復現AI+區塊鏈寫碼全過程！（附程式碼）

區塊鏈養貓養狗、區塊鏈遊戲、區塊鏈遊戲，區塊鏈旅遊……打著區塊鏈名頭的專案蜂擁上線。如何將區塊鏈和AI兩種不同技術結合？如何在python中編寫工作證明演算法？一致性演算法有哪些？雷鋒字幕組特別編譯了本期「區塊鏈一致性演算法和人工

在自然語言處理領域，哪些企業的發展遙遙領先？（附報告）

後臺回覆關鍵詞“NLP”下載研究報告（含人才分佈圖）目錄第 1 章自然語言處理概念篇第 2 章

吳恩達機器學習課程：完全用Python完成，可以的！（附程式碼）

新智元報道來源：Reddit、GitHub編輯：肖琴【導讀】完全用Python完成吳恩達的

自創資料集，用TensorFlow預測股票教程 !（附程式碼）

來源：機器之心本文長度為4498字，建議閱讀8分鐘本文非常適合初學者瞭解如何使用TensorFlow構建基本的神經網路。 STATWORX 團隊近日從 Google Finance API

央視《對話》：關於區塊鏈你想知道的都在這兒（附視訊）

導讀：有人說，區塊鏈將改變這個世界的執行邏輯，甚至將重塑人類社會的基本秩序。也有人說，打著區塊鏈

TCP網路傳輸“粘包”問題，經典解決（附程式碼）

一、前言關於TCP網路傳輸粘包，網上很多人寫了原理。總結起來就一句話（這裡拿Server和Client長連線，Server和Client之間通過信令傳輸做說明） Server傳送的時候，雖然按照一條條信令傳送，經過網路傳輸，到達客戶端作業系統網路層，首先進

30道Redis面試題，面試官能問的都被我找到了

1、什麼是Redis？簡述它的優缺點？ Redis本質上是一個Key-Value型別的記憶體資料庫，很像memcached，整個資料庫統統載入在記憶體當中進行操作，定期通過非同步操作把資料庫資料flush到硬碟上進行儲存。因為是純記憶體操作，Redis的效能非常出色，每

分享30道Redis面試題，面試官能問到的我都找到了

1、什麼是Redis？簡述它的優缺點？ Redis本質上是一個Key-Value型別的記憶體資料庫，很像memcached，整個資料庫統統載入在記憶體當中進行操作，定期通過非同步操作把資料庫資料flush到硬碟上進行儲存。因為是純記憶體操作，Redis的效能非常出色

值得看｜30道Redis面試題，面試官能問的都被我找到了

作者：程式之心連結：https://www.toutiao.com/i6579771325819126275/ 1、什麼是Redis？簡述它的優缺點？ Redis本質上是一個Key-Value型別的記憶體資料庫，很像memcached，整個資料庫統統載入在記憶

46道史上最全Redis面試題，面試官能問的都被我找到了（含答案）

開發十年，就只剩下這套架構體系了！ >>>

一個數組中只有兩個數字是出現一次，其他所有數字都出現了兩次，找出這兩個數字

題目：一個數組中只有兩個數字是出現一次，其他所有數字都出現了兩次。找出這兩個數字，程式設計實現。參考程式碼： #include<stdio.h> #include <windows.h> void find_num(int arr[], int len