1. 程式人生 > >對於分類回歸樹和lightgbm的理解

對於分類回歸樹和lightgbm的理解

利用 區分 OS 改進 假設 成了 數據 ima size

在分類回歸樹中之所以要先分類後回歸的原因是, 對於一般的線性回歸是基於全部的數據集。這種全局的數據建模對於一些復雜的數據來說,其建模的難度會很大。所以我們改進為局部加權線性回歸,其只利用數據點周圍的局部數據進行建模,這樣就簡化了建模的難度,提高了模型的準確性。樹回歸也是一種局部建模的方法,其通過構建決策點將數據切分,在切分後的局部數據集上做回歸操作。

比如在前面博客中提到的風險預測問題,其實就是在特征層面對於不同類型的用戶分到了不同的葉子節點上。
例如我們用了時間作為特征,就將晚上開車多的用戶分到了一類 白天開車多的分成了另外一類,在危險區域開車比例高的分為一類,比例低分為另外一類。

分類的切割點用作直方圖的方法來確定。

例如以速度均值為例:(圖中數據為假設)
技術分享圖片

這樣很清楚就能找到一個切割點來劃分哪些用戶經常超速開車,超速和相對不超速的用戶的區分速度在哪裏。

對於分類回歸樹和lightgbm的理解