樹模型和線性迴歸 在迴歸問題中的比較
阿新 • • 發佈:2019-02-03
最近使用GBRT和LR解決迴歸問題,總體來說發現GBRT能很快收斂,且誤差mse通常比lr小。但使用過程中發現利用GBRT進行迴歸大部分情況的迴歸值都接近真實值,但也會存在一些錯的很離譜的迴歸值,反而lr對所有的迴歸樣例都能表現的中規中矩。
舉個例子:假設問題為需要評價一個淘寶店商戶的價值高低,我們需要利用該淘寶店的 歷史的上月pv,uv,點選,交易量,評價,好評數,星級等預測其下個月可能產生的價值。假設一個shop其
pv | uv | 點選 | 交易量 | 評價 | 好評數 | 星級 | 折扣 |
30000 | 40000 | 3666 | 8990 | 77 | 0 | 0 | 0 |
對GBRT:GBRT的迴歸實質也是樹,假設GBRT對訓練樣本訓練得到,其第一棵樹的節點是上月交易量,
顯然GBRT根據樣本訓練發現星級低又不搞活動的店價值不高,他才不管你上個月的交易遠遠大於500呀。。。。
對於lr,學習出來的權重 假設是0.1 。。。。0.1(假設) 那麼0.1*8990遠大於0.1*500,能把星級活動的低分補回來從而使得這個樣本回歸出來還有一個比較高的價值。
結論: 顯然上面的例子只是模型中的個別特例,但是當在實際應用中,倘若你的模型出現一個離譜的值,業務方很顯然不會放過你。這意味著在實際的應用環境中,對這種萬里挑一的奇異值容忍性為零時,人們寧願接受每個樣本差一點也不能接受一個樣本差一萬,而你的樣本通常會因為各種各樣的原因存在缺失值 ,這時選擇lr模型更優於樹模型。