1. 程式人生 > >深度 | 螞蟻金服DASFAA論文帶你深入瞭解GBDT模型

深度 | 螞蟻金服DASFAA論文帶你深入瞭解GBDT模型

小螞蟻說

2018年5月21日,國際頂級資料庫會議DASFAA 2018(International Conference on Database Systems for Advanced Applications)在澳大利亞黃金海岸舉辦。

本文是螞蟻金服錄用於DASFAA的論文Unpack Local Model Interpretation for GBDT(作者:方文靜、周俊、李小龍、朱其立)的簡要介紹。

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一種迭代的決策樹演算法,該演算法由多棵決策樹組成,所有樹的結論累加起來做最終答案。

它在被提出之初就和SVM一起被認為是泛化能力(generalization)較強的演算法,近些年更因為被用於搜尋排序的機器學習模型而引起大家關注。

GBDT模型自被提出以來,一直在有監督的機器學習任務中扮演重要角色,在各種機器學習演算法競賽中數見不鮮,因此對其應用的演算法業務中對模型結果解釋的需求也日益增加。本文設計並解釋了一種GBDT模型行之有效的區域性解釋性方案。

b89d89fe4cd809f58f96344e4c842648667ac719

引言

GBDT(Gradient Boosting Decision Tree)模型自被提出以來,一直在有監督的機器學習任務中扮演重要角色,在各種機器學習演算法競賽中數見不鮮。GBDT是一系列決策樹弱分類器的整合,將所有決策樹的分值相加獲得最終預測結果,由於這種整合方法的本質,

GBDT在眾多問題中具有較優的表現,因此吸引了研究者們對演算法進行不斷優化,出現不同的變式。樹形模型雖然在諸多工上取得比線性模型更好的效果,但線性模型的一大優勢在於天然能提供特徵重要性的評判,因此在一些需要模型解釋的場景,樹形模型的應用受到了侷限。本文關注為GBDT模型及其各種變式,提供一種統一的區域性解釋方案,對每一個預測樣本可以給出各個特徵的貢獻度,從而對模型預測結果進行歸因。

原文連結