1. 程式人生 > >風險大腦-支付風險識別天池大賽(番外篇)trick思路

風險大腦-支付風險識別天池大賽(番外篇)trick思路

預設無標籤的都是黑樣本。


        因為案例背景中有說道,因為風控系統會基於對交易的風險判斷而失敗掉很多高危交易,這些交易因為被失敗了往往沒有了標籤,而這部分資料又極其重要。所以這裡我們可以相信既然系統都判斷你是高危交易了,我就直接認為你是風險交易好了。相信螞蟻金服線上風險評估系統,沒毛病吧,哈哈。

        加上這次共994731條資料,有標籤的990006條(16847條有風險,973159條無風險),無標籤的資料有4725。無標籤認定為風險資料也說得過去。

        這次換用xgboost加交叉驗證(kfold=5),得到混淆矩陣結果如下:


        可見對風險資料樣本召回真的是爆表啊(高達0.788),但是這模型太過分了,顯然是不行的,絕大多數交易都被認定成有風險的,如真實無風險的被判定為無風險的有408條,真實無風險的被判定為有風險點的則有292869條,如果這樣,應用肯定無法正常進行交易了。。。但我們可以用此模型去標記無標籤資料。寧可錯殺一百,不願放過一個。

        試了下,這樣確實可以提升模型效果。