1. 程式人生 > >WOE、VI 分類變量預測能力

WOE、VI 分類變量預測能力

之一 分享圖片 ali 大數 分析 post ext clas 應用場景

原始數據,如按年齡離散化 。首先元素各值頻數的分布。

技術分享圖片

WOE(Weight of Evidence)反映了自變量對因變量的預測能力。

技術分享圖片

IV(Information Value)在預測模型中選擇最重要的變量是最有用的技術之一。用於根據變量的重要性排列變量。

技術分享圖片

簡化:

技術分享圖片

結果:

技術分享圖片

IV 值經驗規則:

IV < 0.02 :不具有預測能力

0.02<= IV < 0.1 :預測能力很弱

0.1<= IV < 0.3 :中等程度預測能力

IV >= 0.3 :預測能力很強

IV 值法只適用於分類變量,可以通過調整分類閾值來提高IV值。使用IV值進行變量篩選時,可以計算出所有的分類變量的IV值,然後選擇 IV值大於 0.1 或IV值最高的前 10% 變量。

數據參考: 大數據分析:數據科學應用場景與時間精髓

WOE、VI 分類變量預測能力