Python計算IV值
阿新 • • 發佈:2019-01-28
更多風控建模、大資料分析等內容請關注公眾號《大資料風控的一點一滴》
在對變數分箱後,需要計算變數的重要性,IV是評估變數區分度或重要性的統計量之一,python計算IV值的程式碼如下:
def CalcIV(Xvar, Yvar): N_0 = np.sum(Yvar==0) N_1 = np.sum(Yvar==1) N_0_group = np.zeros(np.unique(Xvar).shape) N_1_group = np.zeros(np.unique(Xvar).shape) for i in range(len(np.unique(Xvar))): N_0_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 0)].count() N_1_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 1)].count() iv = np.sum((N_0_group/N_0 - N_1_group/N_1) * np.log((N_0_group/N_0)/(N_1_group/N_1))) return iv def caliv_batch(df, Kvar, Yvar): df_Xvar = df.drop([Kvar, Yvar], axis=1) ivlist = [] for col in df_Xvar.columns: iv = CalcIV(df[col], df[Yvar]) ivlist.append(iv) names = list(df_Xvar.columns) iv_df = pd.DataFrame({'Var': names, 'Iv': ivlist}, columns=['Var', 'Iv']) return iv_df
其中,df是分箱後的資料集,Kvar是主鍵,Yvar是y變數(0是好,1是壞)。程式碼執行結果如下: