1. 程式人生 > >為什麼要使用邏輯迴歸製作評分卡

為什麼要使用邏輯迴歸製作評分卡

1、什麼是評分卡?

在銀行借貸場景中,評分卡是一種以分數形式來衡量一個客戶的信用風險大小的手段,一般來說,評分卡打出的分數越高,客戶的信用越好,風險越小。

 

2、評分卡怎麼使用?

對於需要借貸的個人或者公司,在借貸時需要填寫一張表格,表格內容包括年齡,收入,家庭人口數量等等。評分卡將每個特徵劃分為幾個區間,每個區間有一個分數。根據客戶所填資訊和評分卡,為客戶所填的每一個特徵賦一個分數,最後相加計算這個使用者的總得分。依據總得分評估他的信用程度。

 

3、怎麼使用邏輯迴歸製作評分卡?

製作評分卡需要大量客戶所填的資訊(特徵矩陣X),以及該客戶是否違約的資訊(標籤Y)。

(1)對特徵矩陣X進行資料預處理。包括去除重複值,填補缺失值(僅有極少數樣本缺失該特徵可考慮直接刪除該特徵,可使用均值填補家庭人數,隨機森林填補收入等),處理異常值,處理樣本不均衡問題(使用過取樣和欠取樣的方法),但是我們一般不對資料進行標準化處理(這是因為我們給出的評分卡是給業務人員看的,而客戶所填資訊天生就是量綱不統一的)。

(2)找出每個特徵最佳分箱數和分享邊界。最佳分箱數即使得該特徵的IV值儘量在最佳IV值區間(儘量提高每個特徵的重要性),並且使得該特徵的箱內相似,箱間差異大。因此步驟是這樣的:首先確定一個較大的箱子數,進行等頻分箱,計算各箱WOE值和特徵的IV值,然後依據卡方檢驗值合併相似箱子,再次計算各箱WOE值以及該特徵IV值,直到箱子數量變為一個較小值。畫出箱子個數-IV值曲線,找出分箱個數和各箱邊界。

(3)對各個特徵依據最佳分箱邊界進行分箱。分箱後得到特徵的各箱邊界以及WOE值。

(4)處理訓練集和測試集的特徵矩陣X。將特徵矩陣中的值全部替換為對應箱子的WOE值。

(5)使用訓練集進行建模,使用測試集計算模型得分,並且利用學習曲線調整正則化係數C和最大迭代次數max_iter提高模型得分。

(6)製作評分卡。根據該公式的值計算出係數A和B的值,根據邏輯迴歸得到的截距lr.intercept_、各特徵係數lr_coef_。用base_score = A - B*lr.intercept_公式計算該評分卡的基準值,用col_score = woeall["i_colName"] * (-B*lr.coef_[0][i])計算各特徵的分數列表(每個箱子對應一個分數),其中woeall["i_colName"]是i特徵的箱子列表和對應的WOE值列表。

 

4、為什麼要使用邏輯迴歸製作評分卡?

因為評分卡製作其實就是將連續的特徵離散化,且為每一個離散值賦一個分數。其中邏輯迴歸的截距用於計算評分卡基準值;邏輯迴歸係數用於表示各個特徵在判別標籤時的重要程度;各箱的woe值用於邏輯迴歸建模時代替特徵矩陣X原始值帶入計算。