信用卡違約客戶的預測模型的選擇(二）驗證過程

阿新 • • 發佈：2019-02-01

驗證過程

該資料集包含23個輸入變數(input variable)和一個響應變數（response variable）。該資料集來源於UCI machine learning repository,為某銀行的信用卡客戶資訊資料，共有30000個樣本，包括過去六個月的賬單還款情況。

Y：下個月還款違約情況（1=逾期，0=未逾期）

X1：信用額度，包括其個人和家庭補充信用。

X2：性別（1=male;2=female）

X3：教育（1=研究生，2=大學，3=高中，4=其他）

X4：婚姻狀況（1=已婚，2=單身，3=其他）

X5：年齡，age

X6-X11：過去六個月的還款情況。X6（2005年九月還款情況）。。。X11（2005年四月還款情況）。其中XN=-1,代表按時還款，XN=1,代表延時一個月還款，XN=2,代表延時兩個月還款，。。。，XN=n,代表延時n個月還款，

X12-X17：過去六個月的賬單數額情況。X12（2005年九月賬單數額情況）…X11（2005年四月賬單數額情況）。

X18-X23：過去六個月的還款數額情況。X18（2005年九月還款數額情況）…X23（2005年四月還款數額情況）。

環境配置

作業系統：windows7+64位

記憶體：4G

Cpu: intel core [email protected]2.6GHz

Python version: python 3.6.0

Python平臺：pycharm

首先獲取資料，將原始csv檔案轉化為txt檔案，逐行讀取資料，為利於後期迴歸運算將變數格式的資料統一轉化為float格式。在變數選取中我們本著類別變數均等，訓練矩陣隨機，訓練與測試矩陣28原則。

如下：

float(listFromLine[i])

分別定義標籤矩陣和變數矩陣，讀入客戶資料。

此模型預測變數為0或1。其中類別為1的變數6636個，類別為0的變數23364個。我們選擇相等的兩類樣本數0和1分別6600個。

首先進行資料集進行拆分，使用sklearn的cross_validation進行資料拆分。

from sklearn.cross_validationimport train_test_split

X_train,X_test, y_train, y_test=train_test_split(ran_M,rand_V)

（正例1662個，負例1638個。）

我們選擇13200個樣本，為了使得選取的樣本具有隨機性，由於原始樣本按照賬戶號輸入，可能存在一定的序列關聯性，打破原始順序的方法函式如下：

dataIndex = list(range(randM))
for j in range(randM):
    randIndex = int(random.uniform(0, len(dataIndex)))
    retm[j, :] =retm1[dataIndex[randIndex]]
    classV[j] =classV1[dataInde[randIndex]]
    del (dataIndex[randIndex])

首先定義一個list序列，然後利用隨機數函式，對序列取值，將取得的樣本值順序賦予新的序列矩陣。

變數篩選

計算輸入變數之間的相關係數，輸入變數與預測之間的相關關係。當資料量較大時，在進行corrcoef進行相關性計算時，超過了記憶體容量，出現memory error.我們只是為了大概掌握變數之間的相關程度，為避免memory error需進行矩陣的縮減，在這裡選取前5000行進行相關性計算。

從預測變數與輸入變數之間的相關係數可見，預測變數與大多數輸入變數之間的相關性較小，選取相關係數絕對值大於0.1的變數為LIMIT_BAL、PAY_1、PAY_2、PAY_3、PAY_4、PAY_5、PAY_6。

Corrcoef	default of credit account
LIMIT_BAL	-0.100
SEX	-0.013
EDUCATION	0.037
MARRIAGE	-0.039
AGE	0.020
PAY_1	0.293
PAY_2	0.220
PAY_3	0.203
PAY_4	0.175
PAY_5	0.172
PAY_6	0.140
BILL_AMT1	-0.004
BILL_AMT2	0.000
BILL_AMT3	0.001
BILL_AMT4	0.004
BILL_AMT5	0.001
BILL_AMT6	0.003
PAY_AMT1	-0.078
PAY_AMT2	-0.081
PAY_AMT3	-0.039
PAY_AMT4	-0.066
PAY_AMT5	-0.037
PAY_AMT6	-0.049

在進行變數處理時，可選擇歸一化、標準化、特徵化處理，也可根據變數大小進行類別化處理。LIMIT_BAL數值較大，求其百分位數，使用函式np.percentile(LIMIT_BAL)，對變數進行重新設定，選擇分位數80,50,30,0對應的值設定為（4,3,2,1）。

Percentile	Value
100	1000000
90	360000
80	270000
70	210000
60	180000
50	140000
40	100000
30	70000
20	50000
10	30000
0	10000

首先我們來驗證逐步增加變數的方法。首先選取LIMIT_BAL、PAY_1、PAY_2、PAY_3、PAY_4、PAY_5、PAY_6以及常量係數。

信用卡違約客戶的預測模型的選擇(二）驗證過程

信用卡違約客戶的預測模型的選擇(二）驗證過程

Java內存模型（二）——重排序

NLP —— 圖模型（二）條件隨機場（Conditional random field，CRF）

並發模型（二）——Master-Worker模式

CAS客戶端整合（二） Zabbix

Django中模型（二）

java內存模型（二）深入理解java內存模型的系列好文

分層網絡模型（二）

Webgl顯示Revit模型（二）——利用Three.js優化顯示效果

線性分類模型（二）：logistic迴歸模型分析

【Mac系統 + Python + Django】之開發一個釋出會系統【Django模型（二）】【Mac系統 + Mysql】之安裝Mysql資料庫【Python + Mysql】之用pymysql庫連線Mysql資料庫並進行增刪改查操作

併發模型（二）——Master-Worker模式

Django-模型（二）

前端學習筆記 day03 盒子模型（二）

JVM類載入器與雙親委派模型（二）

統計學（二）之一般線性模型（二）

達觀杯_構建模型（二）邏輯迴歸

機房收費系統登陸客戶端錯誤（二）執行時錯誤“-2147217887”

JVM記憶體模型（二）—— HotSpot虛擬機器分析

JVM——記憶體模型（二）：虛擬機器棧與本地方法棧

信用卡違約客戶的預測模型的選擇(二）驗證過程

相關推薦