客戶貸款逾期預測[2]-svm和決策樹模型

阿新 • • 發佈：2018-12-04

任務

本次以信用貸款資料作為練習資料，目的是學會使用常用的機器學習模型，用它們預測貸款客戶是否會逾期，給到的資料已經包含了標籤，列名是status，有0和1兩種值，0表示未逾期，1表示逾期，所以這是一個二分類的問題。

資料處理

在拿到資料之後，首先我們需要探索資料的構成和分佈情況以及缺失情況。對於缺失值處理常用眾數或者中位數、平均數填補。為了處理方便，一開始可以先將資料的數值型特徵和非數值型特徵分開，根據對資料的理解挑選特徵，比如在本次任務中，用於識別客戶身份的特徵對於預測結果沒有影響，所以可以將使用者名稱、卡號等特徵去除。如果有非序關係的多分類變數可以將其轉換為啞變數，比如本次任務中的reg_preference_for_trad特徵。reg特徵有{‘一線城市’，‘二線城市’，‘三線城市’，‘境外’}等，可能有人會想用數字代替字元，但是這樣的話在特徵空間中會產生距離關係，而特徵本身是沒有序關係的，所以才將之轉換為啞變數。

實現

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 15 13:02:11 2018

@author: keepi
"""

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score
from sklearn.svm import LinearSVC
pd.set_option('display.max_row',1000)

#匯入資料
data = pd.read_csv('data.csv',encoding='gb18030')
print("data.shape:",data.shape)
#資料處理
miss_rate = data.isnull().sum() / len(data)
print("缺失率：",miss_rate.sort_values(ascending=False))
X_num = data.select_dtypes('number').copy()
X_num.fillna(X_num.mean(),inplace=True)
print("數值型特徵的shape：",X_num.shape)
print(X_num.columns)
X_num.drop(['Unnamed: 0','status'],axis=1,inplace=True)

X_str = data.select_dtypes(exclude='number').copy()
X_str.fillna(0,inplace=True)
print("非數值型特徵：",X_str.columns)
print(X_str.head())

X_dummy = pd.get_dummies(X_str['reg_preference_for_trad'])
X = pd.concat([X_num,X_dummy],axis=1,sort=False)
y = data['status']

#劃分訓練集、測試集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=1117)

#歸一化
ss = StandardScaler()
X_train_std = ss.fit_transform(X_train)
X_test_std = ss.transform(X_test)

print("f1_score:")
#邏輯迴歸模型
lr = LogisticRegression()
lr.fit(X_train_std,y_train)
test_lr_pred = lr.predict(X_test_std)
print("邏輯迴歸模型:",f1_score(y_test,test_lr_pred,average='macro'))

#svm模型
lsvc = LinearSVC()
lsvc.fit(X_train_std,y_train)
test_lsvc_pred = lsvc.predict(X_test_std)
print("svm模型:",f1_score(y_test,test_lsvc_pred,average='macro'))

#決策樹模型
dt = DecisionTreeClassifier()
dt.fit(X_train_std,y_train)
test_dt_pred = dt.predict(X_test_std)
print("決策樹模型:",f1_score(y_test,test_dt_pred))

結果

遇到的問題

1.在沒有對資料進行歸一化處理時訓練模型會出現預測結果全為一類的情況，可能是因為不同的特徵之間在數量上相差太大，沒有被同等程度地看待。

客戶貸款逾期預測[2]-svm和決策樹模型

任務

資料處理

實現

結果

遇到的問題

客戶貸款逾期預測[2]-svm和決策樹模型

客戶貸款逾期預測[3]-xgboost和lightgbm

使用SVM和決策樹實現客戶貸款逾期分析

客戶貸款逾期預測[7] - 模型融合

客戶貸款逾期預測[5] - 特徵工程

客戶貸款逾期預測[4]-記錄評分、繪製roc曲線

客戶貸款逾期預測[1]-邏輯迴歸模型

（預測貸款使用者是否會逾期）支援向量機和決策樹的模型建立

邏輯迴歸模型實踐-貸款逾期預測

隨機森林和決策樹調參

R_針對churn資料用id3、cart、C4.5和C5.0建立決策樹模型進行判斷哪種模型更合適

機器學習 scikit-learn3 模型實踐 - 支援向量機和決策樹

ML-提升方法和決策樹學習筆記

Matlab自帶的分類學習工具箱（SVM、決策樹、Knn等分類器）

python機器學習實戰2：實現決策樹

比較排序和決策樹（轉載---這批動態圖確實不賴）

大資料入門——使用決策樹模型預測泰坦尼克號乘客的生還情況

python決策樹模型預測銷售量

決策樹模型(Decision TreeModel)和樸素貝葉斯模型（NaiveBayesianModel，NBC）

決策樹模型組合之隨機森林與GBDT（轉）

客戶貸款逾期預測[2]-svm和決策樹模型

任務

資料處理

實現

結果

遇到的問題

相關推薦