使用SVM和決策樹實現客戶貸款逾期分析

阿新 • • 發佈：2018-12-21

一、背景及目標

根據提供的金融資料，分別使用SVM和決策樹兩種演算法預測貸款使用者是否會逾期。

二、任務分析

匯入資料後，首先，由於資料中存在缺失值，因此需要對缺失值資料進行預處理。
其次，對明顯與模型無關的特徵進行刪除。
最後，分別採用SVM和決策樹進行模型訓練，預測結果以及輸出評分。

三、資料預處理

一共4754行，89列（除去首行、首列）

直接刪除，對模型影響不大的資料及特徵，比如固定的個人資訊
列：custid、trade_no、bank_card_no、id_name
行：刪除很多項特徵缺失的使用者資訊
缺失特徵資料的使用者資料：apply_score等到最後一個特徵全為缺失項的使用者資料

特徵轉換：特徵student_feature列的NA轉為0，2轉為0（2只有2個）
幾個需考慮的因素
城市：境外0，一線1，二線2，三線3，四線4，NA及其他（共4組資料，刪除）
現階段不進行處理而直接刪除的列：比如 first_transaction_time，latest_query_time，loans_latest_time

四、程式碼實現

程式碼實現與zuolinye一起完成。首先是資料處理，包括刪除不要資訊、缺失值填充、對映替換以及資料歸一化。

"""1. 導包"""
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score,r2_score
from  sklearn.svm import LinearSVC

"""2. 讀取資料"""
dataset = pd.read_csv('F:\AI\mission_data\mission_data\data.csv',encoding='gbk')

"""3. 資料處理"""
# 刪除固定資訊列
dataset = dataset.drop(["custid","trade_no","bank_card_no","id_name","first_transaction_time","latest_query_time","loans_latest_time","source"],axis=1)
# 對於sstudent_feature列，我們進行NAN轉成0,2轉為0
# 缺失值填充
dataset["student_feature"] = dataset["student_feature"].fillna(0)
# 2替換為0
dataset["student_feature"] = dataset["student_feature"].replace([2],[0])

# 針對城市列'reg_preference_for_trad'，進行資料替換
dataset["reg_preference_for_trad"] = dataset["reg_preference_for_trad"].replace("一線城市", "1")
dataset["reg_preference_for_trad"] = dataset["reg_preference_for_trad"].replace("二線城市", "2")
dataset["reg_preference_for_trad"] = dataset["reg_preference_for_trad"].replace("三線城市", "3")
dataset["reg_preference_for_trad"] = dataset["reg_preference_for_trad"].replace("其他城市", "4")
dataset["reg_preference_for_trad"] = dataset["reg_preference_for_trad"].replace("境外", "0")

# 填充其他空值
# 使用均值進行填充
# dataset.fillna(dataset.mean(), inplace=True)
# 使用眾數進行填充
dataset = dataset.fillna(0) # 使用 0 替換所有 NaN 的值
col = dataset.columns.tolist()[1:]

def missing(df, columns):
    """
    使用眾數填充缺失值
    df[i].mode()[0] 獲取眾數第一個值
    """
    col = columns
    for i in col:
        df[i].fillna(df[i].mode()[0], inplace=True)
        df[i] = df[i].astype('float')


missing(dataset, col)

# 將object型別轉成folat
dataset = dataset.convert_objects(convert_numeric=True)

"""4. 資料劃分"""
X = dataset.drop(["status"],axis=1)
Y = dataset["status"]

# 資料按正常的2、8劃分
X_train, X_test, y_train, y_test = train_test_split(X, Y,test_size=0.2, random_state=666)
# not enough values to unpack (expected 4, got 2)

from sklearn.preprocessing import minmax_scale # minmax_scale歸一化，縮放到0-1
X_train = minmax_scale(X_train)
X_test =  minmax_scale(X_test)
# Input contains NaN, infinity or a value too large for dtype('float64').

"""5. 資料歸一化"""
from sklearn.preprocessing import minmax_scale
# 歸一化，縮放到0-1
X_train = minmax_scale(X_train)
X_test =  minmax_scale(X_test)

然後對資料採用SVM模型預測並評分分析


"""6. 模型訓練"""

linearSVC = LinearSVC()
linearSVC.fit(X_train, y_train)
lsvc_predict = linearSVC.predict(X_test)


"""7. 輸出結果"""
# print("predict:",log_reg.score(X_test, y_test))
print("predict:",linearSVC.score(X_test, y_test))
print("f1_score:",f1_score(y_test, lsvc_predict))
print("r2_score:",r2_score(y_test, lsvc_predict))

得到如下結果：

在這裡插入圖片描述

使用決策樹模型預測並得到結果：

"""6. 模型訓練"""


dtree = DecisionTreeClassifier()
dtree.fit(X_train, y_train)
dtree_predict = dtree.predict(X_test)


"""7. 輸出結果"""
print("decision_tree準確率：", dtree.score(X_test, y_test))
print("f1_score準確率:", f1_score(y_test, dtree_predict))
print("r2_score準確率:", r2_score(y_test, dtree_predict))

在這裡插入圖片描述

使用SVM和決策樹實現客戶貸款逾期分析

一、背景及目標根據提供的金融資料，分別使用SVM和決策樹兩種演算法預測貸款使用者是否會逾期。二、任務分析匯入資料後，首先，由於資料中存在缺失值，因此需要對缺失值資料進行預處理。其次，對明顯與模型無關的特徵進行刪除。最後，分別採用SVM和決策樹進行模型

客戶貸款逾期預測[2]-svm和決策樹模型

任務本次以信用貸款資料作為練習資料，目的是學會使用常用的機器學習模型，用它們預測貸款客戶是否會逾期，給到的資料已經包含了標籤，列名是status，有0和1兩種值，0表示未逾期，1表示逾期，所以這是一個二分類的問題。資料處理 &n

（預測貸款使用者是否會逾期）支援向量機和決策樹的模型建立

（預測貸款使用者是否會逾期）支援向量機和決策樹的模型建立資料是金融資料，我們要做的是預測貸款使用者是否會逾期，表格中，status是標籤：0表示未逾期，1表示逾期。【今天的任務】構建支援向量機和決策樹模型進行預測（在構建部分資料需要進行缺失值處理和資料型別轉換，如果不能處理，可以直接暴

客戶貸款逾期預測[3]-xgboost和lightgbm

任務根據客戶貸款資料預測客戶是否會逾期，1表示會，0表示不會。實現 # -*- coding: utf-8 -*- """ Created on Thu Nov 15 13:02:11 2018 @author: keepi """ im

隨機森林和決策樹調參

blog 每次抽樣單獨的數回歸函數現在推薦訓練隨機森林隨機森林的“隨機”體現在兩個部分：使用boostrap隨機抽樣（通俗點說就是有放回的隨機抽樣），假設原先數據集有N個樣本，每次仍然抽出來N個樣本，進行M次抽樣，組成M個數據集（也就是抽M次，

網路程式設計（InetAddress類、Socket和ServerSocket、實現客戶端和伺服器之間的雙向通訊）

網路程式設計的底層是IO，通過IO將一臺計算機中的資料傳送到另一臺計算機中。傳送的時候，要知道接受方的地址，該地址即為IP地址。知道IP地址後即可進行傳送。A向B發訊息，訊息是發過去了，但是B要怎樣接受呢？因此定義了埠，B監聽了A所使用的埠。A發的訊息中含有埠號，當B接受到訊息時，知道了埠號

基於C++語言的決策樹實現

感覺好久都沒有寫過程式了，一直上課沒有時間。最近有點空，然後就寫了下西瓜書中的決策樹的實現。由於本人才疏學淺，採用的實現方式和資料結構可能不合理，沒有考慮程式碼的複雜度和時間複雜度等等，僅寫下自己的實現想法（大神們就打擾了）。該程式是基於C++語言來實現的，演算法就是西瓜書

機器學習 scikit-learn3 模型實踐 - 支援向量機和決策樹

支援向量機和決策樹 - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.3.1 Linea

客戶貸款逾期預測[7] - 模型融合

任務用你目前評分最高的模型作為基準模型，和其他模型進行stacking融合，得到最終模型及評分。實現 #簡單調包實現 from mlxtend.classifier import StackingCVClassi

客戶貸款逾期預測[5] - 特徵工程

目錄任務資料探索特徵刪除缺失值處理異常值處理特徵生成特徵合併特徵縮放資料歸一化資料標準化相關性分析劃分訓練集、模型評估和選擇參考任務

客戶貸款逾期預測[4]-記錄評分、繪製roc曲線

任務記錄五個模型（邏輯迴歸、svm、決策樹、xgboost、lightgbm）關於precision、recall score、f1 score、roc、aoc的評分表格。實現 # -*- coding: utf-8 -*- ""

客戶貸款逾期預測[1]-邏輯迴歸模型

任務預測貸款客戶是否會逾期，status為響應變數，有0和1兩種值，0表示未逾期，1表示逾期。程式碼： # -*- coding: utf-8 -*- """ Created on Thu Nov 15 13:02:11 2018

ML-提升方法和決策樹學習筆記

整合學習整合學習通過構建並結合多個學習器來完成學習任務，有時也被稱為多分類器系統，基於委員會的學習。同質整合：只包含同種型別的個體學習器。異質整合：包含不同型別的個體學習器。根據個體學習器的生成方式，目前的整合學習方法大致可分為兩大類，即個體學習器間存在強依賴關係，必須序

使用opencv的SVM和神經網路實現車牌識別

一、前言本文參考自《深入理解Opencv 實用計算機視覺專案解析》中的自動車牌識別專案，並對其中的方法理解後，再進行實踐。深刻認識到實際上要完成車牌區域準確定位、車牌區域中字元的準確分割，字元準確識別這一系列步驟的困難。所以最後的識別效果也是有待進一步提高。二、程式流

Matlab自帶的分類學習工具箱（SVM、決策樹、Knn等分類器）

在matlab中，既有各種分類器的訓練函式，比如“fitcsvm”，也有圖形介面的分類學習工具箱，裡面包含SVM、決策樹、Knn等各類分類器，使用非常方便。接下來講講如何使用。啟動：點選“應用程式”，在面板中找到“Classification Lea

比較排序和決策樹（轉載---這批動態圖確實不賴）

比較排序是通過一個單一且抽象的比較運算（比如“小於等於”）讀取列表元素，而這個比較運算則決定了每兩個元素中哪一個應該先出現在最終的排序列表中。宣告：下面通過在維基百科中找到的非常完美的圖示來介紹一系列比較排序。插入排序在該系列的【演算法】1中我們便介紹了這個基

easyui的combotree同步樹和非同步樹實現方法

<select class="easyui-combotree" id="acceptOrgNo" name="acceptOrgNo" style="width:300px" data-options="url:'glCaseInfo.ered?reqCode=zf

機器學習——動手從決策樹實現隨機森林

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是機器學習專題的第26篇文章，我們一起聊聊另外一個整合學習模型，它就是大名鼎鼎的隨機森林。隨機森林在業內名氣和使用範圍都很廣，曾經在許多演算法比賽當中拔得頭籌。另外，它也是一個通過組合多個弱分類器構建強分類器的經典模型，因此它在

決策樹的實現和排序重要特征

https 字符 learn htm ocs red class ren clas from sklearn.tree import DecisionTreeClassifier from adspy_shared_utilities import plot_featur

在OpenCV中實現決策樹和隨機森林

目錄 1.決策樹 2.隨機森林 1.決策樹需要注意的點： Ptr<TrainData> data_set = TrainData::loadFromCSV("mushroom.data",//檔名

使用SVM和決策樹實現客戶貸款逾期分析

一、背景及目標

二、任務分析

三、資料預處理

四、程式碼實現

相關推薦