信用評分系統執行原理上篇

阿新 • • 發佈：2020-12-09

原始碼

https://gitee.com/pingfanrenbiji/Credit-Card-Score

在jupyter中開啟該專案

匯入程式碼庫

#Numpy是以矩陣為基礎的數學計算模組，純數學
importnumpyasnp
#pandas是提供高效能易用資料型別和分析工具的第三方庫
importpandasaspd
#繪製圖形
importmatplotlib.pyplotasplt
#seaborn是基於matplotlib開發的視覺化庫，比matplotlib更加容易使用，而且圖例的風格更加現代化
importseabornassns
#Matplotlib是Python的一個繪相簿。它包含了大量的工具，你可以使用這些工具建立各種圖形，包括簡單的散點圖，正弦曲線，甚至是三維圖形 

%matplotlibinline

讀取資料字典

分別解釋下每個變數代表什麼含義

SeriousDlqin2yrs好壞客戶
RevolvingUtilizationOfUnsecuredLines信用卡和個人信用額度的總餘額，除了房地產和沒有分期付款債務，如汽車貸款除以信用額度
age出生年齡
NumberOfTime30-59DaysPastDueNotWorse過去兩年借款35-59天逾期但是不糟糕的次數
DebtRatio每月債務支付、贍養費、生活費用除以毛利
MonthlyIncome月收入
NumberOfOpenCreditLinesAndLoans開放式貸款（分期付款汽車貸款或抵押貸款）和信用額度（信用卡）的次數
 
NumberOfTimes90DaysLate>=90天逾期
NumberRealEstateLoansOrLines抵押貸款和房地產貸款包括房屋淨值信貸額度
NumberOfTime60-89DaysPastDueNotWorse過去兩年借款60-89天逾期但是不糟糕的次數
NumberOfDependents家屬數量不包括自己

REAL資料型別說明

REAL資料型別儲存單精度浮點數
REAL值需要4個儲存位元組
儲存為REAL型別的值可精確到7個有效數字

讀取訓練資料

df=pd.read_csv("./GiveMeSomeCredit/cs-training.csv").drop("Unnamed:0" 
,axis=1)

drop是刪除函式axis=1表示列刪除指定列名為"Unnamed:0"的列

檢視前5行資料

檢視缺失值和異常值

通過info()可以看出一共有150000條資訊，MonthyIncome和NumberOfDependents存在缺失的情況，MonthyIncome缺失29731個數據，NumberOfDependents缺失3924個數據。

資料集計算

df.describe().T.assign(missing_rate=df.apply(lambdax:(len(x)-x.count())/float(len(x))))

使用describe()來看資料集中的計數、均值、最大最小值、標準差和第一、二、三個四分位值，同時增加了缺失率的計算

缺失值處理：

1、由於MonthyIncome缺失較多，因此不適合直接進行刪除，這邊根據變數之間存在的關係來填補缺失值，並採用隨機森林的方法；

2、NumberOfDependents的缺失較少，對於整體的樣本影響有限，因此這邊直接進行刪除操作，後續也可以進行一些其他的填補操作。

隨機森林函式

原理分析:

引數解釋:

random_state:隨機種子

n_estimators:也就是最大的弱學習器的個數。一般來說n_estimators太小，容易欠擬合，n_estimators太大，計算量會太大，並且n_estimators到一定的數量後，再增大n_estimators獲得的模型提升會很小，所以一般選擇一個適中的數值。預設是100

max_depth:決策樹最大深度

n_jobs:設定工作的core數量.等於-1的時候，表示cpu裡的所有core進行工作

刪除缺失值、刪除重複值

df.dropna()
df.drop_duplicates()

異常值處理

偏離大多數抽樣資料的數值，通常指測定值中與平均值的偏差超過兩倍標準差的測定值

通常採用離群值檢測的方法對異常值進行檢測

畫一個分箱圖

df["RevolvingUtilizationOfUnsecuredLines"].plot(kind="box",grid=True)

grid=True：顯示網格

使用2來代替大於2的值

revNew=[]
forvalindf.RevolvingUtilizationOfUnsecuredLines:
ifval<=2:
revNew.append(val)
else:
revNew.append(2.)

再次分箱

對age分箱

df.age.plot.box(grid=True)

發現age屬性中存在0值情況，而這些資料明顯是異常值，因此對其進行處理

df=df[df["age"]>0]

對三個屬性進行分箱

df.boxplot(column=["NumberOfTime30-59DaysPastDueNotWorse","NumberOfTime60-89DaysPastDueNotWorse","NumberOfTimes90DaysLate"],rot=30)

rot:int或float，預設為0標籤的旋轉角度（以度為單位）相對於螢幕座標

上面的箱線圖可以看出NumberOfTime30-59DaysPastDueNotWorse，NumberOfTime60-89DaysPastDueNotWorse，NumberOfTimes90DaysLate三個特徵都存在兩個異常值

檢視具體的異常值

df["NumberOfTime30-59DaysPastDueNotWorse"].unique()
df["NumberOfTime60-89DaysPastDueNotWorse"].unique()
df["NumberOfTimes90DaysLate"].unique()

可以看出96和98是異常值資料

用指定列資料的中位數來替換異常值

defreplaceOutlier(data):
New=[]
med=data.median()
forvalindata:
if((val==98)|(val==96)):
New.append(med)
else:
New.append(val)
returnNew

刪除了異常值之後再看這3個列的箱線圖

檢視DebtRatio的箱線圖

使用中位數絕對偏差進行異常值檢測

第一個引數是指定列資料
第二個引數是閾值

如果列資料是陣列則轉換成array

shape返回是資料表的矩陣行列數

對於矩陣的行數也可以使len(x)函式輸出的矩陣長度也就是所謂的行數

對數列中的每一行取中位數

再用每一行中的每一個數據減去中位數

再對差值取中位數

再用一個公式norm.ppf(0.75)*(每個資料和中位數差距)/每個中位數的中位數得到一個異常值分值

分值大於閾值的話返回true

分值小於閾值返回false

檢測出最小的異常值用於替換異常值

minUpperBound=min([valfor(val,out)inzip(df.DebtRatio,mad_based_outlier(df.DebtRatio))ifout==True])

這句話的意思是mad_based_outlier(df.DebtRatio)返回true的時候說明大於閾值是異常值

找到所有的異常值然後取最小值得到最小的異常值

替換異常值

大於異常值的數都用異常值替換

檢視這一列的資料情況

畫一個箱線圖

檢視月收入的資料情況

對月收入畫箱線圖

同樣的方式找最小的異常值大於最小異常值的數值都用異常值替換

其他引數類似不重複說了

資料切分

將資料切分成訓練集和測試集

匯入庫

fromsklearn.model_selectionimporttrain_test_split

訓練資料和測試資料分割

Y=df["SeriousDlqin2yrs"]
X=df.iloc[:,1:]
#測試和訓練資料進行3：7的比例進行切分random_state定一個值是的每次執行的時候不會被隨機分
X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.3,random_state=123)

train=pd.concat([Y_train,X_train],axis=1)
test=pd.concat([Y_test,X_test],axis=1)

train.to_csv('TrainData.csv',index=False)
test.to_csv('TestData.csv',index=False)

探索性分析

一般用直方圖、散點圖、箱線圖分析

下面利用直方圖和核密度估計畫圖，Age、MonthlyIncome、NumberOfOpenCreditLinesAndLoans大致呈正太分佈，符合統計分析

fig=plt.figure()
#alpha:設定圖表顏色
fig.set(alpha=0.2)
#subplot2grid在一張大圖裡分列幾個小圖
#在網格的特定位置建立軸物件
#允許軸物件跨越多個行或列
#縱軸2，橫軸3位於第一個位置
plt.subplot2grid((2,3),(0,0))
#hist直方圖
#bins設定直方圖中分組的數量
#figsize是一個tuple，用來指定width和height的inch(釐米)
train["age"].plot(kind="hist",bins=30,figsize=(12,6),grid=True)
plt.title("HistofAge")

#解決中文的顯示問題
plt.rcParams["font.sans-serif"]=["SimHei"]
#解決儲存影象是負號'-'顯示為方塊的問題
plt.rcParams["axes.unicode_minus"]=False

plt.tight_layout()#調整子圖之間的間距，緊湊顯示影象
plt.show()

特徵選擇

1、變數分箱將連續變數離散化將多狀態的離散變數合併成少狀態

2、變數分箱重要性

a穩定性避免特徵中無意義的波動對評分帶來波動

b健壯性避免極端值的影響

3、變數分箱優勢

a可以將缺失值作為獨立的箱帶入模型中

b將所有的變數變換到相似的尺度上

變數分箱劣勢

a計算量大

b分箱之後需要編碼

4、變數分箱常用方法

a有監督

a-1Best-Ks

a-2ChiMerge（卡放分箱）

b無監督

b-1等距

b-2等頻

b-3聚類

後續

下一篇寫下特徵分箱等實現邏輯

信用評分系統執行原理上篇

技術標籤：平凡人筆記原始碼 https://gitee.com/pingfanrenbiji/Credit-Card-Score 在jupyter中開啟該專案

信用評分系統執行原理中篇-分箱邏輯

技術標籤：平凡人筆記前言本篇承接上篇信用評分系統執行原理上篇分箱邏輯比較複雜設計到很多的演算法

JavaSE第18篇：多執行緒上篇

核心內容：在實際開發中，若程式需要同時處理多個任務時，我們該如何實現？此時多執行緒就可幫助我們實現。使用多執行緒可以提高CPU的利用率及程式的處理效率。本篇將會學習多執行緒相關概念、建立和使用、執行緒安全

通過這六點，瞭解Java執行緒池的全面（總結上篇）

目錄一使用執行緒池的好處二 Executor 框架三 (重要)ThreadPoolExecutor 類簡單介紹

信用評分卡模型在Python中實踐（上）

python金融風控評分卡模型和資料分析微專業課：http://dwz.date/b9vv 一、前言之前看到信用標準評分卡模型開發及實現的文章，是標準的評分卡建模流程在R上的實現，非常不錯，就想著能不能把開發流程在Python上實

mybatis原始碼(三)SqlSession執行mapper的過程上篇

mybatis原始碼(三)SqlSession執行mapper的過程 1.mapper代理物件建立的過程　　sqlSession.getMapper(UserMapper.class)返回的是代理物件。MapperProxy。該物件是MapperProxyFactory建立的

sqlmap --os-shell執行原理（mysql篇）

sqlmap --os-shell執行原理對於mysql資料庫來說，--os-shell的本質就是寫入兩個shell檔案，其中的一個可以讓我們用來執行命令，而另外一個，如果在網站訪問的話，可以讓我們可以上傳檔案。

Laravel 執行原理分析與原始碼分析,底層看這篇足矣

一、執行原理概述 laravel 的入口檔案 index.php 1、引入自動載入 autoload.php 2、建立應用例項，並同時完成了

MyBatis外掛原理及應用（上篇）

本文主要內容：大多數框架都支援外掛，使用者可通過編寫外掛來自行擴充套件功能，Mybatis也不例外。

《手把手教你》系列技巧篇（三十九）-java+ selenium自動化測試-JavaScript的呼叫執行-上篇（詳解教程）

1.簡介　　在做web自動化時，有些情況selenium的api無法完成，需要通過第三方手段比如js來完成實現，比如去改變某些元素物件的屬性或者進行一些特殊的操作，本文將來講解怎樣來呼叫JavaScript完成特殊操作。

千萬級支付對賬系統怎麼玩（上篇）？

上篇文章聊到了對賬系統業務邏輯以及千萬資料集對賬系統存在的難點，這篇文章就來聊下千萬級資料集下對賬系統實現方案。

JVM上篇：執行時資料區及程式計數器

執行時資料區及程式計數器 1.概述本文主要講的是執行時資料區，它是在類載入完成後的階段，也就是下圖藍色框框圈住的那部分。

人力資源管理系統的執行原理

所有的JSP都在WebContent中所有的Java類都在src中 1.這個主頁相當於一個過渡頁，直接跳轉到login.jsp頁面中

夯實基礎上篇-圖解 JavaScript 執行機制

前言講基礎不容易，本文希望通過 9 個 demo 和 18 張圖，和大家一起學習或溫故 JavaScript 執行機制，本文大綱：

程式是如何在計算機上被執行的？（上篇：軟體部分）

我們用兩篇文章說明“程式是如何在計算機上被執行的？”，本文是第一部分，著重說明軟體部分——從程式到機器語言，下一篇文章說明硬體部分，即機器語言到邏輯閘。

實時車輛行人多目標檢測與跟蹤系統-上篇（UI介面清新版，Python程式碼）

摘要：本文詳細介紹如何利用深度學習中的YOLO及SORT演算法實現車輛、行人等多目標的實時檢測和跟蹤，並利用PyQt5設計了清新簡約的系統UI介面，在介面中既可選擇自己的視訊、圖片檔案進行檢測跟蹤，也可以通過電腦

Redis 命令執行過程(上)

今天我們來瞭解一下 Redis 命令執行的過程。在之前的文章中《當 Redis 發生高延遲時，到底發生了什麼》我們曾簡單的描述了一條命令的執行過程，本篇文章展示深入說明一下，加深讀者對 Redis 的瞭解。

系統執行緩慢，CPU 100%，以及Full GC次數過多問題的排查思路

一般排查問題也是圍繞著記憶體cpu等幾個元素去排查。下圖是一張大體的排查故障或者效能問題的過程，看圖，不多說。

【Laravel-海賊王系列】第十八章，事務的巢狀執行原理

簡介 MySQL 本身是不支援事務巢狀的，Laravel 用了一些技巧進行支援。 DB 物件到底是誰

玩轉 SpringBoot 2 之整合 JWT 上篇

前言該文主要帶你瞭解什麼是 JWT，以及JWT 定義和先關概念的介紹，並通過簡單Demo 帶你瞭解如何使用 SpringBoot 2 整合 JWT。介紹前在這裡我們來探討一下如何學習一門新的技術，我個人總結為 RSA。

信用評分系統執行原理上篇

原始碼

匯入程式碼庫

讀取資料字典

分別解釋下每個變數代表什麼含義

REAL資料型別說明

讀取訓練資料

檢視缺失值和異常值

資料集計算

缺失值處理：

刪除缺失值、刪除重複值

異常值處理

對age分箱

對三個屬性進行分箱

檢視具體的異常值

檢視DebtRatio的箱線圖

檢測出最小的異常值 用於替換異常值

檢視這一列的資料情況

畫一個箱線圖

檢視月收入的資料情況

資料切分

探索性分析

特徵選擇

後續

相關推薦

檢測出最小的異常值用於替換異常值