信用評分系統執行原理中篇-分箱邏輯

阿新 • • 發佈：2020-12-11

技術標籤：平凡人筆記

前言

本篇承接上篇

信用評分系統執行原理上篇

分箱邏輯比較複雜設計到很多的演算法

為了確保分析的準確性我通過pycharm編譯器Debug的方式跑這段程式碼

一步一步的分析程式碼的實現邏輯

編譯器環境的準備

python程式碼準備

編譯器配置

python依賴包安裝

pip3installnumpy
pip3installpandas
pip3installmatplotlib==3.2.0
pip3install--target=./venv/lib/python3.7/site-packagesseaborn
pip3installipython
 
pip3installxlrd
pip3installsklearn

程式碼邏輯分析

自動分箱


#呼叫自定義分箱
dfx1,ivx1,cutx1,woex1=mono_bin(train.SeriousDlqin2yrs,train.RevolvingUtilizationOfUnsecuredLines,n=10)


#自定義自動分箱函式
defmono_bin(Y,X,n=20):
r=0
#好人個數6936
good=Y.sum()
#壞人個數94957
bad=Y.count()-good
#np.abs(0)=0.9272727272727272m
absR=np.abs(r)
whileabsR<1:#滿足迴圈條件進入迴圈體 

#先對訓練集X排序再分組
dfX=X.rank(method="first")
cutPd=pd.qcut(dfX,n)
d1=pd.DataFrame({"X":X,"Y":Y,"Bucket":cutPd})#X.rank(method="first")
d2=d1.groupby("Bucket",as_index=True)
d2Mean=d2.mean()
d2MeanX=d2Mean.X
r,p=stats.spearmanr(d2MeanX,d2.mean().Y)#使用斯皮爾曼等級相關係數來評估兩個變數之間的相關性 

n=n-1
d3=pd.DataFrame(d2.X.min(),columns=['min'])
d3['min']=d2.min().X
d3['max']=d2.max().X
d3['sum']=d2.sum().Y
d3['total']=d2.count().Y
d3['rate']=d2.mean().Y
d3['woe']=np.log((d3['rate']/(1-d3['rate']))/(good/bad))
d3['goodattribute']=d3['sum']/good
d3['badattribute']=(d3['total']-d3['sum'])/bad
iv=((d3['goodattribute']-d3['badattribute'])*d3['woe']).sum()
d4=(d3.sort_values(by='min'))
print(d4)
cut=[]
cut.append(float('-inf'))
foriinrange(1,n+1):
qua=X.quantile(i/(n+1))
cut.append(round(qua,4))
cut.append(float('inf'))
woe=list(d4['woe'].round(3))
returnd4,iv,cut,woe

詳細分析分箱邏輯

引數分析

train.SeriousDlqin2yrs 對應函式中的X值

第一列引數表示一行索引值可以理解成唯一主鍵id
第二列引數表示真實值0表示壞客戶,1表示好客戶

train.RevolvingUtilizationOfUnsecuredLines 對應函式中的Y值

RevolvingUtilizationOfUnsecuredLines信用卡和個人信用額度的總餘額，除了房地產和沒有分期付款債務，如汽車貸款除以信用額度

610030.119104
269740.042524
649620.067740
222710.866513
216141.000000
...
1330330.367954
1235090.031879
182460.090163
288501.644518
161720.160312

第一列是行索引值
第二列表示總額度

函式實現邏輯分析

Y.sum()表示好人總計
Y.count()表示所有人
Y.count()-good表示壞人個數


a、迴圈初始條件:r=0,n=10

b、while迴圈條件:np.abs(r)<1

取絕對值

c-1、迴圈過程中使用斯皮爾曼等級相關係數演算法重新計算r值

c-2、每次迴圈:n=n-1

第一次迴圈：r=0

np.abs(0)==0進入迴圈體

這個是對訓練集X進行順序排名重複的值誰出現在前面就先排誰

X.rank(method="first")

這裡簡單介紹下 rank排名函式和qcut\cut函式

理解了這些函式的作用就可以更好的理解分箱演算法對於資料處理的過程

rank函式


舉一個簡單的例子

有一個數據源欄位：班級、姓名、成績

目的：找出每個班級中排名第二的學生資訊

需要做的步驟：

1、根據班級分組
2、每個組計算排名
3、篩選出排名為第二的學生

此時對於相同成績的同學如何排名

a順序排名先到先得

李四和王五的成績都為30，但是李四出現在王五的前面，所以李四的排名靠前

當method取值為min，max，average時，都是要參考“順序排名”的）


b密集排名：成績相同排名相同

相同成績的同學排名相同，其他依次加1即可

1，2，2，3，4


c跳躍排名：成績相同排名相同

1，2，2，4，5

成績相同的同學，取在順序排名中最小的那個排名作為該值的排名，李四和王五同學排名分別為2和3，那麼當method為min時，取2和3的最小的那個作為第2名作為成績30的排名


rank函式取值範圍

‘average’，’first’，’min’，‘max’，’dense’

min和max是跳躍排名的一種

關於average，成績相同時，取順序排名中所有名次之和除以該成績的個數，即為該成績的名次；比如上述排名中，30排名為2,3，那麼30的排名=（2+3）/2=2.5，成績為50的同學只有1個，且排名為1，那50的排名就位1/1=1。

關於max，和min一樣也是跳躍排名的一種，成績相同時取順序排名中排名最大的作為該成績的名次，在順序排名中，30最大的排名為3，那麼當引數為max時，30的排名=3，此時，李四和王五的排名都為第3名了。

qcut函式


跟cut()按照變數的值對變數進行分割不同，qcut()是按變數的數量來對變數進行分割，並且儘量保證每個分組裡變數的個數相同

例子：把資料由小到大分成四組，並且讓每組資料的數量相同

#把變數由小到大分成四組，並且讓每組變數的數量相同
d_qcut=d.copy()
d_qcut['qcut_group']=pd.qcut(d_qcut['number'],4)
d_qcut

#檢視每個分組裡變數的個數
d_qcut['qcut_group'].value_counts()

使用qcut()對資料進行分割之後，每個分組裡的資料個數都大致相同，但是跟cut()不同的是，每個分組裡值的範圍並不相同

cut() 函式

按照指定的邊界值對變數進行分割

#使用bins引數，指定每個分組的邊界
d_cut_bins=d.copy()
d_cut_bins['cut_group']=pd.cut(d_cut_bins['number'],
bins=[0,10,50,100])
d_cut_bins

繼續信用評分系統分箱程式碼分析

dfX=X.rank(method="first")

cutPd=pd.qcut(dfX,n)

n=10

對dfX分10組每組的數量大小一致

d1=pd.DataFrame({"X":X,"Y":Y,"Bucket":cutPd})

d2=d1.groupby("Bucket",as_index=True)

d2Mean=d2.mean()

d2MeanX=d2Mean.X

使用斯皮爾曼等級相關係數來評估兩個變數之間的相關性

r,p=stats.spearmanr(d2MeanX,d2Mean.Y)
這個具體什麼原理感興趣的朋友可以自己查閱一下資料

每個指標具體計算過程

min最小值d2.min().X
max最大值d2.max().X
total總人數d2.count().Y
sum好人數d2.sum().Y
rate均值d2.mean().Y
woe=np.log((d3['rate']/(1-d3['rate']))/(good/bad))

(好人均值/壞人均值)/(好人人數/壞人人數)取對數即WOE

goodattribute=d3['sum']/good每組好人數量/總的好人數

badattribute=(d3['total']-d3['sum'])/bad每組壞人人數/壞人總人數

iv=((d3['goodattribute']-d3['badattribute'])*d3['woe']).sum()

d4=(d3.sort_values(by='min'))
通過min列排序

該分箱函式最終得到的結果

ivx1：1.0027047570109968
cutx1：[-inf,0.0313,0.1583,0.5605,inf]
woex1：[-1.37,-1.212,-0.288,1.106]

信用評分系統執行原理中篇-分箱邏輯

技術標籤：平凡人筆記前言本篇承接上篇信用評分系統執行原理上篇分箱邏輯比較複雜設計到很多的演算法

信用評分系統執行原理上篇

技術標籤：平凡人筆記原始碼 https://gitee.com/pingfanrenbiji/Credit-Card-Score 在jupyter中開啟該專案

人力資源管理系統的執行原理

所有的JSP都在WebContent中所有的Java類都在src中 1.這個主頁相當於一個過渡頁，直接跳轉到login.jsp頁面中

系統執行緩慢，CPU 100%，以及Full GC次數過多問題的排查思路

一般排查問題也是圍繞著記憶體cpu等幾個元素去排查。下圖是一張大體的排查故障或者效能問題的過程，看圖，不多說。

【Laravel-海賊王系列】第十八章，事務的巢狀執行原理

簡介 MySQL 本身是不支援事務巢狀的，Laravel 用了一些技巧進行支援。 DB 物件到底是誰

Java程式執行原理分析

class檔案內容 class檔案包含Java程式執行的位元組碼資料嚴格按照格式緊湊排列在class檔案的二進位制流，中間無分割符

Java執行緒狀態執行原理解析

這篇文章主要介紹了Java執行緒狀態執行原理解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

簡單瞭解SpringCloud執行原理

這篇文章主要介紹了簡單瞭解SpringCloud執行原理,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

詳解MySQL執行原理、邏輯分層、更改資料庫處理引擎

用了那麼長時間的MySQL，sql語句相信早已爛熟於心，於是，我就試著去了解它的執行原理，以下是我學習過程中的總結要點。

python自動分箱,計算woe,iv的例項程式碼

筆者之前用R開發評分卡時，需要進行分箱計算woe及iv值，採用的R包是smbinning,它可以自動進行分箱。近期換用python開發，也想實現自動分箱功能，找到了一個woe包，地址https://pypi.org/project/woe/，可以直接 pip

python實現連續變數最優分箱詳解--CART演算法

關於變數分箱主要分為兩大類：有監督型和無監督型對應的分箱方法： A. 無監督：(1) 等寬 (2) 等頻 (3) 聚類

python的等深分箱例項

背景當前很多文章嘗試過最優分箱，python上也有cut等方法進行等寬分箱。為了方便日後輸出結果以及分箱要求。做一個簡單的輪子以供大家日後使用。很多能用其他輪子的地方也沒有多餘出力，也不託大會比別人寫的好。空

python實現二分類的卡方分箱示例

解決的問題： 1、實現了二分類的卡方分箱； 2、實現了最大分組限定停止條件，和最小閾值限定停止條件；

使用pandas實現連續資料的離散化處理方式(分箱操作)

Python實現連續資料的離散化處理主要基於兩個函式，pandas.cut和pandas.qcut，前者根據指定分界點對連續資料進行分箱處理，後者則可以根據指定箱子的數量對連續資料進行等寬分箱處理，所謂等寬指的是每個箱子中的資料

使用python 計算百分位數實現資料分箱程式碼

對於百分位數，相信大家都比較熟悉，以下解釋源引自百度百科。百分位數，如果將一組資料從小到大排序，並計算相應的累計百分位，則某一百分位所對應資料的值就稱為這一百分位的百分位數。可表示為：一組n個觀測值按

基於python 等頻分箱qcut問題的解決

在python 較新的版本中，pandas.qcut()這個函式中是有duplicates這個引數的，它能解決在等頻分箱中遇到的重複值過多引起報錯的問題；

通過例項解析Python return執行原理

return 語句就是講結果返回到呼叫的地方，並把程式的控制權一起返回程式執行到所遇到的第一個return即返回（退出def塊），不會再執行第二個return。程式碼如下

Spring Boot Actuator執行器執行原理詳解

Spring Boot執行器(Actuator)提供安全端點，用於監視和管理Spring Boot應用程式。預設情況下，所有執行器端點都是安全的。在本章中，將詳細瞭解如何為應用程式啟用Spring Boot執行器。

Python爬蟲JSON及JSONPath執行原理詳解

JSON(JavaScript Object Notation) 是一種輕量級的資料交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行資料互動的場景，比如網站前臺與後臺之間的資料互動。

Python帶引數的裝飾器執行原理解析

關於裝飾器的理解，特別像《盜夢空間》中的進入夢境和從夢境出來的過程，一層一層的深入夢境，然後又一層一層的返回，被帶入夢境的是被裝飾的函式，裝飾器就是使人入夢的工具。

信用評分系統執行原理中篇-分箱邏輯

前言

編譯器環境的準備

python程式碼準備

編譯器配置

python依賴包安裝

程式碼邏輯分析

自動分箱

詳細分析分箱邏輯

引數分析

函式實現邏輯分析

相關推薦