1. 程式人生 > >######好好好#####評分模型的檢驗方法和標準&信用評分及實現

######好好好#####評分模型的檢驗方法和標準&信用評分及實現

引言:對於信用評分模型,很多朋友或多或少有所瞭解,這裡做一般性的介紹,並分享自己的多年從業經驗。這邊短文主要包括:信用評分模型,自變數的生成、篩選、分檔和轉換,及常用有監督學習模型。

信用評分模型

信用評分模型是一種有監督的學習模型(Supervised Learning),資料由一群自變數X和對應的因變數y構成。傳統零售信用模型中,X大致分為客戶的基本資訊(年齡、性別、職業、學位等),財務資訊(收入,每月生活消費,每月信貸還款額等),產品資訊(LTV,信用卡類別,個人貸款用途等),徵信資訊(前6個月被查詢次數,前6個信用卡最大利用率,未結清貸款數等);而一般取值0-1因變數y可以定義為在未來12個月是否出現欠款90天等.

經驗備註在大資料下,很多網際網路公司對個人的評估不再侷限於以上幾種資訊,而是根據更為廣泛的資料來源對個人進行更全面的刻畫,故有稱之為客戶畫像。資料維度會考慮個人在社會上留下的任何資料,如手機使用行為,理財行為,社交圈,網購行為,旅遊行為等等等等。大家的各方面資料其實都在被不同的公司和不同的APP收集。。。

自變數的生成

自變數是信用風險的來源,除了考慮直接收集的變數,信用評分建模過程中往往需要建模人員產生更多的衍生變數。這部分工作要分析人員的直覺、長期經驗的積累和資料探勘技術的應用。大家可以通過京東和支付寶的評分一窺其自變數的維度:芝麻信用分為5個維度:身份特質,履約能力,信用歷史,人脈關係,行為偏好

;小白信用分也分為5個維度:身份,資產,關係,履約,偏好。

經驗備註現在越來越多的模型技術被應用於信用模型,但是個人覺得無論高階模型還是初級模型,最為重要的是更廣泛的資料和產生更多更具有預測能力的自變數。

自變數的篩選

自變數一旦豐富了起來,就涉及到有效變數的篩選,大致可根據一下幾個原則或方法:變數的直觀意義(是否跟y有關),變數的單調性或合理性,未來是否可以獲取以便模型可實施,變數的區分能力(IV),變數間相關性(變數聚類),變數缺失率,分檔之後的穩定性等等。

經驗備註對於區分能力太強的變數,或缺失率很大的變數,不建議直接放入模型,可以考慮做成規則或者做成最後模型的調整。在大資料下,人們經常強調自變數與因變數的相關關係,應用於精準性要求不高的營銷模型問題不大。而對於精準度要求極高的信用評分模型,相關關係的應用值得推敲。 

自變數分檔和轉換

為了保持模型的穩定性,信用模型一般對自變數進行分檔,比如根據風險不同把年齡分成幾檔。這樣每檔需要一個值來代表這段的自變數輸入,這就是變數的轉換,常見的有WOE和Logit轉換。通過轉換後不僅實現了穩定性要求,也克服不同變數間刻度不統一的問題,還克服迴歸中缺失值的填充問題。

經驗備註如果分檔過粗糙,不但會降低單個變數的預測能力,也會造成最終評分集中度過高的問題。

解決方法:可以考慮每檔用線性插值來代替常數,也可以尋找更多能區分分數集中樣本的自變數放入模型。 

有監督學習模型介紹

目前比較流行的模型主要有以下幾種(以後分享會逐一介紹):

  1. Logistic 迴歸(Logistic Regression)

  2. 決策樹(Decision Tree)

  3. 支援向量機(Support Vector Machine)

  4. 人工神經網路(Artificial Neural Network) 

  5. 生存分析模型(Survival Analysis Model)

經驗備註除此上述之外,還有些高階方法或演算法:整合方法(Ensemble Method)(例如隨機森林(Random Forrest),Boosting,AdaBoost),深度學習方法(Deep Learning),隨機梯度下降演算法(Stochastic Gradient Descent)等。

信用評分及實現

1、何為信用評級?

首先,何為“信用”?俗話“有借有還”從道德上對信用進行了定義,然後銀行與其客戶之間“借貸”的關係,往往較為複雜。通常,銀行需要全方位、多角度地去評價客戶,確認客戶的“信用”,才能放心地把錢“借”出去。

我們都熟悉支付寶芝麻信用分,它是通過採集個人使用者資訊,經過加工、計算得出使用者的信用得分,當然,分數越高代表信用越好

大資料

這幾個維度包含了使用者個人基本資訊、好友互動資訊、信用賬戶情況及履約歷史、購物及理財等行為偏好等多項內容,通過大資料技術,最終以分數值的形式,形成對使用者信用的準確評價。這就是信用評級。

隨著數學和統計技術在傳統金融行業的廣泛應用和推廣,銀行業也採用了“定量”的形式,多角度分析、判斷不同客戶的不同的信用等級,從而來決定客戶可獲取的授信額度、首付額度或利率優惠程度等,以科學手段準確地計量客戶的“信用”,從而避免因借貸雙方資訊不一致而引發的信用風險損失。

2、信用評級的基礎:資料

現如今,早已不是撥打算盤手工記賬的年代,社會上任何活動都拖離不了資訊系統,當然,這些資訊系統中,也無時不刻地記錄著你的所有行蹤,這就是所謂的“資料”。對這些資料的儲存、清洗、加工,都為銀行對客戶信用評級提供了健全、豐富的資訊來源;基於此,銀行以大資料技術進行分析和計算,從而準確地對客戶進行信用評價。

銀行進行客戶信用評級的資料來源於銀行內部系統產生的資料或外部的資料,如圖示:

大資料

內部資料

從客戶的第一次開戶開始,其與銀行的每一次互動都將銀行的資訊系統留存,例如存款、轉賬、還信用卡、還貸、銷戶或購買理財等,每一次活動的時間、方式、地點、賬戶、金額、交易物件等等,都完整的儲存在銀行的資料庫中。這些積累的資料,是銀行非常寶貴的資產。與客戶評級相關的資料,通常包括以下幾個方面:

1)客戶基本資料:銀行通過不同形式、不同時間、不同地點所記錄的客戶名稱、證件編號、聯絡方式、營收情況、學歷、就業情況、客戶關聯人資訊等;

2)貸款或信用卡賬戶資訊:包括賬戶號碼、餘額、開銷戶時間、額度、額度調整歷史等;

3)交易歷史:即貸款放款、還款計劃及實際還款、現金提取、信用卡刷卡、還卡、換卡等各類事件的具體時間、地點、方式等詳細記錄;

4)擔保資訊:即貸款抵押物基本資訊、估值或評級資訊,擔保人資訊等。

除上述外,信用卡或貸款產品的營銷活動等資料,也與客戶評級有關。

外部資料

外部資料來源廣泛,以人行徵信資料為例,其包含了客戶基本資訊,如姓名、性別、證件編號、婚姻情況、聯絡方式、住址等等;借款人的信用歷史,如逾期情況、貸款尚未結清資訊、擔保資訊、異常交易資訊等;還有一些個人非銀行資訊,如住房公積金資訊、社保資訊等。

目前,各家銀行都已經建立ODS或資料倉庫等資料平臺,其包含的資訊能滿足銀行各條線的業務需要,為開展各類管理、經營決策的提供資料基礎。然而,客戶信用評級資料作為資料平臺的一部分,通常混合於其他資料之中,因此,有必要僅針對信用風險管理或信用評級的需要,面向信用風險管理應用開發,單獨建立信用風險資料集市。

大資料

資料來源於各類生產、業務系統,經由資料倉庫,進入信用風險資料集市中。風險資料集市則按照上層應用的需要,進行資料的整合和儲存。一般來說,信用風險相關的資料經過拆分、拼裝或重組,以主題的形式儲存在信用風險資料集市中。通常,包含以下幾個主題:

大資料

3、信用評分的實現:模型開發

資料探勘是從大量的、有噪音的資料中,發現潛在的規律和價值,以輔助提高管理、決策能力。銀行通過對外部資料及信貸等業務中產生的資料進行提煉、分析,開發模型,對客戶進行信用評分,以服務於信貸管理,增強風險控制能力。

第一步:樣本抽取

銀行積累的客戶評級相關的資料量極其龐大,出於資料處理速度及模型開發效率的考慮,通常抽取一定量的資料作為樣本,開發模型。常用的樣本選擇方式有兩種,隨機抽樣和分類抽樣。隨機抽樣較為交單,即隨機選擇樣本,認為樣本可以代表整體情況。例如,總貸款賬戶數是5000,不良貸款賬戶數是100,佔比1/50;那麼隨機抽取100個貸款賬戶,其中包含2個不良貸款賬戶。而分類抽樣,則需要先分類,確認各類樣本的資料量,再分別進行隨機抽樣。例如上述例子中的賬戶樣本選擇,首先據擔保情況進行分類,有無擔保比例分別為3:2,則再分別隨機抽取60個有擔保的不良貸款賬戶和40個無擔保的不良貸款記錄。

當然,以上僅為示例,實際情況卻往往復雜很多。

第二步:變數選擇

明確因變數和自變數。其中因變數為表現變數,即模型的結果“客戶信用情況”;自變數為與之相關的因素,它的預測能力決定於它與因變數之間相關關係和邏輯因果關係。通常,與信用等級相關的因素包含客戶的學歷、工資、年齡、額度使用情況、現金提取次數、還款時間等。

第三步:模型分組

模型分組的意義在於區分不同行為模型和數理關係,以提高模型預測的精準度。例如,學生和在職人員的還款能力是有差異的,但是某類自變數和壞賬率的表現上,趨勢十分相似,所以講模型分組,將避免相互之間的模型因素的干擾和影響。

第四步:模型設計

影響模型結果的變數非常複雜,因此需要根據單個變數的實際預測能力進行篩選,剔除沒有預測能力的變數,以縮小變數的範圍。

常見的模型演算法有線性迴歸分析、非線性迴歸分析、邏輯迴歸模型、神經網路模型、決策樹模型等。在實際的模型選擇過程中,需根據模型性質、分析人員經驗等多方面因素綜合考量。

第五步:模型檢驗

模型檢驗,在於衡量開發的信用評分模型能力。常用的檢驗報告有以下幾類:

  1. 交換曲線
  2. K-S指標
  3. 區分度
  4. 擬合度曲線

其中,前三者表現的效果為:“評分越高,則好賬戶出現的越多”;而擬合度曲線,則用於對比預測情況與實際情況差異

寫在最後

信用評分對銀行的經營效益有著重要的作用,信用評分模型應用效果,很大程度上也取決於銀行的內部管理及信貸政策。技術和管理相結合,雙管齊下,一定是控制客戶信用風險的最優方案。

End.

轉自:http://www.36dsj.com/archives/75665

相關推薦

######好好好#####評分模型檢驗方法標準&信用評分實現

引言:對於信用評分模型,很多朋友或多或少有所瞭解,這裡做一般性的介紹,並分享自己的多年從業經驗。這邊短文主要包括:信用評分模型,自變數的生成、篩選、分檔和轉換,及常用有監督學習模型。信用評分模型信用評分模型是一種有監督的學習模型(Supervised Learning),資料由一群自變數X和對應的因變數y構成

《工作流管理——模型方法系統》筆記2:Petri網對工作流建模

Web 是一個生長著的、開放的、動態的分散式系統。 Web 始於1989 年,當時英國科學家 Tim Berners-Lee 和比利時人 Robert Cailliau 在歐洲粒子物理研究所(European Organization for Nuclear Research

深度學習模型壓縮方法框架

模型壓縮的兩種方法: 一、設計輕量級的模型(SqueezeNet,MobileNet,ShuffleNet等):不需要壓縮。 二、模型結構/記憶體優化:剪枝、權值量化等   二、模型結構/記憶體優化 目前的框架主要有: Deep Compression、XNorNe

讀書筆記《工作流管理-模型方法系統》-2、工作流建模

1、每個案例(工作)應該擁有的要素:唯一標識、生命週期、狀態、案例資料、案例檔案、條件 2、條件是一個任務開始及完結的前提。條件決定了任務是否被執行以及執行的順序。 3、任務是工作的一個不可分割的邏輯單元,它必需被完整執行,或發生錯誤就需要回滾(rollback). 4

工作流管理--模型方法系統

    本人專業電腦科學與技術,目前還是小渣渣。在老師的推薦下,讓我學習工作流管理這本書,所以就給大家介紹一點工作流管理的小知識。也是一些自己的理解。     工作流的基本目的就是為每次活動選擇合適的執行的型別。什麼是活動呢 ?活動就是資源的真整合,即每次案例藉助資源來執行

scala 基礎十二 scala apply的使用,工廠方法單例模式的實現

定義 其他 返回 pack 新的 true 伴生對象 args null 1. apply 可以用來實現類似於靜態的初始化類的實例,請看下面實例 package smart.iot class applyclass { } class A {

ubuntu 安裝 pip的方法遇到的問題 pip 常用命令

1. ubuntu 安裝pip的步驟 1.1  更新系統包(一般pip安裝不了,就可以先更新apt,再安裝pip) apt和apt-get的區別:apt = apt-get、apt-cache 和 apt-config 中最常用命令選項的集合。   &nbs

TensorFlow的訓練模型在AndroidJava的應用呼叫

環境:Windows 7 當我們開始學習程式設計的時候,第一件事往往是學習列印"Hello World"。就好比程式設計入門有Hello World,機器學習入門有MNIST。 MNIST是一個入門級的計算機視覺資料集,它包含各種手寫數字圖片: 它也包含每一

PHP魔術方法魔術常量介紹使用

有些東西如果不是經常使用,很容易忘記,比如魔術方法和魔術常量。 魔術方法(Magic methods) PHP中把以兩個下劃線__開頭的方法稱為魔術方法,這些方法在PHP中充當了舉足輕重的作用。 魔術方法包括: __construct(),類的建構函式__destruct(),類的解構函式__call(),

簡單工廠模式工廠模式區別實現

簡單工廠模式 簡單工廠模式模式分為三種:普通簡單工廠、多方法簡單工廠、靜態方法簡單工廠。 01、普通簡單工廠(傳送郵件和簡訊的例子) 首先,建立二者的共同介面: public interface Sender {    &n

DeepLearning之RNNLSTM詳解實現

RNN 1. 什麼是RNNs RNNs的目的使用來處理序列資料。在傳統的神經網路模型中,是從輸入層到隱含層再到輸出層,層與層之間是全連線的,每層之間的節點是無連線的。但是這種普通的神經網路對於很多問題卻無能無力。例如,你要預測句子的下一個單詞是什麼,一般需

linux下malloc()free()的原理實現

在學習C語言的時候知道了動態記憶體分配的概念,也知道了malloc()的使用方式,但是一直沒有去了解或者認真學習malloc()的實現原理。今天看到關於動態記憶體分配方面的資料,就整理總結下。 在C語言中只能通過malloc()和其派生的函式進行動態的申請記憶

rhcs實現服務級別的高可用(httpd為例)fence的原理實現

rhcs實現服務級別的高可用 rhcs是用來實現高可用的一個紅帽套件。下來我將介紹如何安裝配置rhcs和用rhcs實現httpd的高可用。作業系統版本:redhat6.5master:server1slave:server2在server1上搭建web管理介面實驗之前給兩臺節

CountDownLatch CyclicBarrier 的運用實現原理

I.CountDownLatch 和 CyclicBarrier 的運用 CountDownlatch: 定義: 其是一個執行緒同步的輔助工具,通過它可以做到使一條執行緒一直阻塞等待,直到其他執行緒完成其所處理的任務。一個特性就是它不要求呼叫countDown方法的執行

一文搞定信用評分模型-Python、SASR的實現(含程式碼視訊)

感謝關注天善智慧,走好資料之路↑↑↑歡迎關注天善智慧,我們是專注於商業智慧BI,人工智慧AI,大資料分析與挖掘領域的垂直社群,學習,問答、求職一站式搞定!對商業智慧BI、大資料分析挖掘、機器學習,python,R等資料領域感興趣的同學加微信:tstoutiao,邀請你進入資料愛好者交

IE盒模型標準模型

模式 mes html註釋 註意 eset 最有 color ie版本 包括 標準盒模型和ie盒模型(怪異盒模型) w3c標準盒模型 width和height不包括padding和border ie盒模型 width和height

信用風險評估評分卡建模方法原理

pre was 建模 cli com tps course yun http 課程介紹 信用風險評分卡為信用風險管理提供了一種有效的、經驗性的解決方法,是消費信貸管理中廣泛應用的技術手段。 評分卡是信用風險評估領域常見的建模方法。評分卡並不加單對應於某一種機器學習算法,而是

Oracle數據OA信用盤平臺出租遠程連接的四種設置方法註意事項

應用 prot 用戶解鎖 con 註意事項 菜單欄 tcp protocol sci OA信用盤平臺出租論壇:haozbbs.com Q1446595067 第一種情況:  若oracle服務器裝在本機上,那就不多說了,連接只是用戶名和密碼的問題了。不過要註意環境變量%OR

ArrayList原理、OA信用盤平臺出租LinkedList原理方法叠代器註意事項

move java link ret offer bject 隊列 先進先出 錯誤 叠代器在變量元素OA信用盤平臺出租QQ2952777280【話仙源碼論壇】hxforum.com【木瓜源碼論壇】papayabbs.com的時候要註意事項:    在叠代器叠代元素 的過程中

這一次,真正搞懂信用評分模型(上篇)

工程師 集中 重要 sklearn app 目的 概率 單變量 是我 python風控評分卡建模和風控常識 https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign