1. 程式人生 > >信貸風控模型開發----模型流程&好壞樣本定義

信貸風控模型開發----模型流程&好壞樣本定義

第二章 模型開發流程&好壞樣本定義

2.1模型開發流程

2.1.1 評分模型流程圖

這裡寫圖片描述

2.1.2流程圖闡述

該小結提出了一些資料指標,如果不明白沒有關係,往後的文章筆者會一個個地解釋這些指標的含義和計算方法

  • 資料獲取:獲取建模所需要的資料,一般分為內部為外部資料,內部資料例如貸款公司內部蒐集儲存的客戶資訊,例如客戶在平臺內部的登陸、註冊、消費資訊等,外部資料一般有第三方資料,例如人行徵信報告、一些第三方機構提供的多頭借貸等
  • EDA與資料描述,EDA全稱explore data analysis,目的在於探索性地分析客戶資料分佈情況以及資料質量,檢查資料是否為單一值、包不包含缺失以及異常資料等。同時通過各種分析手段(Gini、列聯表、
    χ2
    檢驗、相關係數)等分析變數與目標(違約與否)的關聯
  • 資料準備,準備好我們需要進行建模的樣本寬表,包括資料合併、清洗、轉換等工作,這也是建模中最耗費時間的一項。
  • 變數選擇,在資料準備好以後,未必所有的變數都需要進入模型,否則容易出現維度災難,就是資料集過大導致開發時間過長,根據一定方法選擇最優變數進入模型就成了必要的工作,常用的有IV值,逐步迴歸(也就是先將一個變數納入模型,然後逐步將其他變數一個一個納入模型訓練,剔除掉不能減少AIC的變數,然後繼續加入新變數,直到AIC無法再下降為止)。另外還有假如L1懲罰項,用整合學習的方法選擇變數等。
  • 模型開發,利用機器學習,訓練模型,常用的模型有logsitic迴歸、線性迴歸、決策樹、深度學習等。
  • 模型評估,評價模型對於好壞樣本的區分能力,常用的指標有ROC曲線、RECALL、PERCISION、KS值等。
  • 評分卡建立和刻度,利用模型估計出來的引數(也就是公式)將其轉化為評分規則或者是風控規則。
  • 檢測和報告,監控模型是否執行穩定,常用的指標有PSI、評分遷移矩陣、kendall 秩相關係數等。
  • 評分實施,模型部署上線,用於風控系統。

2.2 好壞樣本定義

開發信用評分模型的首要目標就是知道來者是好人還是壞人,他未來會不會出現逾期、失聯等。所以,如何定義一個借款人的好壞十分講究,並不是一個人有過逾期欠款他就不是好人了,畢竟發生逾期的原因總是多方面的,有的僅僅是偶爾忘了,這部分總體還是好人,而有的是中途發生財務原因暫時無力償還,還有的嚴重一點就是主觀上存在壞的目的,借了錢就消失賴賬,甚至是身份被騙子盜用。所以,建模過程中,為了訓練出一個優質的模型,需要正確地定義好壞樣本。

2.2.1觀察期、表現期、觀察點

在這裡,需要明確三個定義:觀察期、表現期、觀察點,可以先從如下時間軸看起。
這裡寫圖片描述
- 觀察期:就是時間軸左側,主要是用來生成使用者特徵的時間區間,不宜太長也不宜太短,一般為1年到3年左右
- 觀察點:這個點並是一個具體的時間點,而是一個時間區段,表示的是客戶申請貸款的時間,用來蒐集那些用來建模的客戶樣本,在該時間段申請的客戶會是我們用來建模的樣本
- 表現期:用來定義使用者是否好壞的時間區段,一般是6月到1年左右,一般最常用的是定義為壞樣本的指標有:M3+逾期、M3以內逾期中定義為失聯、欺詐、身份盜用等情況,這些需要看自身業務情況而定

補充說明:
1.觀察點的設計:
觀察點的設計有額外的講究,其中涉及到一個Mob的概念。而所謂Mob,全稱month on book,等於觀察點減去貸款發放時間。所以,觀察點的設計在於貸款發放時間往後推Mob期,Mob的長短關係到模型的觀察期以及觀察期生成的時間切片變數。

2.觀察期過長或過短的影響:
- 一個過長的觀察期,可能會導致客戶不在你的mob內,大批樣本無法進入模型
- 一個過短的觀察期,則會導致樣本無法生成足夠多有效的時間切片變數

3.時間切片變數:
- 時間區段的行為變數,例如過去3個月平均消費金額、過去6個月消費平均次數等

2.2.2舉例說明

假如,現在我們的模型表現期為1年,觀察期為1年,觀察點為什麼時候呢?也就是說當我們有一個客戶在2018-1-1號來申請貸款,貸款機構需要用現有的模型對該申請人進行一個申請評分,評估他未來表現期內觸發壞樣本屬性的概率,那麼該模型採用的客戶樣本是什麼時候申請進件的?
答案:因為上面定義的表現期是1年,那麼往前推一年,觀察點大概為2017-1-1號左右某段時間區間,因為觀察期也是1年,所以再往前推1年(即觀察期:2016-1-1到2017-1-1),利用這1年所有觀察點內申請人一些資訊建立模型的觀察變數,然後再往後推一年(即表現期:2017-1-11到2018-1-1),所有在觀察點內的申請人在這一年時間內的表現情況來定義違約。然後來訓練出一個模型。對2018-1-1號的申請人進行評分。所以申請評分卡模型有著天然的滯後性,需要不斷的對其模型進行監控。

相關推薦

信貸模型開發----模型流程&好壞樣本定義

第二章 模型開發流程&好壞樣本定義 2.1模型開發流程 2.1.1 評分模型流程圖 2.1.2流程圖闡述 該小結提出了一些資料指標,如果不明白沒有關係,往後的文章筆者會一個個地解釋這些指標的含義和計算方法 資

評分卡模型開發--總體流程

一、信用風險評級模型的型別 信用風險計量體系包括主體評級模型和債項評級兩部分。主體評級和債項評級均有一系列評級模型組成,其中主體評級模型可用“四張卡”來表示,分別是A卡、B卡、C卡和F卡;債項評級模型通常按照主體的融資用途,分為企業融資模型、現金流融資模型和專案融資模型等。

如何用技術提升3倍反套現識別量?支付寶第五代引擎AlphaRisk模型解析

團隊介紹螞蟻金服風險與決策中心整體負責其國內外業務場景的交易和資金風險防控,包括盜用、欺詐、營銷

銀狐系統教你如何做信貸

1:任何時候,必須認識出3個問題,你的使用者是誰?他們貸款幹什麼?他們拿什麼還款? 先說第一個:使用者是誰。這就涉及到使用者畫像。比如使用者的基本資訊,使用者的收入來源,使用者的家庭背景,使用者的工作,使用者的經濟條件,使用者的消費情況等等。各種資訊最後得出一

金融信貸(一)——申請評分卡

網際網路金融業申請評分卡介紹 申請評分卡的重要性和特性 評分卡: 以分數的形式來衡量風險機率 對未來一段時間內違約\逾期\失聯概率的預測 通常分數越高越安全 申請環節:反欺詐評分卡,申請評分卡;監控環節:行為評分卡;逾期環節:催收評分卡

TCRP-《信貸評分卡簡介》課程筆記

講師介紹 無偏  信貸風控資深資料分析師 課程介紹 本課程主要對信貸風控領域的評分卡進行介紹,包括評分卡中的申請評分卡,行為評分卡和催收評分卡。針對申請評分卡,本課程展示了基於邏輯迴歸和BestKS分箱演算法(BestKS分箱演算法是一種以最優KS為分割點的二叉樹結構的

金融信貸(二)——資料預處理和特徵衍生

申請評分卡中的資料預處理和特徵衍生 構建信用風險型別的特徵 資料預處理 1、資料預處理 包括格式、缺失值的處理等。 缺失值包括如下幾種情況: 1、完全隨機缺失 2、隨機缺失 3、完全非隨機缺失:與變數本身有關,比如富裕家庭不願意填收入 處理缺失值的方法

金融信貸中的機器學習

區分 可能 編程 邏輯回歸 足夠 應用 定義 開發 pan 金融信貸風控中的機器學習 推薦學習地址:https://pan.baidu.com/s/1AeYKXniWfE4va_9EAKseyg 提取碼: 5w6e 如何搭建金融信貸風控中的機器學習模型推薦學習鏈接: htt

評分模型開發流程

一 概述 餘額支付的風險識別模型分為兩類:(1)盜號交易識別風險 和 (2)盜卡交易識別風險。其中盜卡交易識別風險和餘額有關主要是由於騙子註冊號碼幫盜來的卡,然後進行充值到餘額,通過餘額支付銷贓。(1)和(2)兩種針對的情景不一樣,採用的特徵變數和變數的重要性很大程度是不一樣的。針對(1

4步教你開發評分模型

“你的模型準麼?” “你的模型真的有用麼?” “你的模型對風控有價值麼?” 在為P2P公司建立風控評分模型過程中,這是最常見的問題。為了回答這一問題,我們想先討論下如何從實際業務出發,以怎樣的開發流程才能建立一個有效、有用、有價值的模型,希望讀後能給你一定的啟發。

如何“謹慎”使用“數據驅動”的模型(一)-- 數據篇

數據驅動 數據分析 人工智能 數據質量 如何“謹慎”使用“數據驅動”的風控模型(一)-- 數據篇 人工智能時代來臨,2017年“數據驅動”在整個信貸生態圈熱度陡增,無論是金融機構、助貸機構、征信機構、大數據廠商等,無不在各大論壇、峰會、沙龍、融資中宣傳各自“數據驅動”的理

如何“謹慎”使用“數據驅動”的模型(三)——監控篇

pro sha nag -o 異常 靈活 目的 去除 決策體系 之前小編介紹了謹慎使用“數據驅動”的風控模型,需要“高質量的數據 + 審慎嚴謹的決策模型 + 實時全面的監控分析”動態閉環。動態閉環能夠“動態”起來,需要最後一個步驟“監控”把關,全面、細致的分析、評估決策效果

筆記︱分類模型種類(決策、排序)比較與模型評估體系(ROC/gini/KS/lift)

轉載自素質雲部落格。本筆記源於CDA-DSC課程,由常國珍老師主講。該訓練營第一期為風控主題,培訓內容十分緊湊,非常好,推薦:CDA資料科學家訓練營 —————————————————————————————————————————— 一、風控建

建模】模型崗基本要求及面試問題總結

一 準備工作 根據核心職業CD法則,找這份工作前,你先得知道自己有什麼,自己要什麼;面試單位有什麼,面試單位要什麼。 就筆者這將近一年的學習及工作經驗總結而言,頂頭到建模這塊兒,整個知識版塊可以分為五大塊兒,總結如下: 前搞MIS:業務資料報告及報表的開發。

P2P暴雷後續 完善網際網路金融大資料模型成為命門

金融的本質就是信用、風險、交易、融資、財富管理,信用是整個金融領域的根本基石,所以金融風控是被很多金融公司擺放在第一位,資產規模放在第二位,2018年P2P行業暴雷對整個金融理財貸款行業產生了巨大的影響,這其中很多企業倒閉,就是因為風控沒有做好,風控問題已經成為今日行業的焦點,特別是大資料風控模型已

基於知識圖譜+機器學習,搭建模型的專案落地

本專案主要實現邏輯如下: 1.將測試資料分表格存入mysql資料庫。 2.設計知識圖譜關係圖,按照設計思路將node與對應的relationship存入neo4j資料庫。 3.設計一套有效的特徵,提取特徵用於機器學習模型進行訓練,用以風控判斷。 4.將提取特徵的cypher語句存入mysql

金融-->申請評分卡模型-->特徵工程(特徵分箱,WOE編碼) 標籤: 金融特徵分箱-WOE編碼 2017-07-16 21:26 4086人閱讀 評論(2) 收藏 舉報 分類: 金融

這篇博文主要講在申請評分卡模型中常用的一些特徵工程方法,申請評分卡模型最多的還是logsitic模型。 先看資料,我們現在有三張表: 已加工成型的資訊: Master表 idx:每一筆貸款的unique key,可以與另外2個檔案裡的idx相匹配。 UserInfo_*:借款人特徵欄位 WeblogI

金融-->申請評分卡模型-->申請評分卡介紹

從這篇博文開始,我將總結金融風控中的另外一個模型:申請評分卡模型。這篇博文將主要來介紹申請評分卡的一些基本概念。 本篇博文將以以下四個主題來進行介紹說明: 信用風險和評分卡模型的基本概念申請評分卡在網際網路金融業的重要性和特性貸款申請環節的資料介紹和描述非平衡樣本問題的定義和解決方法 信用風險和評分卡模

網際網路模型需要多大資料?

近兩年來,“大資料”一詞廣受熱議,提高了企業對資料及資料所產生的價值的重視,整體上推進了我國在各項商務應用和政務應用中資料支援的比重,提升了量化決策和科學決策的水平。然而,在大資料概念提出之前,我們也一直從事資料分析和建模的工作,在這裡,我想談談大資料的出現,對網際網路金