1. 程式人生 > >想要了解大資料信用風險評分,這篇文章值得細讀!(上)

想要了解大資料信用風險評分,這篇文章值得細讀!(上)

信用風險評分模型是銀行等信貸發放機構應用較為成熟的風險計量工具。早在20世紀40年代,美國有些銀行就開始嘗試性研究信用評分方法,用於快速處理大量信貸申請。

1956年,工程師BillFair和數學家EarlIsaac共同發明了著名的FICO評分方法。該方法基本以Logistic迴歸方法為技術核心,是當前業界應用最成熟的信用風險評分模型。在20世紀60~80年代,隨著資訊科技的進步和業務的快速發展,信用評分模型在信用卡、消費信貸、住房抵押貸款和小企業貸款中得到了廣泛應用。

近幾年來,隨著大資料和網際網路金融的興起,某些新穎的機器學習演算法走出了學術領域,開始在部分網際網路金融機構的信用風險評分模型中得到應用。以Zestfinance公司為例,該公司將機器學習演算法應用於信用風險評分模型中,這是大資料信用風險評分模型領域的早期探索之一,也是業界討論熱點。然而,在討論基於大資料的信用評分模型過程中,經常見到的是出於公關需要的炒作、宣傳文章,對技術方法本身的討論較少,不利於應用方正確辨析和恰當應用大資料信用風險評分模型。

本文比對、分析了傳統信用風險評分模型和基於大資料的信用風險評分模型的差異。由於文章篇幅較長,下期我們還將刊文總結分析大資料信用風險評分模型的優缺點,以及有若干建議告訴讀者。

1

基於大資料的信用風險評分模型和傳統信用風險評分模型的差異分析

網際網路金融機構基於大資料的信用風險評分模型和傳統金融機構採用的信用風險評分模型在資料來源、變數生成、模型方法、應用方式、應用目標上均存在一定差異,主要體現在以下幾方面。

1資料來源及資料特徵的差異

傳統信用風險評分模型的資料來源主要是三大類:客戶向金融機構提交的個人申請資訊、金融機構內部積累的客戶歷史資料、人民銀行徵信中心等外部機構提供的資料。

資料的主要特點是資料質量和資訊價值密度高、維度相對單一、可驗證性較差、資料採集渠道規範性較好。傳統金融機構基於傳統的高價值密度的資料,研發出各類信用風險評分模型,實現對客戶信用風險的評價,已經成為成熟的、規範化的執行方式。

大資料時代的客戶資訊來源更加多元化,主要包括各網際網路金融機構掌控的生態體系內積累的客戶資訊,以及通過外部各種渠道採集的客戶資訊。其資料特徵包括:

一是資料較為稀疏。資料採集渠道的多元化和非標準化,導致客戶資訊缺失率較高,同一客戶不同維度的資訊經常不完整,最終體現為資料的稀疏性。

二是價值密度相對較低。單項資料的信用評估價值密度較低,缺少傳統金融機構擁有的含金量較高的徵信類資料、歷史違約資料。

三是資料覆蓋維度廣。部分機構通過各種渠道積累了涉及使用者行為各方面的資料,如不少機構採集了覆蓋衣、食、住、行、娛樂、購物、通訊等各種來源的資訊。

四是單變數風險區分能力弱。分析發現,儘管市場上常見的大資料機構採集了各種維度的客戶行為資訊,對客戶總體形象的刻畫更詳細,但這類資料並未專注於客戶信用風險,往往缺少內部徵信資料、外部徵信資料、個人資產評估等有強區分能力的變數。大資料機構採集的客戶衣食住行、社交類等資訊,在信用風險評估領域大多屬於弱區分能力變數,需要彙集、整合大量資訊以後才能實現區分效果的實質性提升。

五是資料來源規範性不足,不少大資料採集機構通過灰色渠道採集個人隱私資料,資料可持續性不佳。

2模型變數生成和挑選方式的差異

不同的資料特徵直接影響到模型變數的生成、挑選方式。傳統信用風險評分模型候選變數數量較少,單一模型候選變數常在數百至數千個數量級。進入模型的變數往往在數十個數量級。模型變數數量較少,客觀上使得資料可以經過多番清洗,清洗後的資料質量相對較好;同樣由於變數較少,傳統金融機構往往在變數挑選過程中開展多輪定量和定性分析。在篩選模型變數的過程中,除了參考變數的區分能力等定量維度,往往還需要參考機構內部業務專家的意見。

大資料時代,由於原始資料體量較大,通過變數本身衍生、變數之間衍生後產生更多候選變數。在單個模型內,相近的候選變數可多達數百乃至上萬個。由於缺乏專家團隊支援,通常採用挑選規則等方式自動化挑選候選變數,人工干預和專家稽核較少。同時,由於模型變數數量龐大和資料質量較差,容易出現模型變數未經嚴格資料清洗程式就進入模型的情況,對模型表現造成影響。

3建模技術方法的差異

不同的資料特徵直接影響到建模技術方法的選擇。傳統的信用風險評分模型以Logistic迴歸方法為核心。Logistic方法處理二分類因變數的資料有獨特的優勢,同時模型關於資料分佈的假定較弱,在資料為非正態分佈時,也有較好的表現。因此,該方法是當前國內外金融機構、徵信機構最廣泛應用的方法。

大資料信用風險評分模型更多采用了神經網路(NeuralNetwork)、支援向量機(SupportVectorMachine)、隨機森林(RandomForest)等演算法。這些機器學習方法在解決特定問題時具有優勢,如有些方法適用於處理稀疏的資料;有些能更好地解決模型過度擬合問題;有些能處理大量的輸入變數,預測準確度較高,能有效提升模型表現。和傳統的Logistic方法相比,每類機器學習方法都有自己的特色,但並未完全超越傳統方法。

4模型技術架構的差異

傳統信用風險評分模型大多采用單層模型技術架構,即自變數因子通過WOE轉換以後計算產生評分和違約概率。在這種技術架構下,傳統模型執行維護相對較為簡單,但模型少數關鍵變數直接影響模型的表現。一旦少數變數導致模型表現下降,需要通過研發新模型及時替換原有的模型。

大資料信用風險評分模型的模型結構具有兩大特點:一是採用母子模型結構。即先通過子模型將稀疏的大資料資訊加工成密集資訊,再將子模型的輸出資訊作為母模型的輸入變數,將資訊逐層加工,形成模型巢狀模型的技術架構。子模型一般採用神經網路、隨機森林、支援向量機等機器學習演算法,母模型採用傳統的、成熟的Logistic迴歸等技術方法,實現模型應用框架不發生太大變化的情況下,具有更好的區分效果。

二是採用動態挑戰者模型挑選和淘汰機制。在母子模型架構下,假設進入執行的子模型有100個,備選模型有200個,一旦在執行的子模型中有效果下降至某個最低閾值的模型,則會被剔除,而從備選的200個模型中挑選效果較好的替補模型進入到子模型序列中。這種動態調整機制在實現總體模型執行效果相對穩定的同時,也給模型的執行維護帶來了較高的複雜度。

5模型上線執行方式的差異

模型技術架構的差異直接導致模型上線執行方式的差異。傳統的信用風險評分模型通常將單一模型嵌入到在業務流程系統中,直接用於信貸決策。部分成熟的歐美銀行可以同步執行2~3個挑戰者模型,當單一模型表現下降的時候,實現及時切換。

大資料信用風險評分模型中,數百個模型同步上線平行計算成為可能。這對部署在信貸業務流程系統中的決策引擎和資料環境提出了更高的要求。如決策引擎需要採用分散式架構,以實現海量變數的同步計算,要求提前在資料環境中部署海量的原始變數和建模變數,以保障模型在切換時隨時有新變數可供替換。

6模型應用方式的差異

傳統的信用風險評分模型本質上是對信貸專家決策過程的模擬,銀行等傳統金融機構在應用信用評分模型時通常採用人機結合的方式,對資訊比較充分的客戶,根據評分和規則實現自動化審批;對資訊不充分的客戶,由專家進行人工審批決策。

網際網路金融機構傾向於應用大資料信用風險評分模型,除了極少數情況(如信貸額度較大)外,均採用全自動化決策方式,一般不進行人工干涉。

上述差異產生的原因主要包括:一是在傳統金融機構內部,信用評分模型是整個信貸決策流程的一部分,完全採用模型決策代替人工決策,需要信貸決策的利益相關方逐步接受和適應;

二是傳統機構對部分客戶掌握資訊不夠豐富,對部分灰色區域的客戶風險判斷依據不足,需要結合審批人的專家判斷作為補充;

三是傳統金融機構授信額度相對更大,在客戶資訊掌握不充分的情況下,潛在損失更大,而網際網路金融機構授信額度普遍較低,完全通過模型進行信貸決策產生的潛在損失較小。

7模型應用目標的差異

傳統的信用風險評分模型目標和大資料信用風險評分模型目標存在差異。簡單地說,可以把傳統模型盯住的目標變數認定為狹義的信用,大資料模型盯住的目標變數認定為廣義的信用。

傳統信用風險評分模型的目標變數是客戶信貸違約可能性,核心是預測客戶在某個信貸產品上的違約概率。大資料信用風險評分模型的目標變數更多反映的是廣義上客戶信用品質,並未專注於客戶信貸違約預測。因此,大資料信用評分模型也應用於客戶信貸評價以外的領域。

8模型開發和執行效率的差異

傳統的信用風險評分模型由於結構相對簡單,資料來源相對固定,模型開發和執行所需的計算環境和效能要求相對單一。大資料信用風險評分模型,無論在模型訓練還是應用環節,均需要海量計算,對儲存和計算效能要求較高。

相關推薦

資料信用風險評分,文章值得細讀!()

信用風險評分模型是銀行等信貸發放機構應用較為成熟的風險計量工具。早在20世紀40年代,美國有些銀行就開始嘗試性研究信用評分方法,用於快速處理大量信貸申請。 1956年,工程師BillFair和數學家EarlIsaac共同發明了著名的FICO評分方法。該方法基本以Logis

設計自己的微服務?看文章就對

歡迎大家前往騰訊雲+社群,獲取更多騰訊海量技術實踐乾貨哦~ 本文通過使用Spring Boot,Spring Cloud和Docker構建的概念驗證應用程式的示例,為了解常見的微服務架構模式提供了一個起點。 該程式碼在Github上可用,並且可以在Doc

iOS開發中高階進階書籍資源彙總(你的這裡都有)

最近很多同事跟我說,雖然開發時間不短,但是,說實話在工作過程中接觸書籍的時間少之又少。今天,讓我來給大家推薦幾本比較好的書籍,包括 (網路層、架構、程式設計、程式設計思想、進階、動畫、資料結構與演算法、Swift、跨平臺、面試文件)。 希望對大家的開發有幫助!!! 一、網路層  

[Matlab科學計算] 1.你的尤拉角

[問題由來]        在計算鐵磁材料多晶體的有效模量時,需要考慮晶粒在多晶體中的方向分佈,一般用三個尤拉角(, , )來表示晶粒在多晶體中的方向,用方向分佈函式來表示某個方向的分佈密度。基於此,迫使我要掌握尤拉角,但是在閱讀眾多教材和部落格文章中發現,大家對尤拉角的說

做IT敏捷開發,DevOps,先搞懂專案管理再說

本文摘自“光環國際”—中國專案管理PMP培訓上市企業 什麼是專案管理? 你必須先把腦子裡那些描述專案管理的概念定義、各種管理的流程統統清零。拋開這些熟知的東西,跟著我好好琢磨琢磨:專案管理的本質,到底是個什麼東西。 多種管理方法頻出 在這樣一個如敏捷、DevO

iOS開發書籍資源彙總(你的這裡都有)

最近很多同事跟我說,雖然開發時間不短,但是,說實話在工作過程中接觸書籍的時間少之又少。今天,讓我來給大家推薦幾本比較好的書籍,包括(網路層、架構、程式設計、程式設計思想、進階、動畫、資料結構與演算法、Swift、跨平臺、面試文件)。希望對大家的開發有幫助!!!一、網路層二、架

Java多執行緒,此文章足矣!

引如果對什麼是執行緒、什麼是程序仍存有疑惑,請先Google之,因為這兩個概念不在本文的範圍之內。用多執行緒只有一個目的,那就是更好的利用cpu的資源,因為所有的多執行緒程式碼都可以用單執行緒來實現。說這個話其實只有一半對,因為反應“多角色”的程式程式碼,最起碼每個角色要給他一個執行緒吧,否則連實際場景都無法

如何使用Python爬取資料?看完文章你就懂

前段時間小編髮了一篇有關於Python資料型別的文章,由於只是介紹了資料型別,我覺得遠遠不夠,所以呢我現在寫一篇用Python爬取資料的文章來補充。   首先我會介紹如何使用scrapy抓取二手房資料,然後我會將抓下來的資料進行了一些簡單的分析和視覺化。最後奉上資料,感興趣的朋友可

"資料視覺化”看文章就夠

管理者先要了解基本原則:何時需要柱狀圖圖?顏色超過多少種會太花哨?圖例往哪放?Y軸是否從0開始?視覺化的“語法”重要且有用,但掌握語法並不能保證做出好圖表。視覺化的第一課,是學會在沒有戰略的情況下去實踐——準備開啟目的地未知的旅程。 視覺傳達不是一個孤立的行為,而是幾個連續

沒時間RPA和BPM?看就夠

正常 時間 產生 數量 重新 strong cto 應用 nag RPA和BPM這兩個英文縮寫單詞,對企業或組織的業務流程優化有著至關重要的作用。企業要想在行業中獲得核心競爭力,並更好地發展,繞不過他們這道“坎”。 RPA,Robotic Process Automatio

從事IT行業的你,一定看看文章

很多想從事IT行業的小夥伴都會問: 我該如何學習技術? 我應該選擇什麼樣的方向來深入學習並以此來就業? 如何證明自己的技術很牛? 什麼是程式設計師的核心競爭力? 如何成為一名優秀的工程師? 對於這些疑問,小編總結了一些趨勢來供大家參考,希望對各位小夥伴有幫助。 1

去百度面試,知道面試官問哪些問題,看文章

https://mp.weixin.qq.com/s?__biz=MzI0NjM3NjI1NQ==&mid=2247487861&idx=1&sn=34316976cdb0aa2e4df3aa6f1f5cc31d&chksm=e9416325de36ea33200d9944ff

我的助理辭職!——看完後大家對文章應該很有感觸

      當時公司招了大批應屆本科和研究生畢業的新新人類。平均年齡25歲。那個新的助理,是經過多次面試後,我親自招回來的一個女孩。名牌大學本科畢業,聰明,性格活潑。私下裡我得承認,我招她的一個很重要的原因,除了她在大學裡優秀的表現之外,還因為她寫了一手漂亮的字。女孩能寫一

你必須的九個資料技術

Hadoop是大資料領域最流行的技術,但也並不是唯一。還有很多其他技術可用於解決大資料問題。除了Apache Hadoop外,另外9個大資料技術也是必須要了解的。   1.Apache Flink   是一個高效、分散式、基於Java實現的通用大資料分析引擎,它具

家裝輔材清單明細,幾種你一定,吉材易達出招啦!

一次裝修下來,幾萬到幾十萬甚至花費得更多,但人們往往只注重了主材而忽略了輔料。專家提醒,事實上這是一個家庭裝修的消費誤區。裝修一個家所用材料多達千餘種,那麼家裝輔材清單明細,有哪幾種是必須要了解的呢?跟隨小編一起去看看吧! 第一:木材 木材分為細木板、飾面板、密

搞懂資料就看文章就夠

網際網路時代的到來,各種專業詞彙術語充斥著我們的大腦,大資料,人工智慧更是當下時代的熱點潮流,很多傳統企業都徘徊穿梭於這個潮流當中,傳統廣告的褪去,移動網際網路時代的大資料精準整合營銷變得越來越重要!   很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線

佬分享:為什麼碼農業務?

最近一位分析界的老前輩對我很無奈地搖搖頭,“這幫程式設計師,不食人間煙火哪!”我也深有感觸,全世界的碼農都一個樣。 這讓我想起了,同樣也是他,在多年之前,對我提了警醒——要重視業務。從那之後,我一直狂奔在技術+業務的雙修道路上。 放在以前,碼農這個族群一定是稀罕動物。但在

選擇轉行學習WEB前端,你必須的5要點

隨著網際網路開展,網際網路的體系越多越多,越來越雜亂,使用者不能滿意基本功用的需求,對網際網路體會要求越來越高,客戶端與伺服器的互

JSON——IT技術人員都必須的一種資料交換格式

JSON作為目前Web主流的資料交換格式,是每個IT技術人員都必須要了解的一種資料交換格式。尤其是在Ajax和REST技術的大行其道的當今,JSON無疑成為了資料交換格式的首選! 今天大家就和豬哥一起來學習一下JSON的相關知識吧! 一、XML 在講JSON之前,我覺得有必要先帶大家瞭解一下XML(Ext

雙股同時上市!小米IPO是玩場的?

小米IPO 近日,據相關媒體報道,有相關人士稱小米IPO最終可能敲定A+H股兩地發行。但目前還未得到小米官方證實。此前關於小米要上市的消息已經流傳已久了,從雷軍剛開始的矢口否認到後來的默認,再到後來相關消息愈來愈多……唔,小米上市這個事兒還真是讓業界和吃瓜群眾操碎了心啊!小米上市其實最值得關註的有兩點,其中一