1. 程式人生 > >網際網路風控模型需要多大資料?

網際網路風控模型需要多大資料?

近兩年來,“大資料”一詞廣受熱議,提高了企業對資料及資料所產生的價值的重視,整體上推進了我國在各項商務應用和政務應用中資料支援的比重,提升了量化決策和科學決策的水平。然而,在大資料概念提出之前,我們也一直從事資料分析和建模的工作,在這裡,我想談談大資料的出現,對網際網路金融風控模型構建帶來了哪些影響。

對大資料的理解

首先我們來談談對於大資料的理解。

大資料一詞由維克托邁爾-舍恩伯格教授提出。有一種觀點認為大資料是指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合。然而,各界對於大資料定義存在較大差異,比較通用的觀點是用4V特點來描述:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

在網際網路金融領域,如何來理解呢?

網際網路金融可以應用的大資料,首先體現在社交資料:微博微信等社交平臺早已深入人們的日常生活中,產生了大量文字資料和影象視訊資料,這些資料的處理和儲存,分析,對於相關網際網路企業產生了挑戰。相應的儲存,處理和分析的需求應運而生。

這些資料的第一個特點是非結構化,不是像傳統的資料,每個變數定義清晰,一條一條地儲存在資料表中。

第二個特點是多維度。比如,法律,旅遊,水電,社保,娛樂,消費……等等維度的增加,也體現了大資料的“大”。

在網際網路金融領域現階段,分析這些資料產生個人信用的評分,和P2P公司實際業務所需要的評分模型,還有一定差距。

單純基於大資料的模型

效用有限

網際網路金融的風險控制模型經常用到評分卡,例如:個人信用等級評分卡。然而要做評分卡,要計算相應的違約率,首先應該根據業務,定義目標變數,即輸出變數:什麼樣的客戶算好客戶,什麼樣的客戶是壞客戶。根據這個目標變數,我們再選擇相關的其它變數來考察各輸入變數對輸出變數的貢獻。

目前,很多企業在做單純基於大資料的評分模型,並沒有把違約與否的情況和網上的行為資料拼接起來,貌似有了一個評分,那也不過是按照自己的理解,對網上行為做了一個初步的整理,從模型的角度,已經有了偏差,即模型偏差。所以在應用上,要做到對風險進行準確定價,實用價值有限。

然而我並不是說所有的主要基於大資料的模型都不能用,我們要分開來看這個問題,對於像淘寶,京東等形成自己的業務閉環的商業模式中,儘可以使用各種方法對自己業務中產生大資料進行分析,因為他們的目標變數和所謂大資料變數是可以拼接到一起的。但是對於P2P機構來說,由於並不是所有的貸款申請人都有淘寶賬戶,京東賬戶,所以這裡的所謂大資料,大資料模型要落地還是比較困難的。

迴歸到網際網路金融領域,對於申請人,如果拉一個央行的徵信報告,那還算方便,其實徵信報告的資料也比較規範,只不過是維度增加了;如果要拼接在網上的行為,各方面難度就比較大了。

同時由於”大資料” 的收集,整理,儲存,預處理,分析等的投入都比較大,所以我在這裡說,有個所謂的費效比的8/2 效應。即對大資料分析投入的精力與其產出實際效應的比例約為8:2。由此可見,單純基於大資料構建的網際網路金融風控模型意義是有限的。

如果為P2P公司構建風控模型的工作中,使用的大多數是脫敏資料(不包含姓名等個人資訊),這就使與大資料拼接十分困難。目前大資料對於網際網路金融領域的貢獻,我們認為主要在反欺詐領域,我們為P2P公司風險控制設計的反欺詐模型就利用了很多網際網路的資料來源。

隨著網際網路金融和中國徵信行業的發展,我相信大資料也會越來越多的為我們的風控模型貢獻價值。

傳統資料和大資料拼接

在社交資料出現之前,網際網路金融行業已經積累了大量的業務資料,這些業務資料基本上都是結構化儲存,而且資料質量都比較好,資料的業務定義也比較清晰。所以在應用”大資料”之前,怎麼發揮已有的結構化資料的價值,是我們資料分析建模工作的基礎,和目前的重點。

那麼具體的, 我們應該如何結合現有的資料選擇怎麼樣的演算法來做這個事情呢?

在傳統銀行以及大多數網際網路金融機構,首先看的是違約,那麼就把違約與否作為好壞客戶的定義,然後在選擇諸如,工資,性別,年齡,房產,車產等作為輸入變數,這是所謂的傳統、結構化資料,我也稱之為基礎資料;而對於大資料,我們認為,應該在傳統資料的基礎上,相對於目標變數,做一個拼接,即:

目標變數 = 基礎變數 + 大資料變數

只有在此基礎上,做出來的模型才有意義。但是,做這個拼接,從資料收集的角度來說,是有難度的。

實際上,在傳統金融領域,對於違約與否,主要考察的是兩個方面,還款能力和還款意願。理論上說,如果直接有這兩個變數,那我們就不需要其他的輸入變量了。我們所選擇的一些輸入變數,就是來還原這兩個方面。同時,我們之所以在模型中加入大資料,也是因為某些資料的加入,能對更準確還原這兩方面貢獻一些資訊。

同時,網際網路金融,有豐富多彩的業務模式,風險管理注重的方面也大大豐富了,如惡意欺詐,多頭負債,朋友貸中對信譽的高度重視,學生貸中考察他的學業能力, 等等。

風控模型需要多大資料

下面我們來聊聊網際網路金融風控模型需要多大的資料?這需要先回答一個問題: “最少需要多少資料?資料是不是越多越好?“

作為IFRE技術負責人與客戶接觸的時候,經常碰到一個問題:由於眾所周知的原因,各家P2P機構對自己的違約率都比較敏感,擔心全量資料給我們之後,洩露商業機密,這是可以理解的。但是顯然,全量資料所做的模型應該是最準確的。

在沒有大資料這個名詞出現之前, 我們做模型對於資料的要求是這樣的:抽樣的樣本對於總體有代表性(representative):即樣本和總體的各項指標是一樣的,那麼用樣本做出來的模型,才可以代表總體;第二個假設是,總體資料做隱含的規律是穩定的(stationary/stability)。

同時還有一個隱含的假設,做模型的資料表現和要用到模型的個體資料的統計性狀是相同的,即用歷史資料模擬的分數,和以後的客戶,如果評分相同,那麼他們的表現也相同。只有這樣,模型才可以用。否則,還是會產生偏差。

假設有輸入變數,”性別”,包含兩個屬性:

男, 女; 身高,包含三個屬性:高,中,低。

那麼,所有的屬性組合是 2*3=6個屬性,即:

“男,高”,“男,中”, “男,低“,“女,高”,“女,中”, “女,低“。

引申開來,如果模型中有10個輸入變數,每個有兩個屬性,那麼至少需要2的十次方,1024 條資料, 才能把這些屬性組合覆蓋。我們才能說,哪一個屬性對於目標變數的貢獻是多少,然後是哪一個變數對於目標變數的貢獻是多少。隨著變數的增加,對於資料數量的要求是指數級增長。

由此可知,在網際網路金融風控模型搭建中,基於成本與效率考慮,資料並不是越多越好,同時我們需要具有穩定性資料,更需要對每一個變數背後的業務含義具有深刻的瞭解。後面的文章中,我會繼續探討資料倉庫搭建,資料清洗以及資料缺失值填補等問題。可以關注我們的公眾賬號跟我進一步探討交流

相關推薦

網際網路模型需要資料

近兩年來,“大資料”一詞廣受熱議,提高了企業對資料及資料所產生的價值的重視,整體上推進了我國在各項商務應用和政務應用中資料支援的比重,提升了量化決策和科學決策的水平。然而,在大資料概念提出之前,我們也一直從事資料分析和建模的工作,在這裡,我想談談大資料的出現,對網際網路金

搭建一個網際網路直播運營平臺需要的投入?

檢視原文 2013年以來,隨著移動網際網路的火熱,以及李克強總理2015年提出的“網際網路+”行動戰略,導致最近幾年網路直播的異常火爆,各行各業都在向網際網路靠攏。 本人作為一個在流媒體行業沉浸了十年時間的老程式猿,由於自己所發表的一些技術部落格與解決方案吸引了來自全國各

P2P暴雷後續 完善網際網路金融資料模型成為命門

金融的本質就是信用、風險、交易、融資、財富管理,信用是整個金融領域的根本基石,所以金融風控是被很多金融公司擺放在第一位,資產規模放在第二位,2018年P2P行業暴雷對整個金融理財貸款行業產生了巨大的影響,這其中很多企業倒閉,就是因為風控沒有做好,風控問題已經成為今日行業的焦點,特別是大資料風控模型已

如何“謹慎”使用“數據驅動”的模型(一)-- 數據篇

數據驅動 數據分析 人工智能 數據質量 如何“謹慎”使用“數據驅動”的風控模型(一)-- 數據篇 人工智能時代來臨,2017年“數據驅動”在整個信貸生態圈熱度陡增,無論是金融機構、助貸機構、征信機構、大數據廠商等,無不在各大論壇、峰會、沙龍、融資中宣傳各自“數據驅動”的理

如何“謹慎”使用“數據驅動”的模型(三)——監控篇

pro sha nag -o 異常 靈活 目的 去除 決策體系 之前小編介紹了謹慎使用“數據驅動”的風控模型,需要“高質量的數據 + 審慎嚴謹的決策模型 + 實時全面的監控分析”動態閉環。動態閉環能夠“動態”起來,需要最後一個步驟“監控”把關,全面、細致的分析、評估決策效果

觀點丨從資料技術參考模型角度梳理資料標準

大資料標準化背景 面對目前數量、速度和多樣性日益增長的資訊資產,大資料技術通過各種解決方案、體系、結構、工具和平臺集合,能有效應對大資料場景。因為資料是大資料的基礎,對於大資料標準化,除了繼承資料標準化的內容外,有其特別關注的方面。比如:定義大資料專業詞彙,增加不同型別的資料結構如何標準化,解決

企業建網站需要的網站空間

現在建網站對於企業來說是必不可少的一件事,建站選網站空間卻是大家頭疼的一件事,因為很多企業不知道自己該選擇什麼樣的配置,該選擇多大的空間。買的空間太小,會不夠用,買的空間太大,又太浪費,選擇一個合適的空間大小是非常重要的。 不同的網站需要的空間大小是不一樣的,這需要判斷

建模】模型崗基本要求及面試問題總結

一 準備工作 根據核心職業CD法則,找這份工作前,你先得知道自己有什麼,自己要什麼;面試單位有什麼,面試單位要什麼。 就筆者這將近一年的學習及工作經驗總結而言,頂頭到建模這塊兒,整個知識版塊可以分為五大塊兒,總結如下: 前搞MIS:業務資料報告及報表的開發。

作為網際網路流量入口,CDN日誌資料你該怎麼玩?

CDN是非常重要的網際網路基礎設施,使用者可以通過CDN,快速的訪問網路中各種圖片,視訊等資源。在訪問過程中,CDN會產生大量的日誌資料,而隨著如今越來越複雜的網路環境變化,和業務的迅速增長,日誌資料變得更大量、更多維度,同時其穩定性和報警監控的要求越來越高。這些資料通常都與使用者的下一步業務決策息

基於知識圖譜+機器學習,搭建模型的專案落地

本專案主要實現邏輯如下: 1.將測試資料分表格存入mysql資料庫。 2.設計知識圖譜關係圖,按照設計思路將node與對應的relationship存入neo4j資料庫。 3.設計一套有效的特徵,提取特徵用於機器學習模型進行訓練,用以風控判斷。 4.將提取特徵的cypher語句存入mysql

【工業網際網路】郭朝暉:工業網際網路平臺背景下的工業資料與智慧製造

4月11日,工業網際網路平臺宣講團第二季第三講繼續開講,由走向智慧研究院工業大資料首席專家、清華

製作SSD目標檢測模型需要的訓練資料並訓練SSD目標檢測模型

1構建 資料集 先來看一下我們構建資料集合應該是什麼樣的,假設總資料為1000張。  為了方便,我們將資料放在/home/bingolwang/data 資料夾下。/home/bingolwang/data/VOCdevkit 這個目錄下是VOC2007 VOC200

網際網路部門演算法實習生面試

面試從投遞簡歷到最終面試持續了近40天,也許是跟該公司有緣吧…. 春招的時候,我並沒有投遞該公司的職位,4月末的某一天,我看到某招聘網站上有風控部門的社招資訊,諮詢了下有無演算法實習生崗位,於是開始了持續一個多月的面試….. 一面(電話面):投遞簡歷後的一週

信貸模型開發----模型流程&好壞樣本定義

第二章 模型開發流程&好壞樣本定義 2.1模型開發流程 2.1.1 評分模型流程圖 2.1.2流程圖闡述 該小結提出了一些資料指標,如果不明白沒有關係,往後的文章筆者會一個個地解釋這些指標的含義和計算方法 資

重磅乾貨:如何用資料分析監測交易欺詐

論壇君本文作者厚龍,曾參與了“每天一個數據分析師”採訪(詳情請點選“閱讀原文”),現在網際網路金融風控行業工作。他學以致用,將資料分析應用於交易欺詐,全文乾貨滿滿,對於資料分析愛好者是不可多得的一篇好文。作者:厚龍本文為CDA資料分析師約稿,如需轉載,請標明來源,否則視為侵權。一交易欺詐簡介1交易欺詐簡介交易

五個不需要使用資料的理由!

 現在的大資料是熱火朝天,最開始是在新興網際網路行業興起,隨著企業和國家的重視,越來越多的企業或者說傳統企業也開始重視起來,我經歷過一些大資料專案經驗,結合所做專案總結五點不需要使用大資料的理由。

網際網路金融做資料的九種維度

網際網路金融做大資料風控的九種維度 在網際網路金融迅猛發展的背景下,風險控制問題已然成為行業焦點,基於大資料的風控模型正在成為網際網路金融領域的熱門戰場。那麼,大資料風控到底是怎麼一回事呢?與傳統風控相比,它又是怎樣來進行風險識別的呢?本文對此進行了探討。 大資料能夠進行資料變現的商

揭祕網際網路金融的資料

大資料能夠進行資料變現的商業模式目前就是兩個,一個是精準營銷,典型的場景是商品推薦和精準廣告投放,另外一個是大資料風控,典型的場景是網際網路金融的大資料風控。金融的本質是風險管理,風控是所有金融業務的核心。典型的金融借貸業務例如抵押貸款、消費貸款、P2P、供應鏈金融、以及票據

小白如何學習資料需要長時間

近年來,大資料、雲端計算、區塊鏈、人工智慧等技術風靡全球,非常火熱,大資料學習成了很多人的首先,但面對大資料學習,是選擇自學,還是參加大資料的培訓,成了很多人考慮的問題。 面對社會的壓力,生活的壓力,很多人員不滿足於現狀的工作狀態,亦或是想要提高自己的能力,追求更完美的生活狀態,亦或者是對於大資