1. 程式人生 > >重磅風控乾貨:如何用資料分析監測交易欺詐

重磅風控乾貨:如何用資料分析監測交易欺詐

論壇

本文作者厚龍,曾參與了“每天一個數據分析師”採訪(詳情請點選“閱讀原文”),現在網際網路金融風控行業工作。他學以致用,將資料分析應用於交易欺詐,全文乾貨滿滿,對於資料分析愛好者是不可多得的一篇好文。

作者:厚龍

本文為CDA資料分析師約稿,如需轉載,請標明來源,否則視為侵權。

交易欺詐簡介1交易欺詐簡介

交易欺詐一般是指第三方欺詐,即所發生的交易非持卡人本人意願的交易。通常是不法分子利用各種渠道竊取卡資訊,進行偽造卡作案。

一個從盜取資訊到套現的整個流程

第三方交易欺詐的特點:使用他卡;在最短時間內大量用卡;一定以獲利為目的;一般有區域集中性。

交易反欺詐模型的特點和難點:海量資料計算、小概率事件、欺詐模式變化快、資料一般是割裂的。

2交易欺詐風控技術

交易識別方法,主要有風控規則引擎、異常檢測、機器學習方法等。


三大交易識別方法

以上方法建立的前提都是欺詐分子可以盜用客戶資訊,也可以偽造客戶卡片,但是無法複製客戶的交易行為模式。因此客戶交易行為特徵檔案是以上規則建立的基礎。

檔案要求:客戶投資行為和交易模式從各個維度刻畫客戶的行為;隨交易活動實時更新;每個客戶需有唯一檔案。

——以上假設對於網際網路金融P2P投資而言,難度更大,原因:投資金額的不確定性、投資產品較少,客戶交易行為特徵歸納難度大。

(1)風控規則引擎

風控組合規則一般是通過業務經驗及對歷史風險事件的總結形成的反欺詐規則,可以理解為多維組合分析,一般需根據業務成本、對風險的容忍度設定關鍵變數的閾值。

(2)異常可疑交易檢測

異常值模型是用於從大量資料構成的樣本群體中識別出與該群體有顯著差異或者異常情況的樣本的過程。在反欺詐領域,欺詐交易和正常交易有顯著差異,可以用異常模型進行補充,一般是以距離為測量尺度,把樣本關鍵資訊標準化為可測資訊,進行聚類,聚類中樣本較小的簇確定是否為異常樣本,常用在探索性分析階段。異常樣本與統計學中的離群值概念相似。


(3)機器學習的方法

常用的分類演算法都可以應用在此類場景中,比如:神經網路、貝葉斯方法、決策樹、支援向量機等。不同於一般分類問題的是:“欺詐”這種異常模式(類別)的佔比可能非常小(不超過5%,一般低於1%),為保證訓練和測試樣本中包含一定數量的此異常模式記錄,在準備資料時可能需要分層抽樣。

不同於信用評分模型(使用logistic迴歸較多),在反欺詐領域,普遍使用神經網路模型技術,該技術模擬人腦功能的基本特徵,適合處理需同時考慮許多因素和條件的非線性問題。神經網路模型具有識別率高、穩定性強且易於系統落地實施等優點。

網路一般包含三或更多層,其至少包含的有輸入層、隱含層及輸出層。



比如輸入資訊可能為:輸入變數1交易金額、輸入變數2交易時間、輸入變數3產品型別、輸入變數4使用者年齡、輸入變數4近一週交易特定型別失敗交易失敗筆數、本次金額與歷史N次最大交易金額相比、是否歷史常用裝置等。

輸出資訊為交易評分。可以發現神經網路中間是個黑箱,它的缺點為業務解釋困難,這要求特徵工程提取有較高質量。

3建模過程及注意事項


建模流程

詳細說明建模過程如下:

(1)資料準備方面

一般需考慮現有的資料倉庫或資料集市系統或交易系統、存在於其他外部的資料等。需充分考慮現有資料結構如何、是否具備該資料、當前資料資訊量是否足夠、壞樣本是否足夠建模等等,總之,做好資料準備是影響問題解決效率的重要前提。

舉例一般的欺詐交易模型所需資料可能包括:

  • 交易資訊:賬戶、金額、日期、時間、幣種、渠道、商戶、產品資訊等;

  • 欺詐記錄:是或者否;

  • 其他資訊:使用者IP、賬戶、裝置等。

(2)特徵工程方面

a.目標定義:將欺詐資料與交易資料相匹配,欺詐賬戶在欺詐視窗(第一次欺詐日到被發現之日)之間的所有交易即為欺詐性交易;

對非欺詐賬戶,其所有交易即為非欺詐性交易。欺詐賬戶在第一次欺詐日之前的正常交易只為欺詐賬戶建立檔案,但這些正常交易本身並不作為非欺詐性交易進入建模樣本。

b.變數設計:包括原始變數和衍生變數兩種。

  • 原始變數:一般只用當前交易的資訊,如交易金額、產品型別、交易型別、交易渠道、裝置號、交易時間等;拿到原始變數,可先進行缺失值和極端值的處理;再對這些基本交易資訊進行探索性分析;對產生的非連續性變數進行相應的WOE(weight of evidence)處理或根據卡方檢驗處理;連續型變數進行變數壓縮等。

  • 衍生變數:通過對賬戶交易歷史的跟蹤,可以提煉賬戶的交易行為模式,這就是每個賬戶的檔案。如果當前的交易與該賬戶的歷史行為模式差別較大,則欺詐的可能性也較大。通俗的說,檔案是該帳號的消費行為的標準答案。要判斷當前的這筆是否交易欺詐,則需要將當前的交易資訊與這個檔案(標準答案)進行對比,相差越大則欺詐的概率越大。

其中有
  • 以時間為基礎的衍生變數:


過去10分鐘,30分鐘,1小時,2小時…半天,1天,2天…1周…1月等時間段交易的次數或平均金額;當前交易金額與過去若干時間段的交易金額的均值和標準差的對比等等;
  • 以事件為基礎的衍生變數:


賬戶裝置號是否為常用裝置;賬戶敏感資訊有沒有發生過修改;賬戶歷史失敗交易佔比等;過去過去2次,3次…10次…N次交易的平均金額;過去2次,3次…10次…N次交易的最大金額;當前交易金額與過去若干次的交易金額的均值,標準差和最大值的對比等等。(衍生變數一般是歷史資料的匯聚,從客戶檔案中提取)。

c.資料處理注意點:WOE代替(分型別變數定量化);時間可劃分為7*24小時建立二維向量。通過這些複雜的變數,可以捕捉到每個賬戶的歷史行為模式,當前交易行為與歷史行為模式的差距,交易發生的速率和動態等等。產生上述變數需要一定時間的交易歷史(6—12月),涉及的交易量龐大,每筆交易的資料量也不小,如何有效地儲存,清理,加工這些資料並在此基礎上快速計算所需變數是一個技術關鍵。一般這步之後,有較多的變數,那接下的工作就是變數選擇。

d.變數選擇:由於建模需要構建出大量的變數,有些變數預測能力強,有些變數預測能力弱,不篩選會影響效率。此外,變數的子集很可能高度相關,造成“過擬和”,模型的準確性和可靠性將受到損害。

注:過擬合是指在測試樣本效果佳但由於訓練過度推廣至新樣本效果反而不佳。

以神經網路模型為例,神經網路BP演算法訓練過程中,不能自動篩選變數(迴歸可以,有向前、向後等)。為了找到一組預測能力強、變數之間的相關性弱的變數,不影響模型準確性,增加模型穩定性。變數篩選的方法主要如下:單變數預測能力篩選:靈敏度分析、變數相關性檢查。一般而言,交易反欺詐模型需要輸入變數數遠多於信用評分模型。

(3)模型訓練

按以下步驟訓練神經網路模型,直至模型效果最佳。

a.對所有設計產生的自變數先進行初步篩選,排除明顯無預測能力的變數,剩餘變數在神經網路模型訓練過程中再進行精選。

b.根據輸入變數的數目,設計合理的網路結構和隱節點數(關鍵)。一般交易欺詐模型有上百個變數,一層隱含層,十幾個隱含節點。

c.根據設計好的網路結構,選取合適的訓練引數和收斂條件,在上述第一步資料進一步劃分後的純訓練資料上訓練模型,在測試資料上測試模型效果。

d.在有了初步訓練好的神經網路模型後,可用靈敏度分析等手段進一步篩選變數。

e.對每個分段(segment),步驟3到步驟5都要重複多次,調整輸入變數,調整隱節點數,調整訓練引數,最後選出一個在測試資料上表現最好的模型作為該分段的最終模型。相對邏輯迴歸來說,神經網路的訓練更加於經驗,如何設計網路結構、各個引數大小等很重要。

(4)模型驗證及評估

交易驗證及精準率和召回率評估(見下文案例部分介紹)。

交易反欺詐策略:

  • 策略的目標是最大限額地降低欺詐損失額,而預期欺詐損失額等於欺詐概率乘以交易額。由於反欺詐模型的評分反映了欺詐的概率,所以欺詐評分和交易額是反欺詐策略的主要依據,輔之以產品種類、交易區域、交易方式等。

  • 策略簡介:對欺詐風險較高的交易利用事後簡訊、電話聯絡、信件聯絡或電子郵件聯絡的方式,與使用者在交易外進行溝通,核對可疑交易,如果證實某賬號正在經歷欺詐性交易(如使用者證實某可疑交易非其所為),則立刻拒絕使用者的所有後續交易並給重新建立賬戶等措施。這些反欺詐措施可以作為對實時交易授權決策的有效補充。當然,策略是要講究平衡的藝術,核對交易是存在成本的,這就需要在成本和挽回損失間找到平衡點。而策略最終目標應該是:在電話核對和拒絕的交易量不超過資源負載的前提下最大限度發現和阻斷欺詐交易、最小限度地影響真實交易。

一個簡單的欺詐監測案例

[ 案例及程式碼來源:“Data Mining with R: Learning with Case Studies”]


應用思路

1案例問題描述

欺詐模型相關的案例較少,考慮商業資料的敏感性,採用案例資料來自“Data Mining with R: Learning with Case Studies”一書,請大家自行百度,理解掌握本案例對有志於從事反欺詐、風險資料分析相關領域的資料分析新手有很大的幫助。另外,R內建此資料大家可以完全可以拿來練手。

具體如下:某公司的銷售員所報告的交易資料。這些銷售員負責銷售該公司的產品並定期報告銷售情況。銷售員可以按照自己的策略和市場情況來自由設定銷售價格。月末,向公司報告銷售情況。資料探勘應用的目的是根據公司過去發現的交易報告中的錯誤和欺詐企圖,幫助公司完成核實這些銷售報告的真實性的工作。提供一份欺詐率排名報告,這個欺詐率排名將允許公司把有限的檢驗資源分配給系統提示的更“可疑”的那些報告。

2資料處理

案例資料共401146行,每一行包括來自銷售員報告的資訊。包括:

  • ID:說明銷售員ID的一個因子變數;

  • Prod:說明銷售產品ID號的一個因子變數;

  • Quant:報告該產品銷售的數量;

  • Val:報告銷售記錄的總價值;

  • Insp:有三個可能值的因子變數——ok表示公司檢查了該交易並認為該交易有效;

  • fraud表示發現該交易為欺詐;

  • unkn表示該交易未經過公司稽核。

(1)瞭解資料概況

a.顯示前幾行資料,如下:


b.初步瞭解資料特徵發現,資料集中有大量的產品和銷售人員資訊;同時資料缺失問題存在。



c.觀察下有多少不同的產品和銷售人員



欺詐行為比例是很低的,有96%的交易尚未進行核實。

d.繼續往下看:


下圖各銷售人員交易量波動性很強且不同產品可能有較大差異,但我們還沒有考慮產品數量的影響。



銷售單價同樣存在較大變動性。

說明:現在我們要做一個假設,短時期內同一產品單位交易價格應該是相對穩定的。產品單價不應該出現巨大變化。——我們偵測欺詐交易的業務邏輯前提,有這個前提,我們需要對每個產品的交易進行分析,找出每個產品的可疑交易。同時我們需要考慮交易量少於20的產品(982種)。

e.下面看看最貴的和最便宜的單位價格對比。



注:我們上圖已經對價格做了對數處理,這是常用的方法,當資料量級不在同一水平時。

f.類似價格,我想看看哪些給公司帶來給多貢獻的銷售人員。


以上資料結果說明:銷售金額前100(不到2%)的銷售人員銷售收入佔比超過40%,而近三分之一的銷售人員只貢獻了約2%;而產品方面差異更為顯著,後90%的產品僅貢獻了少於10%的銷量。這個資訊對生產十分有用,但並不意味著公司應該停止該產品生產,因為我們沒有生產成本的資訊,這些產品有邊際利潤存在的可能,同時也不是本案例的目的。

g.下面進行初步異常偵測,看大概異常比例。

假設:所有產品的單價接近正態分佈,即同一產品價格大致相同,它們之間的變化可能是某些銷售人員為了達到他們商業目的而採取的策略。此次先採取箱線圖規則,定義:如果一個觀測值高於上須或低於下須,將其觀測值標記為異常高(低)。上下須定義Q3 1.5*四分位距、Q1-1.5*四分位數,IQR=Q3-Q1。Q3、Q1分別代表75%、25%處的總體水平。對單變數,在有少數離群值時此規則是有效的。經計算約有7%的交易被認為是離群值(異常價格)的交易。


但是我們利用的資料可能本身是有噪聲的,有的資料是缺失的、有的資料尚未進行檢查且佔比高,這部分資料需要拿來檢驗異常是危險的,因此,我們需要對資料進行處理,同時考慮更科學的偵測方法。

(2)處理缺失值和少量交易產品的問題

缺失值處理過程略去(不代表不重要),但說明主要採用的方法,對於銷售總價和數量都不存在的樣本進行剔除;而對於僅缺失數量或銷售總價的樣本採用價格中位數進行填補缺失值並重新計算另一變數的方式處理。

(3)處理少量交易的產品

思路:歸入其他產品類。

具體為:嘗試觀測產品單價分佈的相似性來推斷其中的一些關係。如果發現有類似價格的產品考慮合併相應交易進行分析,從而尋找異常值。前文講到交易樣本小於20的產品共982種。而比較分佈的方法有資料視覺化和統計檢驗,鑑於產品種類多,採用統計檢驗方法,考察資料分佈的統計特性(集中趨勢和離散程度)離散程度使用中位數、離散程度採用四分位差。採用這兩個指標的原因在於中位數和四分位差較於均值和標準差而言受異常值影響小(大家可以思考為什麼?),指標更穩健。

  • 首先進行視覺化觀測假設:



左圖受各別值影響,右圖進行了對數處理

資料顯示如下:許多少數產品的中位數和IQR和其他產品非常相似。然而也有幾種產品不僅交易少,而且價格分佈也有較大差異。為了更有效的比較分佈我們使用K-S檢驗分佈是否來自相同分佈,顯著性水平定義為10%。

  • 推斷統計應用,檢驗分佈統計意義上的相似性。計算過程如下:


結果顯示,10%的顯著性水平下,只有117個產品我們可以找到類似產品。

至此資料預處理結束。

3定義建模任務

目的:運用資料科學方法為確定是否核實這些交易提供指導,對交易欺詐率進行排名,僅處理檢查資源有限範圍內的欺詐交易(排名靠前的若干可疑交易)。解決建模目標的方法是前面所介紹的無監督、有監督、半監督方法,分別介紹其思路如下。在這之前先說下資料現狀:資料Insp列有兩種型別的觀測值,有標記和無標記,而有標記比例不足4%。

我們採用Holdout方法進行抽樣,即將已有資料即分成兩部分,通常比例是70%、30%。一部分用於建模,一部分用於測試並選擇重複多次,選擇3次,保障結果是可靠的。。

但由於樣本特殊性給建模造成了一定困難,即資料不平衡問題,不同型別樣本之間的分佈不均衡,即在標記個案上是不平衡的。正常抽樣策略可能導致一個測試集的正常報告與欺詐報告比例不同,這需要採用分層抽樣方法解決,即從不同型別觀測袋子中隨機抽樣,以確保抽取的樣本遵守初始資料的分佈。Holdout方法是類似於交叉驗證和蒙特卡羅實驗的另一種實驗控制方法。

模型評級準則:決策精確度(Precision)與召回率(Recall)。



對於我們的案例而言,一個成功模型應得到一個交易排序,其中已知的欺詐交易在頂部,給定一個我們的資源允許檢驗的報告個數K,我們希望在排序的頂部k個位置中,或者只有欺詐交易的報告或者只有未檢驗的報告,同時我們希望所有已知的欺騙報告出現在這k個位置中。但考慮我們目標的特殊性,我們預測的是一個小概率的罕見事件,精確度與召回率是合適的評級指標。給定檢驗限制k,我們可以計算排序的最頂端k個位置的決策精確度與召回率。這個限定值k決定了模型哪些報告應該被檢驗。從監督學習分類的角度去看,我們相當於預測頂端的k個位置預測為fraud類,其餘為正常報告。精確度告訴我們頂端k個值多大比例事實上是標記為欺詐的報告。而召回率的值告訴我們k個位置所包含的測試集的欺詐行為比例。同時我們採用悲觀計算的方式,因為前k個樣本中未標記的報告很可能是fraud交易但我們計算精確度和召回是沒有考慮他們的。

同時如果演算法沒有顯著提升的情況下,精確度與召回率之間是需要權衡的。因為一般二者是負相關的,給定用於檢驗行為的資源約束條件,我們真正想要的是最大限度的利用資源。這意味著我們可以用x小時檢查報告,並能夠在這x小時捕捉到所有欺詐行為,及時有一定的正常交易我們也不care,因為目的達到了,即我們需要的是使用現有資源達到100%的召回率。而精確度與召回率趨勢是模型效能的視覺化表現。通過不同的工作點得到上面統計量的插值,得到該曲線。這些工作點由模型感興趣的類別排序中斷點給出。在我們案例中,這將對於應用在模型所產生的離群值排序上的不同資源限制。對不同的限制水平(即檢驗更少或更多的樣本)進行迭代,得到不同的決策精確度和召回率。--PR圖。

提升圖:x軸模型預測陽性的概率;y軸是召回率比上陽性預測率的商;同時還有累計召回度圖形,該模型曲線餘越靠近上方,模型越好;此外,考慮模型排名前面可能包含未標記的樣本,我們要檢驗排序質量的另外方法就是計算評估樣本單位價格和相應產品的標準價格聚類,衡量異常值排名質量。

即我們通過PR圖和lift圖和標準價格距離衡量各建模效果。

4建模實施及評價

(1)無監督方法

  • 修正的箱線圖離群值排名:



區域性離群因子系統(LOF):通過估計個案和區域性領域的分離程度來得到個案離群值分數。在低密度區域的個案被視為離群值。個案的離群估計值是通過個案之間的距離來獲得的。

對比兩種方法的結果:



對於較低的檢驗限值,LOF是優於Bprule的,同時對於10%的檢驗限值,LOF方法的標準距離明細高於BPrule方法。

  • 基於聚類的離群值排名:分層聚類——聚類樹思想,將這些樹在不同高度水平進行切割時給出資料的不同聚類,這個方法的類是不斷合併而成的。離群值分數來自於合併前類的大小與合併後類大小的差,如果合併後與合併前的明細,則離群值分高。建模結果如下:


結果顯示,聚類的離群值排名召回率更高。15%-20%檢驗樣本可覆蓋欺詐70-80%。

(2)有監督方法

類失衡問題解決,採用欠抽樣的方法。如下:


解決類失衡後,分別採用簡單bayes和簡單bayesSmote版本和orh演算法解決進行建模結果對比如下:可見兩種方法與聚類方法相比均是令人失望的。


Adaboost方法,組合學習方法,預測值是通過對一組基本模型的預測值進行某種形式的組合形成的,該方法應用一種自適應增強的方法來得到一組基本模型,是一種常見的提高基本效能的方法。它通過一種加權方式提高效能:增加被前一個模型誤分類的個案的權重。經過迭代結果是一組在不同訓練集資料上的基本模型。加權方式應對類失衡問題對學習演算法很有意義,即使在初始迭代中有少數個案被模型忽略,它們的權重將會增加,模型被迫學習它們。理論上著將導致得到的組合模型能更精確的預測這些稀有的個案。

Adaboost.M1是其中一種有效演算法。建模效果如下:


PR曲線而言,對低水平的召回值,精確度明細低於ORh方法,但對本案,累計召回度,與ORh效果接近,說明Adaboost在對類失衡問題下仍有較好的效能。

(3)半監督方法

同時使用檢驗的和沒有檢驗的報告來得到偵測欺詐報告的分類模型。採用自我訓練模型,該方法先用給定標記的個案建立一個初始的分類器,然後應用這個分類器來預測給定訓練集中未標記的個案,將分類器中有較高置信度的預測標籤所對應的個案和預測的標籤一起加入有標記的資料集中。繼續迭代新分類器,直至收斂。三個重要引數,基本訓練模型、分類置信度閾值、收斂準則。我們採用基本訓練模型為簡單Adaboost.M1方法進行自我訓練。

建模效果如下:

在以上嘗試的所有模型中,累計召回曲線最好的明顯哦是自我訓練AdaBoost.M1模型。15%-20%的檢驗限值比例可以確定80%以上的累計召回率。它明細好於其他模型,雖然就精確度而言並不出色,但本案重要的是在有限資源找出欺詐案例。因此該模型式最優的對於我們的建模任務。

相關推薦

重磅乾貨如何用資料分析監測交易欺詐

論壇君本文作者厚龍,曾參與了“每天一個數據分析師”採訪(詳情請點選“閱讀原文”),現在網際網路金融風控行業工作。他學以致用,將資料分析應用於交易欺詐,全文乾貨滿滿,對於資料分析愛好者是不可多得的一篇好文。作者:厚龍本文為CDA資料分析師約稿,如需轉載,請標明來源,否則視為侵權。一交易欺詐簡介1交易欺詐簡介交易

乾貨R語言進行資料提取的方法!

 資料提取是資料分析當中重要的一環,也是需要資料分析師耐心細心地做好。我們大聖眾包(www.dashengzb.cn)小編今天就和大家分享藍鯨的文章,如何通過R語言對資料進行提取分析,達到所需。   讀取並建立資料表   首先第一步是讀取資料,並建立名稱為lo

三分鐘看懂大資料中使用者行為資料的採集、分析及應用( 轉 )

據統計,目前銀行傳統的風控模型對市場上70%的客戶是有效的,但是對另外30%的使用者,其風控模型有效性將大打折扣。大資料風控作為傳統風控方式補充,主要利用行為資料來實施風險控制,使用者行為資料可以作為另外的30%客戶風控的有效補充。那麼,大資料風控運營中,會主要分析使用者的哪

Hive項目實戰Hive分析“余額寶”躺著賺大錢背後的邏輯

導入 mkdir 人的 path 帶來 tmp edate hive oop 一、項目背景 前兩年,支付寶推出的“余額寶”賺盡無數人的眼球,同時也吸引的大量的小額資金進入。“余額寶”把用戶的散錢利息提高到了年化收益率4.0%

仁潤雲丨網絡小貸數據接口分析(多頭借貸,芝麻信用)

分析 pan 偽造 行為 貸款 精準 決策 風險 規則 對於網絡小貸平臺而言,征信和風控是業務發展過程中的重要環節。網絡小貸業務主要防範的是欺詐風險和信用風險,諸如借款人通過套現、偽造、冒領冒用、惡意透支等手段進行騙貸。此外,平臺與平臺之間信息不透明,用戶同時在多個平臺重復

資料分析選購手機

9月13日釋出的iPhone Xs算是手機界的大新聞了,新款iPhone的價格也再度重新整理了手機定價的記錄。看完釋出會,相信很多人的心情是這樣的 強哥之前用的iPhone 6,最近準備換手機。經濟形勢嚴峻,換iPhone是換不起了,只能消費降級,投奔安卓陣營。 1500元的預算,連個二

未明學院入門資料分析,到底選Python還是R?

本文作者 未明學院資料分析方向老師 王老師 正如2012年《哈佛商業評論》中指出的:資料科學家是21世紀最性感的職業,而熟練的進行資料分析、資料探勘則是一名資料科學家必備的基礎技能之一。正所謂工欲善其事,必先利其器,在進行資料分析之前,我們需要掌握一項能夠用來進行

螞蟻金服美女分析師告訴你資料分析資料洞察,我們是這麼玩兒的

圖丨螞蟻金服資料分析師劉培(Faerie)【資料猿導讀】大資料專案投入後收入平均僅增加了6%。一

【精華分享】轉行資料分析的一份學習清單

作者:xiaoyu 微信公眾號:Python資料科學 知乎:Python資料分析 有很多朋友問我學習了Python後,有沒有什麼好的專案可以練手。 上一篇主要分享了博主親身轉行資料分析的經歷:【轉行資料分析的親身經歷】 本篇繼上一篇將分享轉行資料分析的一些經驗和學習方法,看

《我不是藥神》我會資料分析,我可以為他們做些什麼?

導讀:在《我不是藥神》爆紅開始之前,山爭大哥“C位出道”的微博熱搜就已經牢牢地抓住了我的眼球。我

政府大資料應用的反思資料分析應用常見的困難

大資料是政府的事嗎?資料資源都是大資料嗎?大資料應用存在哪些問題?網際網路+大資料是什麼關係?常講的哪些大資料應用是片面的?企業可以從哪些方向入手大資料應用?摘要:新一代資訊科技與創新2.0的互動催生了大資料,生動詮釋了數字時代、知識社會創新形態的嬗變,進一步消融了創新的邊界

專案一EXCEL資料分析(5W2H法)使用者購買行為分析

專案:用EXCEL對使用者購買行為進行分析---採用5W2H框架 1.確定分析思路 1.1使用者購買行為分析:5W2 WHY:使用者購買的目的是什麼?---市場調查獲取資料 WHAT:使用者主要購買的產品?---各產品的銷量分佈

【案例】某物流集團資料驅動企業數字化轉型

【資料猿導讀】資料驅動的數字化轉型是一個體系化工作,需要從理論體系、平臺工具、資料、組織、機制五

重磅 | 谷歌釋出免費GNSS資料分析工具【內附下載地址】

摘要:谷歌GNSS分析工具,對安卓裝置採集的GNSS測量資料進行分析。   泰伯網訊  繼去年推出安卓裝置的GNSS原始測量功能,近日,谷歌又釋出了免費GNSS(全球導航衛星系統)分析工具,用於處理和分析GNSS原始測量資料,既可以幫助製造商除錯GNSS接收機的工作狀態,還

金融信貸(二)——資料預處理和特徵衍生

申請評分卡中的資料預處理和特徵衍生 構建信用風險型別的特徵 資料預處理 1、資料預處理 包括格式、缺失值的處理等。 缺失值包括如下幾種情況: 1、完全隨機缺失 2、隨機缺失 3、完全非隨機缺失:與變數本身有關,比如富裕家庭不願意填收入 處理缺失值的方法

轉載python資料分析總結

你已經決定來學習Python,但是你之前沒有程式設計經驗。因此,你常常對從哪兒著手而感到困惑,這麼多Python的知識需要去學習。以下這些是那些開始使用Python資料分析的初學者的普遍遇到的問題:需要多久來學習Python?我需要學習Python到什麼程度才能來進行資料分析呢?學習Python最好的書或者課

阿里巴巴王堅資料來改變世界

“傳統資訊化建設都是從無到有,加了杆子和機器,但是新一代數字建設就是從有到無,繳費的機器沒有了,你回家繳,杆子沒有了,你回家繳。”

乾貨好這13款VSCode外掛,工作效率提升10倍

> 文章每週持續更新,原創不易,「三連」讓更多人看到是對我最大的肯定。可以微信搜尋公眾號「 後端技術學堂 」第一時間閱讀(一般比部落格早更新一到兩篇) > 大家好我是lemon, 馬上進入我們今天的主題吧。 ## 又見VsCode Visual Studio Code(簡稱VS Code)是一個由微軟開發

國人之光資料分析神器Apache Kylin

一、簡介 Apache Kylin™是一個開源的、分散式的分析型資料倉庫,提供Hadoop/Spark 之上的 SQL 查詢介面及多維分析(OLAP)能力以支援超大規模資料,最初由 eBay 開發並貢獻至開源社群。之所以說它是國人之光,是因為它是首個由國人主導的Apache頂級開源專案,能在亞秒內查詢巨大的表

要略網際網路業務反欺詐之路》一萬字讀後詳細總結

文/朱季謙(朱鎔軍)       本書的內容正如書名所述,是為要略而非攻略,即作者站在一個更為巨集觀的角度,以自身的從業經驗對當今風控領域做了一番較為全貌的總結概述。書中的章節內容有精有簡,既為要略,那麼就無法苛求其內容都足夠全面與詳細。它更像是一部風控領域的科普類簡述作品,在