風險大腦-支付風險識別天池大賽（二）資料儲存及檢查

阿新 • • 發佈：2019-01-07

本次想把過程寫的詳細些，所以本節和上一節講了如何充分利用大資料平臺處理資料，如何利用最有效的工具進行資料儲存、處理、分析。另外這次準備用Inceptor（分散式SQL引擎，可以理解為Hive數倉）、Sophon、R語言來完成。

在下一節，我會將建模過程思路和大家分享。

本節詳細步驟如下。

一、上傳資料檔案至HDFS目錄。

訓練資料和AB榜測試資料。

hadoop fs -mkdir /tmp/jbw/ant/atec_anti_fraud_train
hadoop fs -mkdir /tmp/jbw/ant/atec_anti_fraud_test_a
hadoop fs -mkdir /tmp/jbw/ant/atec_anti_fraud_test_b

hadoop fs -put /mnt/disk1/ant/atec_anti_fraud_train_convert.csv  /tmp/jbw/ant/atec_anti_fraud_train
hadoop fs -put /mnt/disk1/ant/atec_anti_fraud_test_a_convert.csv  /tmp/jbw/ant/atec_anti_fraud_test_a
hadoop fs -put /mnt/disk1/ant/atec_anti_fraud_test_b_convert.csv  /tmp/jbw/ant/atec_anti_fraud_test_b

二、建立外表、匯入資料

DROP TABLE IF EXISTS bowen_payment_risk.atec_anti_fraud_train_ex;
CREATE EXTERNAL TABLE bowen_payment_risk.atec_anti_fraud_train_ex(
id STRING,
label STRING,
pay_date STRING,
f1 DOUBLE,
f2 DOUBLE,
f3 DOUBLE,
...
f297 DOUBLE
)
ROW FORMAT DELIMITED fields terminated by ','
LOCATION '/tmp/jbw/ant/atec_anti_fraud_train';

三、檢測資料

資料質量：

-- 檢查資料質量，即label的取值（經過驗證，發現label取值只會為0,1,-1，分別是無風險，有風險，無標籤）
SELECT
    COUNT(*)
FROM
    atec_anti_fraud_train_mini_ex
WHERE
     label != 0 AND label != 1 AND label != -1;

篩選出有標籤的資料，並去掉表頭：

-- 有標籤的資料
DROP TABLE IF EXISTS atec_anti_fraud_train_label;
CREATE TABLE atec_anti_fraud_train_label AS
SELECT
    *
FROM
    atec_anti_fraud_train_mini_ex
WHERE
     id != "id" AND label != -1;

檢視帶標籤資料中有風險與無風險的資料情況：

-- 共990006條有標籤的資料，有風險的共12122條資料，無風險的有97884條資料。
SELECT
    count(*)
FROM
    atec_anti_fraud_train_label
WHERE 
	label = 1;

比例還行，所以在資料預處理中不用對原始資料進行取樣了，直接幹。

重複ID檢測：

-- 判斷訓練資料集是否有重複id
-- 若有則需要將id送入模型訓練，若無則不需要
DROP TABLE IF EXISTS distincted_count_atec_anti_fraud_train_label;
CREATE TABLE distincted_count_atec_anti_fraud_train_label AS
SELECT
	DISTINCT id
FROM
	-- atec_anti_fraud_test_a
	-- atec_anti_fraud_test_b
	atec_anti_fraud_train_label;

-- b榜測試資料表
DROP TABLE IF EXISTS atec_anti_fraud_test_b;
CREATE TABLE atec_anti_fraud_test_b AS
SELECT
    *
FROM
    atec_anti_fraud_test_b_ex
WHERE
     id != "id";

-- 判斷b榜測試集中是否有重複id
DROP TABLE IF EXISTS distincted_count_atec_anti_fraud_test_b;
CREATE TABLE distincted_count_atec_anti_fraud_test_b AS
SELECT
	DISTINCT id
FROM
	-- atec_anti_fraud_test_a
	atec_anti_fraud_test_b;
	-- atec_anti_fraud_train_label;

-- 結果為990006，說明無重複的id，放心搞
SELECT count(*) FROM distincted_count_atec_anti_fraud_train_label;

-- 結果為500539，說明b榜測試資料無重複的id，也可放心搞
SELECT * FROM atec_anti_fraud_test_b WHERE id != "id" LIMIT 10;

風險大腦-支付風險識別天池大賽（二）資料儲存及檢查

本次想把過程寫的詳細些，所以本節和上一節講了如何充分利用大資料平臺處理資料，如何利用最有效的工具進行資料儲存、處理、分析。另外這次準備用Inceptor（分散式SQL引擎，可以理解為H

風險大腦-支付風險識別天池大賽（一）資料預處理

報了個名（據說deadline報名最有生產力），直播一下比賽吧，可能因為沒時間會隨時斷更，大家有好的思路歡迎交流。60萬的獎金，還是別指望了哈哈。大賽提供的所有資料資訊是包含在引號裡面的（“xxxx”），這樣在後續輸入模型使用資料前需要做字串索

風險大腦-支付風險識別天池大賽（三）快速建立模型（含調參思路）

這一節開始建立模型，在建模之前，我們先梳理一下思路：思路：1、首先選出只帶標籤的資料（有風險和無風險的），進行分析，建立一個 recall rate 風險交易召回率較高的二分類模型。2、接著在無標籤的資

風險大腦-支付風險識別天池大賽（番外篇）trick思路

預設無標籤的都是黑樣本。因為案例背景中有說道，因為風控系統會基於對交易的風險判斷而失敗掉很多高危交易，這些交易因為被失敗了往往沒有了標籤，而這部分資料又極其重要。所以這裡我們可以相信既然

螞蟻金服風險大腦-支付風險識別天池大賽 —— 賽後總結

週末這幾天都忙著東奔西跑，比賽也在週末結束了，故現來總結一波。這次報名螞蟻金服風險大賽主要是為了做個案例，用商業發行版TDH大資料平臺社群版+可拖拽式快速人工智慧平臺Sophon來完成。資料預處理（編碼2分鐘+執行5分鐘）：上

生物特征識別：小面積指紋識別算法（二）

dpi 如果 mage 卷積噪聲狀態 AMM 計算 log 算法（一）已經介紹了一種小面積指紋識別算法可選的方案，是一種經典的方案，對於面積足夠大且level2特征高於最小限制時，為一種低內存占用，快速的實現方法。但在某些應用場中中（比如終端中，要求占用面積較小，且面

語音識別學習筆記（二）【基於向量量化的識別技術】

語音識別學習筆記（二）【基於向量量化的識別技術】概述量化分為標量量化和向量量化（Vector Quantization，VQ）。標量量化是將取樣後的訊號值逐個進行量化，而適量量化是將若干個取樣訊號分成一組，即構成一個向量，然後對此向量一次進行量化。向量量化

哈爾濱工業大學計算機學院-模式識別-課程總結（二）-概率密度函式的引數估計

1. 概率密度函式的引數估計前文講到了利用貝葉斯決策理論構建貝葉斯分類器，初學者難免會有疑問，既然已經可以通過構建貝葉斯分類器的方法處理分類問題，那為什麼還要學習本章節內容？事實上，貝葉斯分類器的缺可以通過計算先驗概率與類條件概率來設計最優分類器。但是對於大多數實際問題，我們往往無法知道這兩個

哈爾濱工業大學計算機學院-模式識別-課程總結（二）-概率密度函數的參數估計

展開處理 play bold 避免 dot max 應用既然 1. 概率密度函數的參數估計前文講到了利用貝葉斯決策理論構建貝葉斯分類器，初學者難免會有疑問，既然已經可以通過構建貝葉斯分類器的方法處理分類問題，那為什麽還要學習本章節內容？事實上，貝葉斯分類器的缺可以

基於OpenCV3.0的車牌識別系統設計（二）--車牌提取

寫在前面的話上一篇開篇博文寫好之後找女朋友看了一下，希望她提一點建設性建議。結果她很委婉的告訴我，寫的還行就是太表面了，告訴我要注意細節的描述與具體的實現過程與原理等等。其實我只是想騙她看一下增加一下點選量，順便知道我寫的部落格新手能不能看懂而已。結果她告訴我，她那麼聰明當然能看懂，別人就

ARM+Movidius VPU 目標識別除錯筆記（二）

演算法載入在ARM+Movidius VPU 目標識別除錯筆記（一）一文中，我們通過對Ncsdk的分析，已經成功搭建了其開發環境，並且能成功執行簡單的HelloWorld程式了。那麼我們下一步工作就是要分析清楚Ncsdk是如果操作來實現演算法加速的。

基於KNN分類演算法手寫數字識別的實現（二）——構建KD樹

上一篇已經簡單粗暴的建立了一個KNN模型對手寫圖片進行了識別，所以本篇文章採用構造KD樹的方法實現手寫數字的識別。（一）構造KD樹構造KD樹的基本原理網上都有介紹，所以廢話不多說，直接上程式碼。 #Knn KD_Tree演算法 import math from

Tensorflow1.8用keras實現MNIST資料集手寫字型識別例程（二）

class CNN(tf.keras.Model): def __init__(self): super().__init__() self.conv1 = tf.keras.layers.Conv2D( f

OS——內購支付詳解程式碼部分（二）

一、程式碼及業務邏輯業務邏輯 1. 獲取內購列表（從App內讀取或從自己伺服器讀取） 2. App Store請求可用的內購列表 3. 向用戶展示內購列表 4. 使用者選擇了內購列表，再發個購買請求，收到購買完成的

TensorFlow框架做實時人臉識別小專案（二）

在第一部分中，分析了整個小專案的體系，重點討論了用於人臉檢測對齊的mtcnn網路的實現原理，並利用膝上型電腦自帶的攝像頭進行了測試。今天在這裡要討論的重點是人臉識別中的核心部分——facenet網路。facenet是Google開源的人臉識別框架，它的作用是把輸入的人臉影象對

yolo v2之車牌檢測後續識別字符（二）

一、前言這一篇續接前一篇《yolo v2之車牌檢測後續識別字符（一）》，主要是生成模型檔案、配置檔案以及訓練、測試模型。二、python介面生成配置檔案、模型檔案車牌圖片端到端識別的模型檔案參考自這裡，模型圖如下所示：本

NIST指紋資料識別（二）資料處理

資料處理資料分析前面一篇文章簡單介紹了NIST指紋資料集的大概形式和組成，一張圖片配一個標籤的txt檔案。兩個檔名相同（.png和.txt）由於圖片和標籤是分開的。我們需要生成兩個對應的批次來對圖片和標籤進行處理。資料準備首先，我們先對標

語音識別-特徵提取（二）

下面總結的是第四個知識點：MFCC。因為花的時間不多，所以可能會有不少說的不妥的地方，還望大家指正。謝謝。在任意一個Automatic speech recognition 系統中，第一步就是提取特徵。換句話說，我們需要把音訊訊號中具有辨識性的成分提取出

虛擬化（二）：虛擬化及vmware workstation產品使用

應該 server esxi aof 手機 text 產品窗體 pass 虛擬化（一）：虛擬化及vmware產品介紹 vmware workstation的最新版本號是10.0.2。相信大家也都使用過，當中的簡單的虛擬機的創建。刪除等，都非常easy

自動化運維之saltstack（二）states介紹及使用

配置文件如何 states master 根目錄一、什麽是Salt States？Salt States是Salt模塊的擴展，主系統使用的狀態系統叫SLS系統，SLS代表Saltstack State，Salt是一些狀態文件，其中包含有關如何配置Salt子節點的信息，這些狀態被存放在一

風險大腦-支付風險識別天池大賽（二）資料儲存及檢查

相關推薦