SQL 對郵箱資料的處理（分類統計）

阿新 • • 發佈：2020-12-07

需求

在許多業務場景中，需要處理使用者的郵箱資訊，為了探索不同郵箱的不同特定，便於對使用者進行分類處理，需要對郵箱進行處理。

前、字尾分離

郵箱的格式大致是一致的 字首@字尾 的樣式。需要將郵箱進行分類。

email
[email protected]
[email protected]

明顯看到他們前後綴通過 @ 複合連線，將他們分別分離成兩列即可。

select  email_list[0] as pre_email , email_list[1] as pro_email
from (
    select split(email,'@') email_list
    from table a
) a

結果是：

pre_email	pro_email
123456	qq.com
123456	163.com

此時可以檢視，究竟有那些郵箱的字尾，計數是多少，便於進行分類。

select pro_email, count(*) cnt
from table
group by pro_email

字首的處理

對於字首，主要可以為以下幾種型別

手機號： 13579246810
純數字： 3123443242（ 這種可能會與手機號重複，因此需要先篩選手機號）
純字母： qwert
字母與數字： xiaoming1982
其他： xiaoming_19

分類程式碼如下：

case when pre_email rlike "^(\\+?86)?((13[0-9])|(14[5,7])|(15[0-3,5-9])|(17[0,3,5-8])|(18[0-9])|161|166|198|199|(147))\\d{8}$" then '手機號'
    when pre_email rlike '^\\d+$' then '純數字'
    when pre_email rlike '^[a-zA-Z]*$' then '純字母'
    when pre_email rlike '^[a-z0-9A-Z]+$' then '字母與數字'
    else '其他' end as pre_flag

字尾的處理

字尾主要是公司，可以根據使用的場景，檢視那些郵箱用的比較多，定義對應的字尾漢語名稱。

騰訊郵箱： qq.com, qq.vip.com, foxmail.com
網易郵箱： 163.com , 126.com, yeah.cn
電信郵箱： 139.com, 189.com

分類程式碼如下：

case when pro_email rlike '.*(163|126|yeah).*' then '網易郵箱'
    when pro_email rlike '.*(sina).*' then '新浪郵箱'
    when pro_email rlike '.*(qq|foxmail).*' then '騰訊郵箱'
    when pro_email rlike '.*(sohu).*' then '搜狐郵箱'
    when pro_email rlike '.*(139|189).*' then '電信郵箱'
    else 'others' end as pro_flag

統計

這樣就可以處理成不同的組合。進行單獨、交叉統計。

-- 交叉統計
select pre_flag, pro_flag, count(*) cnt
from table
group by pre_flag, pro_flag

SQL 對郵箱資料的處理（分類統計）

需求在許多業務場景中，需要處理使用者的郵箱資訊，為了探索不同郵箱的不同特定，便於對使用者進行分類處理，需要對郵箱進行處理。

MNIST 資料集分類# 構建簡單的CNN對 mnist 資料集進行分類

這是一篇學習貼。1 import torch 2 import torch.nn as nn 3 import torch.nn.functional as F 4 import torch.optim as optim

.NetCore實現Execl匯入資料處理（EppLus、NPOI）

1、Excel .xls 和 .xlsx 有什麼區別? 區別如下： 1、檔案格式不同。.xls 是一個特有的二進位制格式，其核心結構是複合文件型別的結構，而.xlsx 的核心結構是 XML 型別的結構，

20-Pandas時序資料處理（日期範圍、頻率及移動）

一、生成日期範圍的時序資料 pd.date_range()可用於生成指定長度的日期索引，預設產生按天計算的時間點（即日期範圍）。其引數可以是：

大資料實戰（六十）：電商數倉（四十三）之系統業務資料倉庫（十六）統計每個月訂單付款率

1 DWS層採用使用者行為寬表作為DWS層 2 ADS層 2.1 建表語句 drop table if exists ads_order2pay_mn;

大資料學習11_MapReduce案例實戰（單詞統計）

WordCount 需求: 在一堆給定的文字檔案中統計輸出每一個單詞出現的總次數 Step 1. 資料格式準備

使用KNN分類器對MNIST資料集進行分類

MNIST資料集包含了70000張0~9的手寫數字影象。一、準備工作：匯入MNIST資料集 1 import sys

R語言用邏輯迴歸、決策樹和隨機森林對信貸資料集進行分類預測

原文連結：http://tecdat.cn/?p=17950 在本文中，我們使用了邏輯迴歸、決策樹和隨機森林模型來對信用資料集進行分類預測並比較了它們的效能。資料集是

NET 5 Execl匯入資料處理（EppLus、NPOI）

先來簡單介紹下市面上最廣泛常見的三種操作excel庫的優缺點1.NPOI 優點:免費開源，無需裝Office即可操作excel, 支援處理的檔案格式包括xls, xlsx, docx.格式

使用中值濾波、均值濾波及選擇掩膜平滑演算法對影象進行處理（附matlab程式碼）

這個也是我們課程設計用到的，很簡單，大家可以參考一下。 clc clear img=imread(\'D:\\matlab\\bin\\COD\\1.jpg\');

機器學習第2篇：資料預處理（缺失值）

在真實的世界中，缺失資料是經常出現的，並可能對分析的結果造成影響。一，資料缺失的原因

Python3基礎語法03|用Pandas來資料處理（1）

技術標籤：python基礎python資料分析pandas 1.Pandas是什麼 Pandas是Python核心的資料分析庫，如果你需要操作資料庫，處理資料庫表或者excel表，那必然會接觸到Pandas這個好幫手啦~

資料分析之資料處理（一）

技術標籤：資料分析Python機器學習資料分析python機器學習資料分析之資料處理（一）

UE4_非同步_資料處理（Json）

技術標籤：UE4虛幻4-C ++數字城市UE4 如果一個數字城市demo，需要將第三方海量的資料進行處理展示，將資料的處理放在GameThread 上顯然是不合理。這個時候需要用多執行緒解析資料，防止遊戲執行緒的阻塞

ALINK(十四)：資料處理（一）資料拆分 (SplitBatchOp)

Java 類名：com.alibaba.alink.operator.batch.dataproc.SplitBatchOp Python 類名：SplitBatchOp 功能介紹

ALINK(十七)：資料處理（三）缺失值處理(一)缺失值填充批預測

Java 類名：com.alibaba.alink.operator.batch.dataproc.ImputerPredictBatchOp Python 類名：ImputerPredictBatchOp

ALINK(十八)：資料處理（四）缺失值處理(二)缺失值填充訓練 (ImputerTrainBatchOp)

Java 類名：com.alibaba.alink.operator.batch.dataproc.ImputerTrainBatchOp Python 類名：ImputerTrainBatchOp

機器學習sklearn（五）：資料處理（二）缺失值處理

來源 https://www.cnblogs.com/B-Hanan/articles/12774433.html 1 單變數缺失 import numpy as np from sklearn.impute import SimpleImputer

ALINK(二十)：資料處理（六）數值型資料處理（二）標準化 (StandardScalerPredictBatchOp/StandardScalerTrainBatchOp )

標準化訓練 (StandardScalerTrainBatchOp) Java 類名：com.alibaba.alink.operator.batch.dataproc.StandardScalerTrainBatchOp

ALINK(二十一)：資料處理（七）數值型資料處理（三）絕對值最大化 (MaxAbsScalerTrainBatchOp/MaxAbsScalerPredictBatchOp)

絕對值最大化訓練 (MaxAbsScalerTrainBatchOp) Java 類名：com.alibaba.alink.operator.batch.dataproc.MaxAbsScalerTrainBatchOp

SQL 對郵箱資料的處理（分類統計）

需求

前、字尾分離

字首的處理

字尾的處理

統計

相關推薦