資料治理通用校驗規則

阿新 • • 發佈：2021-12-15

資料治理#

資料質量規則#

目的#

資料治理分析的重要前提是有資料且有正確的資料可以提供分析。資料質量的把控，應是後續工作的重中之重。為資料探勘、預測、資料分析演算法的合理使用、多維查詢、即席分析、資料視覺化等工作做好支撐，讓資料質量不再是空中樓閣。資料質量不高表現為資料以多種格式，雜亂無序的存在於內外部的各個業務應用系統中，無統一資料來源，資料分析可用的準確資料無法識別，展示資訊不準，很難有效支援領導決策。為形成有效資料資產，要明確資料質量管理目標、控制物件和指標、定義資料質量檢驗規則、執行資料質量檢核，生產資料質量報告。綜上資料質量在資料治理過程中既是前提又是目標，通過資料質量問題處理流程及相關功能實現資料質量問題從發現到處理的閉環管理，從而促進資料質量的不斷提升。

資料質量校驗標準#

完整性：完整性用於度量哪些資料丟失了或者哪些資料不可用。
規範性：規範性用於度量哪些資料未按統一格式儲存。
一致性：一致性用於度量哪些資料的值在資訊含義上是衝突的。
準確性：準確性用於度量哪些資料和資訊是不正確的，或者資料是超期的。
唯一性：唯一性用於度量哪些資料是重複資料或者資料的哪些屬性是重複的。
關聯性：關聯性用於度量哪些關聯的資料缺失或者未建立索引。

需求分析概述#

資料質量通用規則應該做到在不同業務都可以直接使用而不用擔心規則的過度判斷和遺漏。

規則分組
通用規則可以放在行業常用規則分組中。
規則命名
命名需要體現規則的作用範圍，不可與規則SQL表示式有衝突。

規則評價分類
規則評價分類選擇系統預定義規則評估分類型別。
規則權重
通用規則在質量評價中的等級，分為：一般、警告和阻斷。
規則SQL表示式
質量規則的定義，一般不要在前面加where，引數使用${自然數}表示引數。
引數配置
定義引數型別，有當前模型指標項、字元、數值、時間等。

資料質量規則評審#

通過SQL表示式找出不符合規則的資料，通用規則既要考慮結果的準確性還要考慮處理過程的可行性、時間成本、空間成本、不同規則是否滿足業務不相關等因素。

評審內容	SQL表示式	描述	引數
非空校驗	${1} is null	當前模型欄位為空的欄位	${1}:欄位
值域校驗	left outer join ${1} t on ${2} = t.${3} and t.${3} is null WHERE ${2} IS NOT NULL AND t.${3} IS NOT NULL	模型欄位不在碼錶中的資料	${1}:碼錶 ${2}:當前模型欄位 ${3}:碼錶欄位
大小值校驗	${1} > ${2} or ${1} < ${3}	模型欄位值不某個取值範圍	${1}:當前欄位 ${2}:最大值 ${3}:最小值
長度校驗	length(${1}) <> ${2}	模型欄位長度規範值	${1}:欄位 ${2}:長度值
唯一性校驗	group by ${1} having count([DISTINCT] ${1}) > 1	找出模型重複資料	${1}:當前表主鍵欄位
及時性校驗	datediff(${1},${2}) < 0	判斷當前模型時間標識欄位是否是晚於截止日期	${1}:欄位 ${2}:截止時間
取值範圍約束	${1} not in (${2})	模型欄位是否在有限的取值範圍內	${1}:當前欄位 ${2}:可能的取值列表（如：'01','02'）
數字精確位數	length(split((case when length(regexp_extract(${1},"([0-9]+\.)([0-9]+)(E-*[0-9]+)",2))=0 then ${1} when length(regexp_extract(${1},"([0-9]+\.)([0-9]+)(E[0-9]+)",2))<=cast(regexp_extract(${1},"(E)([0-9]+)",2) as int) then rpad(regexp_replace(regexp_extract(${1},"([^E]+)",1),"\.",""),cast(regexp_extract(${1},"(E)([0-9]+)",2) as int)+1,"0") when length(regexp_extract(${1},"([0-9]+\.)([0-9]+)(E[0-9]+)",2))>cast(regexp_extract(${1},"(E)([0-9]+)",2) as int) then concat(substr(regexp_replace(regexp_extract(${1},"([^E]+)",1),"\.",""),1,cast(regexp_extract(${1},"(E)([0-9]+)",2) as int)+1),".", substr(regexp_replace(regexp_extract(${1},"([^E]+)",1),"\.",""),cast(regexp_extract(${1},"(E)([0-9]+)",2) as int)+2)) when ${1} regexp "E-" then concat("0.",repeat("0",cast(regexp_extract(${1},"(E)(-)([0-9]+)",3) as int)-1),regexp_replace(regexp_extract(${1},"(.+)(E)",1),"\.","")) else ${1} end), '[.]')[1]) < ${2}	數精度判斷（為適應科學計數法sql寫法比較長）	${1}:欄位 ${2}:最小精度
電話號手機號碼校驗(11位)碼校驗	${1} is null or length(${1}) <> 11 or REGEXP_LIKE(${1}, '^[^1]')	校驗11位手機號	${1}:當前欄位
身份證號校驗(18位)	${1} is null or length(${1})<>18 or regexp_like(substr(${1},1,17), '^[[:digit:]]+$') or substr(${1},7,4) < 1800 or (substr(${1},11,2) < 1 or substr(${1},11,2)>12) or (substr(${1},1,1)7+ substr(${1},2,1)9+ substr(${1},3,1)10+ substr(${1},4,1)5+ substr(${1},5,1)8+ substr(${1},6,1)4+ substr(${1},7,1)2+ substr(${1},8,1)1+ substr(${1},9,1)6+ substr(${1},10,1)3+ substr(${1},11,1)7+ substr(${1},12,1)9+ substr(${1},13,1)10+ substr(${1},14,1)5+ substr(${1},15,1)8+ substr(${1},16,1)4+ substr(${1},17,1)*2)%11 <> ( case when substr(${1},18,1)='1' then '0' when substr(${1},18,1)='0' then '1' when substr(${1},18,1) in ('X','x') then '2' when substr(${1},18,1)='9' then '3' when substr(${1},18,1)='8' then '4' when substr(${1},18,1)='7' then '5' when substr(${1},18,1)='6' then '6' when substr(${1},18,1)='5' then '7' when substr(${1},18,1)='4' then '8' when substr(${1},18,1)='3' then '9' when substr(${1},18,1)='2' then '10' end )	二代身份證校驗	${1}:當前欄位

資料治理通用校驗規則

資料治理# 資料質量規則# 目的# 資料治理分析的重要前提是有資料且有正確的資料可以提供分析。資料質量的把控，應是後續工作的重中之重。為資料探勘、預測、資料分析演算法的合理使用、多維查詢、即席分析、資料

MySQL篇-資料校驗規則總結

1、MySQL庫名、表名大小寫驗證規則設定 1.1 MySQL使用lower_case_table_names 該引數設定庫名、表名大小寫驗證規則。lower_case_table_names 取值結果：1/0，配置檔案中如果定義該引數值是1，則該引數值=1；如果定義

23.Django（form元件自定製校驗規則、鉤子、更改圖書管理系統）

自定製校驗規則之前form表單給我們提供了一些校驗功能：這些基本你的校驗功能，不足以滿足我們日常的需要，使用者名稱不允許出現敏感字元，電話號碼的驗證，等等。

MySQL字符集及校驗規則

1.字符集 # Mysql 的字符集有4個級別的預設設定：伺服器級，資料庫級，表級和欄位級，客戶端互動時，也可以指定字符集

layui使用，LayUI select不顯示，LayUI檔案上傳，Layui自定義校驗規則

layui使用，LayUI select不顯示，LayUI檔案上傳，Layui自定義校驗規則 ================================

Elenent ui中的表單校驗規則、自定義校驗規則、預驗證功能

校驗規則 html <el-form ref=\"addFormRef\" :model=\"addForm\" :rules=\"addFormRules\" label-width=\"70px\">

SpringBoot+Vue開發之Login校驗規則、實現登入和重置事件

一、Login校驗規則 1、校驗規則寫法可參考Element-ui官網文件 https://element.eleme.cn/#/zh-CN/component/form

Element ui rules 表單校驗規則常用配置

轉自：https://www.cnblogs.com/loveyt/p/13282518.html type 指示type要使用的驗證器。可識別的型別值為：

配置屬性值資料繫結校驗

一、為什麼要對配置屬性值校驗我們都知道配置檔案是需要開發人員手動來修改的，只要是人為參與就會有出錯的可能。為了避免人為配置出錯的可能，我們需要對配置屬性值做校驗。

詳解mysql中的字符集和校驗規則

1幾種常見字符集在MySQL中，最常見的字符集有ASCII字符集、latin字符集、GB2312字符集、GBK字符集、UTF8字符集等，下面我們簡單介紹下這些字符集：

element ui動態表單 + 自定義校驗規則

背景描述：表單如下圖所示：如上圖所示，我們有一個動態表單（教育經歷） - 可以動態新增的，我們的校驗規則是：

element UI 自定義校驗規則寫法

技術標籤：VUEJsjavascriptvue.js 例：校驗 number(22,12) 型別的必填資料。【ps：好像可以改成接收引數，把整數、小數位數作為入參就可以通用了，回頭再看吧，先記錄到這兒。如有錯誤，歡迎指正】

elementUI自定義表單校驗規則的兩個大坑(callback和return)

技術標籤：前端正常情況下，我們使用elementUI的時候會採用自定義表單校驗，然後會自定義校驗規則。

MySQL主從資料一致性怎麼校驗

背景　　新專案要上線了，資料庫採用的MySQL主從同步配置。為了確保上線前遷移的資料一致性，指定了多種預案，為了確保主從資料一致，使用了percona-toolkit 。

vue+element-ui 自定義校驗規則實現郵箱驗證

技術標籤：vueelementui 表單 <div class="informa"> <div class="tetli">經營者資訊</div>

資料安全：校驗Oracle 11.2.0.4安裝軟體的 SHA碼防範注入

由於很多使用者遭遇到Oracle軟體包的注入，尤其是 11.2.0.4 這個版本。以下收錄一下 11.2.0.4 的 MD5 和 SHA-1 值，大家拿到這個版本的安裝包時，一定校驗一下再安裝，防範注入風險。

Vue Element-ui表單校驗規則實現

目錄1、前言2、規則校驗的入門模式2.1、示例程式碼2.2、form項2.3、prop項2.4、rules項2.5、rule項2.6、使用規則2.7、規則校驗的核心3、規則校驗的進階模式3.1、巢狀物件屬性名3.2、自定義校驗器validator3.3、型別t

前端Vue中常用rules校驗規則

rules: { //驗證非空和長度 name: [{ required: true, message: \"站點名稱不能為空\", trigger: \"blur\" },{ min: 3,max: 5,message: \'長度在 3 到 5 個字元\',trigger: \'blur\'}], //驗證數值 age: [{type: \'

身份證完整校驗規則

function checkIdNumberValid(tex) { var num = tex; num = num.toUpperCase(); var len, re; len = num.length;

vue el-form 自定義校驗規則

<el-form-item class=\'fzfp\' label=\'分值分配：\' prop=\'fzfp\'><div v-if=\'preview\'>{{ this.rowData.socreOptionValue }}</div><div v-else><el-row class=\'fzfp_row\'>&l

資料治理通用校驗規則

資料治理#

資料質量規則#

目的#

資料質量校驗標準#

需求分析概述#

資料質量規則評審#

相關推薦