1. 程式人生 > 實用技巧 >大資料開發中資料質量如何做?有什麼意義?

大資料開發中資料質量如何做?有什麼意義?

一、為什麼要做資料質量:

在大資料ETL過程中,如何保障資料質量,減少使用者投訴?做資料質量!

二、什麼時候做資料質量:

資料發生跨平臺轉移,包括但不限於:1、ftp資料到hive;2、oracle資料到hive;3、mysql資料到hive;4、hive到click house;

三、常見的錯誤型別大致有:

1、源端明細資料發生手動維護,目標段ETL只加載昨日資料,無法感知到資料變化;

2、業務發生變化,導致統計口徑發生變化,如果不是交易人員,很難第一時間進行感知;

3、資料載入過程中,伺服器或者服務異常,導致資料載入時發生異常;

四、校驗指標:

完整性:完整性是指資料的記錄和資訊是否完整,是否存在缺失的情況。 可能存在某個任務抽取了部分資料後失敗;

一致性:一致性是指同一指標在不同地方的結果是否一致。由於計算口徑或者開發人員的不同,容易造成同一指標出現的不同的結果。

五、實施:

對於ftp伺服器類的源端資料:
1、資料拉取後對md5值進行校驗,校驗失敗ETL流程中斷,告警
2、資料載入後,對資料進行count值校驗,校驗失敗ETL流程中斷,告警
3、資料載入後,對資料進行一致性校驗,比較常規報表關鍵值,確保業務變化對已有資料加工邏輯沒有影響,如果校驗失敗,ETL流程中斷,告警

對於網路互通的資料庫:
1、資料載入後源端與目標段進行完整性,一致性檢查,並輸出校驗指標,如果校驗失敗,ETL流程中斷,告警

六、告警:

任務失敗告警:ETL過程中,任務鏈依賴較多,每個模組設計時,應保證:1、任務失敗可以重跑,這個非常重要;2、一鍵進行排程流的重跑

資料質量校驗失敗告警:

七、視覺化:

無論是排程流,還是資料質量,應該實現視覺化,方便對業務進行監控維護。