1. 程式人生 > 其它 >資料倉庫之資料質量建設(深度好文)

資料倉庫之資料質量建設(深度好文)

轉自: https://zhuanlan.zhihu.com/p/413450595

數倉建設真正的難點不在於數倉設計,而在於後續業務發展起來,業務線變的龐大之後的資料治理,而資料治理的範圍非常廣,包含資料本⾝的管理、資料安全、資料質量、資料成本等。在這麼多治理內容中,大家想下最重要的治理是什麼?當然是資料質量治理,因為資料質量是資料分析結論有效性和準確性的基礎,也是這一切的前提。所以如何保障資料質量,確保資料可用性是資料倉庫建設中不容忽視的環節。

資料質量涉及的範圍也很廣,貫穿數倉的整個生命週期,從資料產生->資料接入->資料儲存->資料處理->資料輸出->資料展示,每個階段都需要質量治理。

在系統建設的各個階段都應該根據標準進行資料質量檢測和規範,及時進行治理,避免事後的清洗工作。

本文首發於公眾號【五分鐘學大資料】,完整的資料治理及數倉建設文章公眾號上都有

1. 為什麼要進行資料質量評估

很多剛入門的資料人,拿到資料後會立刻開始對資料進行各種探查、統計分析等,企圖能立即發現數據背後隱藏的資訊和知識。然而忙活了一陣才頹然發現,並不能提煉出太多有價值的資訊,白白浪費了大量的時間和精力。比如和資料打交道的過程中,可能會出現以下的場景:

場景一:作為資料分析人員,要統計一下近 7 天使用者的購買情況,結果從數倉中統計完發現,很多資料發生了重複記錄,甚至有些資料統計單位不統一。

場景二:業務看報表,發現某一天的成交 gmv 暴跌,經過排查發現,是當天的資料缺失。

造成這一情況的一個重要因素就是忽視了對資料質量的客觀評估,沒有制定合理的衡量標準,導致沒有發現數據已出現問題。所以,進行科學、客觀的資料質量衡量標準是非常必要且十分重要的。

2. 資料質量衡量標準

如何評估資料質量的好壞,業界有不同的標準,我總結了以下六個維度進行評估,包括完整性、規範性、一致性、準確性、唯一性、及時性。

  1. 資料完整性

完整性指的是資料資訊是否存在缺失的狀況,資料缺失的情況可能是整個資料記錄缺失,也可能是資料中某個欄位資訊的記錄缺失。

  1. 資料規範性

規範性指的是描述資料遵循預定的語法規則的程度,是否符合其定義,比如資料的型別、格式、取值範圍等。

  1. 資料一致性

一致性是指資料是否遵循了統一的規範,資料集合是否保持了統一的格式。資料質量的一致性主要體現在資料記錄的規範和資料是否符合邏輯,一致性並不意味著數值上的絕對相同,而是資料收集、處理的方法和標準的一致。常見的一致性指標有:ID 重合度、屬性一致、取值一致、採集方法一致、轉化步驟一致。

  1. 資料準確性

準確性是指資料記錄的資訊是否存在異常或錯誤。和一致性不一樣,存在準確性問題的資料不僅僅只是規則上的不一致,更為常見的資料準確性錯誤就如亂碼,其次異常的大或者小的資料也是不符合條件的資料。常見的準確性指標有:缺失值佔比、錯誤值佔比、異常值佔比、抽樣偏差、資料噪聲。

  1. 資料唯一性

唯一性指的是資料庫的資料不存在重複的情形。比如真實成交 1 萬條,但資料表有 3000 條重複了,成了 1.3 萬條成交記錄,這種資料不符合資料唯一性。

  1. 資料及時性

及時性是指資料從產生到可以檢視的時間間隔,也叫資料的延時時長。比如一份資料是統計離線今日的,結果都是第二天甚至第三天才能統計完,這種資料不符合資料及時性。

還有一些其他的衡量標準,在此簡單列出

維度衡量標準

3. 資料質量管理流程

本節流程如下圖所示:

1. 資料資產等級

1) 等級定義

根據當資料質量不滿足完整性、規範性、一致性、準確性、唯一性、及時性時,對業務的影響程度大小來劃分資料的資產等級。

  1. 毀滅性:資料一旦出錯,會引起巨大的資產損失,面臨重大收益受損等。標記為 L1
  2. 全域性性:資料用於集團業務、企業級效果評估和重要決策任務等。標記為 L2
  3. 區域性性:資料用於某個業務線的日常運營、分析報告等,如果出現問題會給該業務線造成一定的影響或影響其工作效率。標記為 L3
  4. 一般性:資料用於日常資料分析,出現問題的帶來的影響很小。標記為 L4
  5. 未知性質:無法追溯資料的應用場景。標記為 Lx

重要程度:L1>L2>L3>L4>Lx。如果一份資料出現在多個應用場景中,則根據其最重要程度進行標記。

2) 等級劃分

定義資料資產等級後,我們可以從資料流程鏈路開始進行資料資產等級標記,完成資料資產等級確認,給不同的資料定義不同的重要程度。

1. 分析資料鏈路:

資料是從業務系統中產生的,經過同步工具進入資料倉庫系統中,在資料倉庫中進行一般意義上的清洗、加工、整合、演算法、模型等一系列運算後,再通過同步工具輸出到資料產品中進行消費。而從業務系統到資料倉庫再到資料產品都是以表的形式體現的,其流轉過程如下圖所示:

2. 標記資料資產等級:

在所有資料鏈路上,整理出消費各個表的應用業務。通過給這些應用業務劃分資料資產等級,結合資料的上下游依賴關係,將整個鏈路打上某一類資產等級標籤。

舉例:

假設公司有統一的訂單服務中心。應用層的應用業務是按照業務線,商品型別和地域統計公司的訂單數量和訂單金額,命名為order_num_amount

假設該應用會影響到整個企業的重要業務決策,我們可以把應用定級為 L2,從而整個資料鏈路上的表的資料等級,都可以標記為L2-order_num_amount,一直標記到源資料業務系統,如下圖所示:

2. 資料加工過程卡點校驗

1) 線上系統資料校驗

線上業務複雜多變,總是在不斷地變更,每一次變更都會帶來資料的變化,資料倉庫需要適應這多變的業務發展,及時做到資料的準確性。

基於此,線上業務的變更如何高效地通知到離線資料倉庫,同樣也是需要考慮的問題。為了保障線上資料和離線資料的一致性,我們可以通過工具+人員管理並行的方式來儘可能的解決以上問題:既要在工具上自動捕捉每一次業務的變化,同時也要求開發人員在意識上自動進行業務變更通知。

1. 業務上線釋出平臺:

監控業務上線釋出平臺上的重大業務變更,通過訂閱這個釋出過程,及時將變更內容通知到資料部門。

由於業務系統複雜多變,若日常釋出變更頻繁,那麼每次都通知資料部門,會造成不必要的資源浪費。這時,我們可以使用之前已經完成標記的資料資產等級標籤,針對涉及高等級資料應用的資料資產,整理出哪些型別的業務變更會影響資料的加工或者影響資料統計口徑的調整,則這些情況都必須及時通知到資料部門。

如果公司沒有自己的業務釋出平臺,那麼就需要與業務部門約定好,針對高等級的資料資產的業務變更,需要以郵件或者其他書面的說明及時反饋到資料部門

2. 操作人員管理:

工具只是輔助監管的一種手段,而使用工具的人員才是核心。資料資產等級的上下游打通過程需要通知給線上業務系統開發人員,使其知道哪些是重要的核心資料資產,哪些暫時還只是作為內部分析資料使用,提高線上開發人員的資料風險意識。

可以通過培訓的方式,把資料質量管理的訴求,資料質量管理的整個資料加工過程,以及資料產品的應用方式及應用場景告知線上開發人員,使其瞭解資料的重要性、價值及風險。確保線上開發人員在完成業務目標的同時,也要考慮資料的目標,保持業務端和資料段一致。

2) 離線系統資料校驗

資料從線上業務系統到資料倉庫再到資料產品的過程中,需要在資料倉庫這一層完成資料的清洗、加工。正是有了資料的加工,才有了資料倉庫模型和資料倉庫程式碼的建設。如何保障資料加過程中的質量,是離線資料倉庫保障資料質量的一個重要環節。

在這些環節中,我們可以採用以下方式來保障資料質量:

  1. 程式碼提交核查:

開發相關的規則引擎,輔助程式碼提交校驗。規則分類大致為:

  • 程式碼規範類規則:如表命名規範、欄位命名規範、生命週期設定、表註釋等;
  • 程式碼質量類規則:如分母為 0 提醒、NUll 值參與計算提醒等;
  • 程式碼效能類規則:如大表提醒、重複計算監測、大小表 join 操作提醒等。
  1. 程式碼釋出核查:

加強測試環節,測試環境測試後再發布到生成環境,且生成環境測試通過後才算釋出成功。

  1. 任務變更或重跑資料:

在進行資料更新操作前,需要通知下游資料變更原因、變更邏輯、變更時間等資訊。下游沒有異議後,再按照約定時間執行變更釋出操作。

3. 資料處理風險監控

風險點監控主要是針對資料在日常執行過程中容易出現的風險進行監控並設定報警機制,主要包括線上資料離線資料執行風險點監控。

1) 資料質量監控

線上業務系統的資料生產過程需要保證資料質量,主要根據業務規則對資料進行監控。

比如交易系統配置的一些監控規則,如訂單拍下時間、訂單完結時間、訂單支付金額、訂單狀態流轉等都配置了校驗規則。訂單拍下時間肯定不會大於當天時間,也不會小於業務上線時間,一旦出現異常的訂單建立時間,就會立刻報警,同時報警給到多人。通過這種機制,可以及時發現並解決問題。

隨著業務負責程度的提升,會導致規則繁多、規則配置的執行成本增大,這時可以按照我們之前的資料資產等級有針對性的進行監控

離線資料風險點監控主要包括對資料準確性和資料產出及時性的監控。對資料排程平臺上所有資料處理排程進行監控。

我們以阿里的 DataWorks 資料排程工具為例,DataWorks 是基於 MaxCompute 計算引擎的一站式開發工場,幫助企業快速完成資料整合、開發、治理、質量、安全等全套資料研發工作。

DataWorks 中的 DQC 通過配置資料質量校驗規則,實現離線資料處理中的資料質量監控報警機制。

下圖是 DQC 的工作流程圖:

DQC 資料監控規則有強規則和弱規則:

  • 強規則:一旦觸發報警就會阻斷任務的執行(將任務置為失敗狀態,使下游任務不會被觸發執行)。
  • 弱規則:只報警但不阻斷任務的執行。

DQC 提供常用的規則模板,包括錶行數較 N 天前波動率、表空間大小較 N 天前波動率、欄位最大/最小/平均值相比 N 天前波動率、欄位空值/唯一個數等。

DQC 檢查其實也是執行 SQL 任務,只是這個任務是巢狀在主任務中的,一旦檢查點太多自然就會影響整體的效能,因此還是依賴資料產等級來確定規則的配置情況。比如 L1、L2 類資料監控率要達到 90% 以上,規則型別需要三種及以上,而不重要的資料資產則不強制要求。

2) 資料及時性監控

在確保資料準確性的前提下,需要進一步讓資料能夠及時地提供服務,否則資料的價值將大幅度降低,甚至沒有價值,所以確保資料及時性也是保障資料質量重中之重的一環。

  1. 任務優先順序:

對於DataWorks平臺的排程任務,可以通過智慧監控工具進行優先順序設定。DataWorks的排程是一個樹形結構,當配置了葉子節點的優先順序,這個優先順序會傳遞到所有的上游節點,而葉子節點通常就是服務業務的消費節點。

因此,在優先順序的設定上,要先確定業務的資產等級,等級越高的業務對應的消費節點優先順序越高,優先排程並佔用計算資源,確保高等級業務的準時產出。

總之,就是按照資料資產等級優先執行高等級資料資產的排程任務,優先保障高等級業務的資料需求。

  1. 任務報警:

任務報警和優先順序類似,通過DataWorks的智慧監控工具進行配置,只需要配置葉子節點即可向上游傳遞報警配置。任務執行過程中,可能出錯或延遲,為了保障最重要資料(即資產等級高的資料)產出,需要立即處理出錯並介入處理延遲。

  1. DataWorks智慧監控:

DataWorks進行離線任務排程時,提供智慧監控工具,對排程任務進行監控告警。根據監控規則和任務執行情況,智慧監控決策是否報警、何時報警、如何報警以及給誰報警。智慧監控會自動選擇最合理的報警時間、報警方式以及報警物件。

4. 最後

要想真正解決資料質量問題,就要明確業務需求並從需求開始控制資料質量,並建立資料質量管理機制。從業務出發做問題定義,由工具自動、及時發現問題,明確問題責任人,通過郵件、簡訊等方式進行通知,保證問題及時通知到責任人。跟蹤問題整改進度,保證資料質量問題全過程的管理。