1. 程式人生 > 其它 >資料質量管理

資料質量管理

一、簡介

  資料質量管理是組織變革管理中一項關鍵的支撐流程。業務重點的變化、公司的業務整合戰略,以及併購與合作,都對IT職能提出了更高要求,包括整合資料來源,建立一致的資料副本、互動提供資料或整合資料。與遺留系統或B2B系統實現互操作的目標需要通過資料質量管理專案支援。

  資料質量與資訊質量是同義詞,因為資料質量低下會導致不正確的資訊和不良業務績效。資料清洗也許可以帶來短期的、有一定代價的改善,但並不解決資料缺陷的根本原因。如果考慮為提升資料質量和資料完整性提供較為經濟的解決方案,實施更加嚴格的資料質量專案是必要的。

  在實際專案中,問題不僅僅包括校正資料,同時還包括管理資料建立、資料轉換和資料傳輸的整個生命週期,從而確保生成的資訊滿足組織中全部資料消費者的需求。

  將資料質量管理和質量提升等流程制度化,取決於識別業務對高質量資料的需求和確定如何度量,監控和報告資料質量的最佳方式。在發現數據處理過程中的問題之後,需要通知相應的資料管理專員採取校正措施以便解決緊急問題,同時,需要採取措施消除問題的根源。

  資料質量管理是一個持續的過程,為滿足業務需求的資料質量標準制定規格引數,並且保障資料質量能夠滿足這些標準。資料質量管理包括資料質量分析、識別資料異常和定義業務需求及相關業務規則,還包括在必要的時候對已定義的資料質量規則進行合規性檢查和監控的流程,以及資料解析,標準化、清洗和整合。最後,資料質量管理還包括問題跟蹤,從而對已定義的資料質量服務水平協議的合規性進行監控。

  資料質量管理的關聯圖如圖12.1所示。

二、概念和活動

  資料質量預期為定義資料質量框架提供必要的輸入。此框架包括定義需求,定義檢查策略、定義度量和定義反映資料質量和績效變化的監控措施。這些需求反映了業務資料預期的3個方面:以一種方式將資料預期記錄在業務規則中,以一種方式在該維度上度量資料質量,以及一個可接受度的閾值。

2.1 資料質量管理方法

  資料質量管理的一種通用方法是戴明質量環,如圖12.2所示。戴明(Derning, w.Edwards)是對質量管理的發展產生巨大影響的大師之一,他提出了被大家所知的“計劃-實施-學習-行動”或“計劃-實施-檢查-行動”用於解決問題的模型,該模型對資料質量管理同樣有效。當已定義資料質量水平協議,並將此模型應用於資料質量管理時,它包括:

    • 制定資料質量現狀評估計劃和識別資料質量度量關鍵指標。
    • 實施度量和提升資料質量的流程。
    • 監控和度量根據業務預期定義的資料質量水平。
    • 執行解決資料質量問題的行動方案,以提升資料質量從而更好地滿足業務預期。

  一個數據質量管理週期的開始包括識別資料問題,這些問題是達成業務目標的關鍵問題,包括定義資料質量的業務需求、識別資料質量關鍵維度以及定義保障高水平資料質量的關鍵業務規則。

  在計劃階段,資料質量團隊評估已知的資料問題,包括確定問題的代價和影響以及評估處理該問題的可選方案。

  在實施階段,剖析資料並執行檢查和監控,識別出現的資料質量問題。在此階段,資料質量團隊可以修復引致資料錯誤的流程中存在的缺陷,或者作為一種應急辦法對下游錯誤進行校正。如果不能在錯誤的源頭進行校正,那麼就在資料流中儘早校正該錯誤。

  在監控階段,根據已定義的業務規則對資料質量水平進行動態監控。只要資料質量滿足可接受度闕值,流程就是受控的,資料質量水平就可滿足業務需求。然而,如果資料質量下降到可接受度闕值之下,需要通知資料管理專員以便他們在下一階段採取行動。

  在行動階段,主要是處理並解決出現的資料質量問題。

  當出現了新的資料集或對已有資料集提出新的資料質量需求時,一個新的資料質量管理週期便開始了。

2.2 開發和提升資料質量意識

  提升資料質量意識不僅意味著需確保組織中配備合適的人員瞭解資料質量問題的存在,而且對於獲得組織中利益相關者的必要支援至關重要,這將提升資料質量專案成功的機會。

  資料質量意識包括能夠將資料質量問題與其實質影響聯絡起來,向監管者保證系統化的資料質量管理方法和對組織內資料質量的全面洞察,還包括傳達一種“資料質量問題不能僅僅依靠技術手段解決”的理念。在初始階段,可以提供一些資料質量核心概念的培訓。

  下一步包括為資料質量建立資料治理框架。資料治理是為資料管理的各方面貫徹責任制度的一系列流程和程式,具體在本書第3章已詳述。資料質量管理中的資料治理任務包括:

    • 讓業務合作者參與,與資料質量團隊協作並支援資料質量管理專案。

    • 識別資料所有權的相關角色和責任,包括資料治理委員會成員和資料管理專員。

    • 明確關鍵資料元素和資料質量管理的職責和責任。

    • 識別需要處理的關鍵資料質量領域和圍繞這些關鍵領域對組織產生的影響。

    • 統一跨業務條線使用的公共資料元素,提供明確無歧義的定義、值域範圍和資料質量規則。

    • 對所度量的資料質量水平進行持續報告。

    • 將資料需求分析概念納入到整個系統開發週期。

    • 將高質量資料與個人績效目標相關聯。

  最後,可以建立資料質量管理委員會(Data Quality Oversight Board),與各級資料治理角色建立彙報層級關係。資料管理專員負責與業務使用者,業務條線甚至特定應用建立聯絡,他們持續地提倡資料質量意識並監控其所負責的資料資產。資料質量管理委員會對資料質量領域的政策和程式負責,提供以下方向性指導:

    • 為資料質量設定優先順序。

    • 開發並維護資料質量標準。

    • 報告企業層面資料質量的度量結果。

    • 為促進員工參與提供指導。

    • 建立知識共享的溝通機制。

    • 開發並應用認證和合規政策。

    • 監控和報告績效。

    • 識別改善機會並達成一致意見以報批准。

    • 解決變更和衝突。

  相關參與者共同定義和普及資料質量戰略和框架;開發、完成並批准資訊政策,資料質量標準和協議;對業務條線滿足業務使用者預期需求的水平進行認證。

2.3 定義資料質量需求

  資料的質量必須在“適用性”(fitness for use)的背景下被理解。許多應用依賴於滿足特定需求的資料,這些需求與成功完成一個業務流程是相關的。這些業務流程執行了一些業務政策,這些政策是在外部或內部制定的,前者如管理法規、行業標準或遵從資料交換格式,後者如市場、銷售、佣金、物流等方面的指引規則。資料質量需求通常隱含在這些業務政策之中。對業務政策進行增量的詳細評審和定期優化有助於識別資訊需求從而制定資料質量規則。

  可以根據定義好的資料質量維度來度量資料是否符合“適用性”需求,並生成資料質量指標的報告。增量詳細評審的步驟包括:

    • 識別與業務政策相關的關鍵資料集合。

    • 確定被識別的資料集合對業務有怎樣的影響。

    • 評估如何根據一組資料質量維度對資料錯誤進行分類。

    • 詳細定義度量資料錯誤的業務規則。

    • 提供一套實施度量流程的方法,從而評估對業務規則的滿足情況。

  資料質量維度體現了高層次指標度量的特點,可以據此對業務規則進行分類。根據實施的需要,對度量的粒度進行細化,如資料值,資料元素﹑資料記錄和資料表。資料質量維度包括:
    • 準確性(Accuracy)。資料準確性是指資料準確反映其所建模的“真實世界”實體的程度。通常,度量資料值與一個已確定的正確資訊參照源的一致性可以度量準確性,如:將資料值與來自資料庫或其他資料表的正確的資料集比較,根據動態計算的數值進行檢查,有時可能需要手工檢查數值的準確性。
    • 完整性(Completeness)。完整性的要求之一是一個數據集的特定屬性都被賦予了數值。完整性的另一個要求,是一個數據集的全部行記錄都存在。要對一個數據集的不同約束型別的屬性應用完整性規則,如:必須有取值的必填屬性,有條件可選值的資料元素,以及不適用的屬性值。還可以認為完整性包括資料值的可用性和適當性。

    • 一致性(Consistency)。一致性是指確保一個數據集的數值與另一個數據集的數值一致。一致性的概念相對寬泛,可以包括來自不同資料集的兩個數值不能有衝突,或者在預定義的一系列約束條件內定義一致性。可以將更正式的一致性約束作為一系列定義一致性關係的規則,這些規則可以應用於屬性值之間、記錄或訊息之間或某一屬性的全部數值之間。需要注意的是,不能將一致性與準確性或正確性相混絹。一致性可以定義在同一條記錄中的一個屬性值集合與另一個屬性值集合之間(記錄級一致性),或定義在不同記錄中的一個屬性值集合與另一個屬性值集合之間(跨記錄一致性),還可以定義在同一條記錄中但在不同時間點的同一屬性值集合之間(時間一致性)。

    • 時效性(Currency)。資料時效性是指資訊反映其所建模的當前真實世界的程度。資料時效性度量了資料的“新鮮程度”以及在時間變化中的正確程度。可以根據資料元素重新整理的頻率度量資料的時效性,從而驗證資料是最新的。資料時效性規則定義了一個數據值在失效或需要更新之前已經歷的“壽命”。

    • 精確度(Precision)。精確度是指資料元素的詳細程度。數值型資料可以有若干精確數位。例如,對資料取整或截斷可能會產生精確度錯誤。

    • 隱私(Privacy)。隱私是指需要對資料進行訪問控制和使用監控。一些資料元素需要進行使用或訪問限制。

    • 合理性(Reasonableness)。使用資料合理性考察與一些特定的運營場景相關的資料一致性。例如,每天的交易數量不能超過過去30天平均交易數量的105%.

    • 參照完整性(Referential Integrity)。參照完整性是指滿足如下條件:一張表的一個欄位對同一張表或另一張表的另一欄位引用全部有效。參照完整性要求包括指定當存在外來鍵時,該鍵所指向的記錄真實存在。參照完整性規則還可作為約束規則,防止出現數據重複從而保證每個實體出現且僅出現一次。

    • 及時性(Timeliness)。及時性是指對資訊可訪問性和可用性的時間預期。例如,資料及時性可以體現在,需要資訊的時間點與資訊準備就緒可用的時間點之差。

    • 唯一性(Uniqueness)。唯一性主要體現在一個數據集中,沒有實體多餘一次出現。滿足實體唯一性,說明沒有實體出現多餘一次,並且每個唯一實體有一個鍵值且該鍵值只指向該實體。許多組織都將可控的資料冗餘作為更可行的目標。

    • 有效性(Validity)。有效性是指資料例項的儲存、交換或展現的格式是否與資料值域一致,是否與其他相似的屬性值一致。有效性確保了資料值遵從於資料元素的多個屬性:資料型別、精度、格式、預定義列舉值、值域範圍及儲存格式等。為確定可能取值而進行有效性驗證不等同於為確定準確取值而進行真實性驗證。

2.4 剖析、分析和評估資料質量

  定義資料質量指標之前對資料進行評估很關鍵,可以採用兩種方法:自底而上或自頂而下。

  對已有資料質量問題進行自底而上的評估包括對資料集的檢查和評價。直接資料分析將暴露潛在的資料異常﹐需要引起主題域專家的重視並進行有效性驗證和分析。自底而上的方法基於自動流程的處理結果,強調潛在問題,包括出現率分析,重複性分析,跨資料集的依賴關係、“孤兒”資料記錄和冗餘分析。

  然而,如果沒有資料消費者的參與評審,潛在的資料異常甚至真實的資料錯誤可能與業務背景是無關的。在自頂而下的資料質量評估方法中,業務使用者參與記錄業務流程和關鍵的資料依賴關係。在此方法中,需要理解業務流程如何使用資料,哪些資料元素對於業務應用的成功至關重要。通過評審被報告、記錄和診斷的資料錯誤型別,資料質量分析師可以評估與資料問題相關的業務影響。

  分析步驟包括:

    • 確定需要評審的資料集。

    • 記錄資料集的業務使用方式。

    • 使用資料剖析(Data Profiling)工具和技術對資料集進行實驗分析。

    • 列出全部潛在異常。

    • 針對每一個異常。

      • 與領域專家一同評審該異常,確定是否為真正的資料錯誤。

      • 評價潛在業務影響。

    • 對重要資料異常進行優先順序排序,準備定義資料質量指標。此過程的關鍵在於對資料的各方面進行統計分析,以便評價:

    • 記錄的填充率。

    • 每個資料屬性中填充的數值的數量。

    • 頻繁出現的數值。

    • 可能的異常值。

    • 同一張表中欄位的關係。

    • 跨表的關係。

  使用這些統計資訊可以確定有較大業務影響和適合對其進行持續監控的明確資料問題,這也是持續的資料質量檢查和控制的一部分。更為重要的是,在此分析步驟中可能會發現一些重要的商務智慧資訊。例如,某個異常資料值的出現可能說明一個重要的業務事實,就像裝置失效正說明某個供應商可能不合格。

2.5 定義資料質量指標

  為了保持指標的有效性,指標定義的過程不能在資料質量管理的最後階段才進行,而是在資料質量戰略/設計和規劃階段就要開始,以便能在組織中實現。

  低質量的資料會影響業務目標的達成。資料質量分析師必須找到並使用資料質量指標,並報告缺陷資料與受影響的業務目標之間的關係。定義資料質量指標的過程存在著挑戰,需要設計一種方法來識別並管理“業務相關”的資訊質量指標。可以將度量資料質量與監控業務活動績效相類比,資料質量指標應該合理地反映根據前述章節所介紹的資料質量維度所定義的資料質量特性。這些特性包括:
    • 可度量性——一個數據質量指標必須可度量並且能夠在離散值域範圍內量化。需要注意的是,雖然許多事物可以被度量,但不一定能夠轉化為能夠體現業務相關性的指標。

    • 業務相關性——如果指標不能與業務運營績效相關聯,指標值的意義就是有限的。因此,對每一個數據質量指標,都應說明滿足資料質量可接受度闕值與業務預期的相關性。

    • 可接受程度——資料質量維度為資料質量的業務需求提供框架,對資料質量維度進行量化度量為資料質量水平提供了實證,並以可接受程度的閾值為基礎,來判斷資料質量是否滿足業務預期。如果資料質量表現等於或高於可接受程度定義的闕值,資料質量便滿足業務預期,否則,需要通知相應的資料管理專員並採取措施。

    • 資料認責制度/資料管理制度——當資料質量指標證明資料質量不能滿足業務預期時,需要通知相關的崗位角色。業務流程負責人是首要負責人,同時,資料管理專員通常會被安排執行適當的糾錯任務。

    • 可控性——任何適合作為資料質量指標的可度量的資訊特性都應該反映業務領域在某些方面是可控的。換言之,如果資料質量指標值的評估結果反映了不良資料質量,則應對所度量的資料採取相應的改善行動。

    • 可跟蹤性——-可量化的指標幫助企業度量資料質量的提升。對資料質量的跟蹤則幫助資料管理專員監控在資料質量服務水平協議(SLA)範圍內的相關活動,並證明資料質量提升活動的有效性。一旦某項資訊流程達到穩定,持續的跟蹤會使統計控制流程固化,以確保對資料質量持續可預測。

  定義資料質量指標的過程可總結為:

    • 選擇一項重要的業務影響。

    • 評估與業務影響相關的資料元素以及資料建立/更新流程。

    • 對於每一個數據元素,列出與之相關的資料需求。

    • 對於每一項資料需求,定義相關的資料質量維度以及一個或多個業務規則,以便確定資料是否滿足需求。

    • 對每一個選中的業務規則,描述度量需求滿足度的流程(參見12.2.6節)。

    • 對於每一個業務規則,定義可接受程度的閾值(參見12.2.6節)。

  根據以上過程定義出一系列度量流程,可提供原始資料質量的評分,並可將評分彙總並量化為資料質量需求的滿足程度。未達到可接受程度閾值的度量說明不符合資料質量需求,需要採取必要的糾錯措施。

2.6 定義資料質量業務規則

  需清晰定義檢查資料質量是否滿足業務規則的流程並監控對這些業務規則的符合度,這需要:

    (1)將不滿足業務需求的資料值、記錄和記錄集與有效的資料值、記錄、記錄集分別記錄下來。

    (2)生成通知事件,及時向資料資產管理員警示潛在的資料質量問題。

    (3)建立自動或事件驅動的缺陷資料糾正機制,以滿足業務期望。

  第(1)項流程是使用資料期望值。判斷資料集是否符合期望值。更復雜的規則可將這些取值和第(2)項與第(3項流程中的行動或指示結合起來,包括當實際資料和要求不符時發出通知,或對出錯資料值進行轉換。可使用模板來定義這些業務規則,如:

    • 值域成員——說明資料項的指定值是從某個定義域中選用的資料值,例如美國郵政編碼中用雙字元代表“州”。

    • 定義一致性——在整個組織的處理活動中,應確認對資料定義的相同理解,這是在組織中正確理解和使用資料的前提。確認包括對要計算欄位的演算法,包括任何時間或本地的限制條件,以及精度規則等。

    • 值域的一致性—一資料項的取值必須滿足事先約定的數值、辭典或時間範圍,例如大於0且小於100的數值範圍。

    • 格式一致性—指定資料項的一種或多種格式資料項,如用不同方式來顯示電話號碼。

    • 對映一致性—要求資料項的值需對映到相應的其他同等值域。如,美國“州”資料域再次提供了很好的例子,因為“州”的取值有多種值域(如美國郵政編碼,FIPS 2位程式碼,州全名等),對映規則需反映-AL和-01都對映為阿拉巴馬州。

    • 取值和記錄的完整性——該類規則定義在哪些情況下如果取值有缺失是不可接受的。

    • 一致性規則—-是條件性要求,要求以屬性的實際值為基礎,對照兩個(或多個)屬性間的關係。

    • 精確度驗證——將資料值與系統中相應值進行比對,以驗證其值的匹配性。

    • 唯一性驗證——該類規則要求實體須有唯一的代表性,要求有且僅有一條記錄與現實世界中的物件相對應。

    • 及時性驗證—該類規則說明對資料可獲得性和可用性的期望。

  其他型別的規則可涉及資料彙總的功能。包括驗證檔案中記錄數的合理性,某類交易平均交易金額的合理性或在指定時間段內交易數期望方差的合理性。

  提供規則模板有助於建立業務團隊和技術團隊之間的溝通。規則模板反映了業務的期望。在需要的時候也可將規則模板直接轉換成可執行的格式,例如內嵌的規則引擎,或資料分析元件中的資料描述工具,或資料整合工具中的程式碼。

2.7 測試和驗證資料質量需求

  資料剖析工具可分析資料並發現如12.3.1節所述潛在的異常資料。也可使用這些工具對規則進行驗證。在資料質量評估階段識別或定義的規則,將作為業務流程的一部分用以驗證資料的合規性。

  大多數資料剖析工具均支援資料分析師定義規則,這些規則用於資料驗證、評估頻率分佈和相應的度量,再將這些定義規則應用於整個資料集。

  審閱資料剖析結果、驗證標記為不一致的資料是否真的不正確等工作均提供了一定程度的測試。此外,有必要與業務使用者共同審閱所定義的業務規則,以確保業務使用者理解這些規則,並確認業務規則與其業務需求-致。

  基於資料規則符合度為識別資料質量水平特徵提供了資料質量測量的客觀依據。通過定義資料規則來主動驗證資料,組織可以區分哪些記錄達到所期望的資料質量要求,哪些不符合。同時,這些資料規則可用於為當前資料質量水平制定基線﹐從而可以與資料質量的動態審計結果相比較。

2.8 確定與評估資料質量服務水平

  通過資料質量檢查和監控來測量和監控資料項對資料質量規則的符合度。資料質量的服務水平協議(SLA)定義機構對響應和支援的期望。資料質量檢查有助於減少錯誤數量。人們期望操作規程在隔離缺陷資料並分析根源的同時,能夠提供在預先設定的時間期限內糾正錯誤根源的機制。

  建立資料質量檢查和監控機制可以極大地提高識別和糾正資料質量問題的可能性,從而避免對業務的重大沖擊。

  在資料質量服務水平協議中定義的日常資料質量控制包括:

    • 協議涉及的資料項範圍。

    • 與各資料項關聯的資料質量維度。

    • 價值鏈中各應用或源系統對資料項的資料質量需求。

    • 針對資料質量需求進行的各種度量方法。

    • 各項測量的可接受閾值。

    • 當達不到可接受闕值時應通知的相關人員,以及期望解決或改進問題的時間和期限。

    • 上報機制和問題解決後的獎懲方案。

  資料質量服務水平協議還定義與日常資料質量流程相關的角色和職責。資料質量流程提供資料符合資料質量業務規則情況的報告,並監控人員響應資料質量事故的績效。資料管理專員和資料質量日常管理人員在堅持資料質量服務水平時,應考慮資料質量服務水平協議的約束並將資料質量與個人的績效計劃相掛鉤。

  當問題不能在規定時間內響應時,必須有進一步的上報機制以向管理層報告未能達到的服務水平。資料質量SLA應規定啟動上報機制時通知發出的時限和需上報的管理層人員姓名等。通過確定資料質量業務規則,測量符合度的方法,並與業務使用者共同定義可接受閾值和服務水平協議,資料質量團隊就可以來監控資料質量業務預期的滿足程度以及資料質量管理團隊在處理相關資料問題時的績效表現。

2.9 持續測量和監控資料質量

  資料質量管理的操作流程取決於可用的資料質量測量和監控服務。對於資料質量是否符合業務規則,有兩條控制和測量的脈絡:流動式(in-stream)和批量(batch)。相應地,測量可應用於3種粒度﹐即資料值,資料例項或記錄,資料集,這樣組成了6種可能的測量方案。在資料建立時進行流動式測量,對永久儲存的資料集中的資料記錄進行批量測量。

  將資料質量控制和測量流程嵌入到資訊處理流中可實現持續性的監控。由於資料質量的測量需要針對整個資料集進行,因此對資料集的資料質量測量通常不太可能通過流動方式實現。唯一的流動點是在不同處理階段間隙進行整個資料集互動的時候。使用表12.1中的詳細技術定義資料質量業務規則。將控制和測量結果納入操作程式和報告框架,確保對資料質量水平進行持續監控。

2.10 管理資料質量問題

  資料質量服務水平協議的有效實施需要建立資料質量事件解決報告與跟蹤機制。資料質量事件報告系統可提供這種能力。它可以記錄資料質量事件的評估、初步診斷和後續行動等資訊。資料質量事件跟蹤還可提供績效報告資料,包括問題解決平均時間,問題發生頻率,問題型別,問題來源以及糾正或消除問題的常規做法。一個好的問題跟蹤系統將支援檢視當前和歷史資料質量問題,問題狀態和需其他人員參與解決問題的因素。

  許多組織已建立了用於跟蹤和管理軟硬體及網路等問題的事件報告系統。要擴充套件到資料質量事件報告需將資料質量問題歸類納人到事件目錄中。資料質量事件的跟蹤還要重點培訓人員識別所出現的問題,以及如何分類,記錄並依據資料質量服務水平協議進行跟蹤。這些步驟涉及部分或所有以下領域。

    • 將資料質量問題和活動標準化~—由於用來描述資料問題的術語可能隨業務條線不同而不同,故將所用概念標準化是極具價值的,它能簡化分類和報告。標準化也會簡化問題和活動的數量統計,系統與參與方之間的模式識別,以及資料質量行動的影響報告。對問題的分類可能會隨著調查的深人和根源的暴露而發生變化。

    • 指定資料問題的處理過程——日常操作程式將指導分析師將資料質量事故的診斷和制定解決方案工作分配給相關人員。這一分配流程應在事件跟蹤系統中驅動,並能夠向分析師建議具備專門知識領域的適當人選。

    • 管理問題上報程式——資料質量問題處理需基於對事件的影響、持續時間、問題緊迫性等確定清晰的上報體系。上報順序應在資料質量服務水平協議中定義。事件跟蹤系統將執行上報程式,這將有助於資料問題的高效處理和解決。

    • 管理資料質量解決流程一—資料質量服務水平協議規定了監測、控制和解決的目標,所有這些定義了整體的業務流程。事件跟蹤系統可支援工作流管理,跟蹤問題診斷和解決的進展情況。

  實施資料質量問題跟蹤系統有很多好處。首先,資訊和知識共享可提高效能並減少重複工作。其次,對所有問題的分析將幫助資料質量小組成員識別重複模式,發生頻率和潛在問題根源。運用問題跟蹤系統,可訓練相關人員及早在資訊流中識別出資料問題,並支援他們的日常操作。問題跟蹤系統的原始資料可用於生成有關服務水平協議條件和指標的報告。根據資料質量的治理要求,考慮獎懲制度的實施,服務水平協議報告可以按月、按季或按年進行。

2.11 清洗和校正資料質量缺陷

  通過定義業務規則來監控資料對業務期望的滿足度將引人兩項活動:首先,確定和消除錯誤發生的根本原因;其次,分離出不正確的資料項,並採用適當措施使其符合預期。某些情況下,只需簡單地廢除錯誤結果,並從出錯點重新啟動資訊流程。其他情況下,當直接廢除結果是不可能時,就需要糾正錯誤。一般採用如下3種方式進行資料校正。

    • 自動校正—參照資料質量要求,運用基於規則的標準化,正規化化和糾正等綜合措施,對資料進行資料清洗技術處理。無須人工千預便可提供修正後的值。例如地址自動更正,將送貨地址輸人地址標準器中,使用規則,解析、標準化、參照表、正規化化處理等方式進行比對和修正送貨地址。在具有良好定義的標準、普遍接受的規則和已知的錯誤模式環境中,最適於進行自動清洗和校正。

    • 人工指導校正-—使用自動化工具來清洗和校正資料,在校正結果提交永久儲存前由人工稽核。例如姓名和地址清理、身份解析、基於模式的自動修正和評分機制等均可用於達到一定置信水平的校正結果。對超過特定置信分數水平的校正結果有可能不需評審,但對低於置信度分數的校正則需提交資料管理專員進行評審和批准。執行所有已認可的校正,對未認可的校正措施進行評審以瞭解是否要調整所用的基本規則。對於敏感資料需要人工稽核的情況,適於運用人工指導校正。

    • 人工校正——-由資料管理專員檢查無效的記錄,確定正確的取值,進行校正,提交併更新記錄。

2.12 設計並實施資料質量管理操作程式

  採用預定義的規則進行資料質量驗證,提供了將資料監控與主動資料質量管理日常操作流程相融合的方式。將資料質量規則整合到應用服務或資料服務中,並通過引人資料質量工具和技術,使用規則引擎和報告工具對資料進行監控和報告,或客戶化開發資料質量檢查應用,來補充資料生命週期的內容。

  該操作框架需要將這些服務應用於具體的應用和資料服務,並將結果提交給資料質量團隊成員。資料質量執行團隊成員應負責4項活動,團隊必須設計和執行這些活動的詳細程式。

  (1)檢查和監控:通過自動化處理或人工處理,對全部資料進行掃描或抽樣檢測,從而測量資料集對資料質量規則的滿足程度。使用資料剖析工具、資料分析器,資料標準化和識別工具來提供檢查服務。收集結果並將其提供給資料質量分析師,分析師必須做到:

    • 稽核測量方法和相關指標。

    • 確認任何未滿足可接受閾值的情況。

    • 新建資料質量事故報告。

    • 為資料質量事件診斷和評估分配資料分析師。

  (2)診斷和評估補救辦法:目標是評審資料質量事件所反映的問題、跟蹤錯誤資料的血緣關係、診斷問題的型別及其起源、確定問題的潛在根源。該程式也應該描述資料分析師如何:

    • 稽核資訊處理流中的資料問題,並跟蹤錯誤發生的源頭,隔離處理流中發生缺陷的位置。

    • 評估環境是否有任何可能導致資料錯誤的變化。

    • 評估是否有任何其他程序問題,這些問題可能導致資料質量事故。

    ·確定是否存在其他流程問題影響了資料質量。

    • 評估處理問題的可選方案,包括對系統的修改以消除問題根源,引人更多的檢查和監控,直接校正有缺陷的資料,或根據資料校正的收入成本分析結果而不作校正處理。

    • 將更新情況輸入到資料質量事件跟蹤系統。

  (3)解決問題:當提供多種問題方案時,資料質量團隊應要求業務資料所有者選擇其中一種解決方案。

  這些程式詳細說明分析師將如何操作:

    • 評估相關成本和各方案的優劣。

    • 推薦一種選擇方案。

    • 提供一套用於開發和執行解決方案的計劃,其中包括修正流程和糾正缺陷資料。

    • 執行該解決方案。

    • 將更新情況輸入到資料質量事件跟蹤系統。
  (4)報告:為保證資料質量管理過程的透明度,應該對過程的執行情況進行定期報告。資料質量運營團隊負責開發和釋出這些報告,其中包括:

    • 資料質量記分卡,提供各種指標結果的高階檢視,通常報送給組織的不同管理層級。

    • 資料質量趨勢,反映所測資料質量隨時間推移的情況,衡量質量指標水平是否出現上升或下降趨勢。

    • 資料質量績效表現,它反映了資料質量管理員響應資料質量事件,診斷和及時解決問題的情況。

    • 報告儘可能地依據資料質量服務水平協議中的指標體系和測量方法進行,使得影響資料質量服務水平的重要領域都能在內部報告中得到一定程度的反映。

2.13 監控資料質量管理操作程式和績效

  責任制是監控資料質量治理協議的關鍵。所有問題必須指定給專人,團隊、部門或組織負責。跟蹤流程應明確並以檔案規定最終的問題責任人,以防推諉。由於資料質量服務水平協議明確了評估資料質量團隊績效的標準,因此可以合理地預估事件跟蹤系統能收集績效資料,包括問題解決、工作分配、問題數量,發生頻率、響應時間、診斷時間,解決方案計劃時間和解決問題時間等。這些績效資料可對目前的工作流程效果、系統和資源使用情況提供有價值的見解,同時,也是驅動資料質量控制流程提供持續改進的重要管理資料點。

三、資料質量工具

  資料質量管理會涉及很多有用的工具和技術。這些工具既包括專注於資料分析從而提供資料質量的經驗評估,也包括專注於按既定的業務規則對資料值進行正常化處理,還包括用於識別和解決冗餘記錄並定義定期檢查和變更規則的工具。資料質量工具可以按活動分成4類:分析、清洗、改善和監控。所用的主要工具包括資料剖析工具、解析和標準化工具、資料轉換工具、身份解析和匹配工具、改善和報告工具等。一些廠商將這些功能完整地捆綁到資料質量解決方案中。

3.1 資料剖析

  在進行任何資料質量提升活動前,首先要能夠區分資料的好與壞。資料質量優劣的評定是一個分析和發現的過程。剖析涉及通過定量檢測和分析審閱來對資料值進行客觀的稽核。資料分析師未必能發現所有的資料問題例項。然而,將疑似不良的資料例項記人檔案的能力提供了與相關專家進行交流的手段,使其能夠運用業務知識確認是否存在資料問題。

  資料剖析是一系列的演算法,主要有兩種目的:

    • 對資料集進行統計分析和資料質量評估。

    • 識別資料集內和集之間的值所存在的關係。

  對於某張表格中的各列,資料剖析工具可提供不同值的分佈情況,從而洞察各列的型別和使用情況。此外,列分析可得出每列值的關鍵特徵,如最小值、最大值和均值等。

  跨列分析可看出內部值的關聯性,跨表分析可識別代表實體間的外來鍵關係的重合值。這樣,資料剖析可以識別和評估資料的異常。大多數資料剖析工具還支援通過向下鑽取對資料進一步調查分析。

  資料剖析還可針對定義(或發現)的業務規則進行主動性測試。測試結果可用來區分哪些記錄符合定義的資料質量要求,哪些不符合要求;這反過來又可促進基線測量和持續審計,並支援資料質量報告流程。

3.2 解析和標準化

  資料解析工具使資料分析師能定義符合規則引擎的模式( pattern)集,用來區分有效和無效的資料值。行動由具體的模式匹配觸發。在解析一個有效模式時,系統提取並重新排列獨立元件(通常稱為識別符號Tokens),形成標準形式。當識別出無效模式時,應用可能會嘗試將無效值轉換成一個符合要求的值。

  許多資料質量問題表現為一類情況,即當資料值表示略有差異時就會產生混淆或歧義。此時解析和標準化資料值就很有價值。例如,電話號碼可以有多種排序方法:有的是數字,有的是字母字元,而且全部都用不同的特殊字元進行分隔。但是人們仍識別出每個電話號碼。然而,為了確定這些數字是否準確(如將其與主客戶目錄進行比對)或檢查是否存在重複號碼,而實際上每個供應商只對應於一個號碼,這些值必須能被解析成元件(如區號,交換號和分機號),再轉化成標準格式。

  人類識別熟悉模式的能力有助於我們定義屬於相同的數值抽象類的不同資料值的特徵;人們遵循常用模式就能識別出不同型別的電話號碼,因為這些號碼遵從於一些常用的模式。分析師描述多種格式模式,這些模式都代表著同一類資料物件,如姓名、產品說明等。資料值應符合這些模式中的一種,資料質量工具對資料值進行解析,甚至將其轉化為單一的、標準化的形式,以簡化評估相似性分析和清洗流程。基於模式的解析能對有意義值的部分進行自動識別並在後續做標準化處理。

3.3 資料轉換

  識別到資料錯誤時,觸發資料規則,將錯誤資料轉換成一種目標架構可接受的格式。工程師通過資料整合工具直接運用這些規則,或依靠嵌入式和替代式技術解決問題。通過將源系統的資料對映到對應的目標模式來實現標準化。例如客戶名稱,因為名稱可能有數千種不同形式的表示。良好的標準化工具能夠解析客戶名稱的不同部分,如名字、中間名、姓、首字母縮寫、職位、輩分指代,然後重新整理成其他資料服務能夠處理的規範格式。

  資料轉換建立在這些標準化技術上。基於規則的轉換將資料值從它們原來的格式和模式對映為目標格式。模式解析元件再進行重排,校正或基於業務規則進行相應更改。事實上,標準化是轉換的特殊形式,隨著時間的積累獲取上下文、語言、俗語等方面的規則,通過反覆的規則分析或運用軟體工具進行分析處理。

3.4 身份識別和匹配

  在身份識別過程中需要使用記錄關聯與匹配方法,也會運用冗餘分析與消除中所使用的相似度評估方法、合併/清除方法、儲存方法,資料改善方法、清洗方法,並會實施客戶資料整合或主資料管理等戰略性資料管理舉措。常見的資料質量問題涉及一枚硬幣的兩面:

    • 多個數據實例實際上指的是現實世界的同一個實體。

    • 分析師或應用程式認為代表真實世界實體的記錄並不存在,但其事實上是存在的。在第一種情況中,將類似的,但略有差異的數值表現形式匯入了系統。在第二種情況中,表現形式的輕微變化就會影響對資料集的現有記錄進行完全匹配的識別。

  這些情況都能通過所謂的相似性分析過程得到解決,具體是對任何兩個記錄的屬性值根據加權相似度進行計分。如果得分超過指定的閾值,則這兩個記錄就是一對匹配資料,並告知最終客戶它們很可能代表相同的實體。通過相似性分析可揭示輕微的區別,建立資料值的關聯,繼而進行整合。

  將每條記錄與所有其他記錄進行比較,從而提供相似度分值的想法不僅過於激進,而且費時很多,對計算要求很高。大多數資料質量工具套件使用高階運算方法來擷取最有可能含有匹配關係的記錄,將其分成更小的集合,再採取不同的方法來測量其相似性。在同一資料集中識別相似記錄,可能意味著一些記錄是冗餘的,可能需要清洗或消除。在不同資料集間識別相似記錄可以建立資料集之間的連結,進而有助於資料清洗、知識積累和逆向工程—所有這些都有助於主資料彙總。

  兩種匹配的基本方法是確定式(Deterministic)和或然式(Probabilistic)。確定式匹配(如解析和標準化),依靠確定的模式和規則,按照指定的權重計算相似度的分值。另一方面,或然式匹配依賴於統計技術來評估任何一對記錄代表相同實體的可能性。確定式演算法是可預測的,因為其模式匹配和規則應用總會產生相同的匹配結果。實施效果與匹配規則的多樣性,數量和順序相關。確定式匹配通常顯示出相對良好的實施效果,但它不會超出業務規則開發人員的預期。

  或然式匹配依賴於訓練資料的取樣能力,訓練是需要觀察全部記錄的一個子集的預期結果,再進行匹配器調優,實現匹配器基於統計結果的自我調整。這些匹配器不依賴於規則,故結果可能是不確定的。然而﹐由於可以在經驗基礎上對或然性做優化,隨著分析資料的增多,或然式匹配器可以將其匹配精度逐步提升。

3.5 改善

  提升資料質量可增加一個組織的資料價值。資料改善是一種提升價值的方法,它通過積累基本實體集的各種附加資訊,併合並所有相關資訊以提供集中的資料檢視來實現。資料改善是一種從可選資料來源智慧化增強資料的處理,它運用了其他資料質量工具中獲得的知識副產品,如解析、身份識別和資料清洗。
  資料解析為資料例項劃分出特徵資料值,這些特徵有助於決定哪些潛在資料來源可以提供附加收益。舉例來說,如果可以確定“企業名稱”嵌入在名為“名稱”的屬性,就可標記該資料值為一個企業。運用類似的方法可將資料值組織成語義層次結構。

  資料清洗和標準化過程中獲得的附加資訊可用於為以後的資料匹配、記錄關聯和身份識別等提供附加建議。通過建立“元上下文背景"(Meta-context),可以形成資料的關聯表示通過增加資料的細節資訊,可以收集到更多有關實質內容的知識,而不僅僅是資訊結構。通過關聯表示可以推匯出資料的更多內容,從而有更多的資訊用於改善資料。以下是資料改進的例子。

    • 時間/日期截種改進資料的方法是將資料項被建立、修改、停用的時間和日期記錄下來,以助於跟蹤資料事件歷史。

    • 審計資訊——審計會記錄資料的關聯資訊,這對歷史追蹤和驗證都很重要。

    • 背景資訊—位置、環境、獲取方法等業務背景資訊都是擴充套件資料內容的例項。增強背景資訊還包括標記對下游評審和分析的資料記錄。

    • 地理資訊一—很多提升地理資訊的方法,如地址標準化和地理編碼,其中包括地區編碼,所屬城市,周邊地標,緯度/經度資料對或其他基於位置的資料。

    • 人口資訊-—對客戶資料,有很多方法可提升人口統計學資訊,如客戶年齡、婚姻狀況、性別、收入,民族程式碼,或對經營實體提升年收入、員工人數、辦公面積等資料。

    • 心理資訊—--可通過增強此類資訊來實現根據特定行為對目標群體分類,如產品和品牌偏好、會員制、休閒活動,度假喜好、上下班交通方式和購物時間偏好等。

3.6 報告

  應建立良好的報告制度來檢查和監控資料滿足資料質量期望的情況,監控資料管理專員的業績是否符合資料質量服務水平協議,報告資料質量事件的工作流處理、資料的人工清洗和校正活動等。最理想的是有一個使用者介面來報告資料質量測量、指標和活動的相關結果。將標準報表、記分卡和儀表板等與視覺化和自動報告技術相結合是很明智的,系統還應能提供任何資料質量工具均應具備的即席查詢功能。

四、綜述

  在組織中實施資料質量管理的指導原則、每一個數據質量管理活動相關角色的總結表,以及在資料質量管理中可能出現的組織和文化問題,總結如下。

4.1 指導原則

  在構建資料質量管理體系時,應提出一系列指導原則,以構成本章所描述的各類處理程式和使用技術。任何支援資料質量的實踐活動均需和一項或多項指導原則相結合。每個組織都不同,其激勵因素也不同。一些可能用於資料質量的指導原則包括:

    • 將資料當作組織的核心資產來管理,許多企業甚至將資料作為資產列入其資產負債表中。

    • 所有資料項都有標準化的資料定義,資料型別和可接受值域。

    • 運用資料治理來控制和確保資料質量管理的效果。

    • 儘可能使用行業和國際資料標準。

    • 下游資料消費者確定資料質量需求。

    • 定義適當的業務規則來確保資料符合資料質量要求。

    • 根據業務規則來驗證資料例項和資料集。

    • 業務流程擁有者需認可並遵守資料質量服務水平協議。

    • 如有可能,從源頭進行資料校正。

    • 如無法在源頭糾正資料,應儘可能將資料校正需求發給資料來源頭的擁有者,因為要求資料中介(Data Brokers)符合本地需求的是不太現實的。

    • 將資料質量測量報告提交給適當的資料管理專員、業務流程擁有者以及服務水平協議管理者。

    • 確定所有資料項的“可信資料來源”(Gold Record)。

4.2 過程總結

  資料質量管理職能的過程總結如表12.2所示。表中列舉了資料質量管理每一項活動的交付物、負責角色、批准角色和貢獻角色。此表也在附錄A.9中體現。

4.3 組織和文化問題

  Q1:如果有多個程序將資料轉變成資訊,再將資訊轉換為商務智慧時,是否真的需要高質量資料?

  商務智慧價值連結串列明:資料資源的質量直接影響組織的業務目標。

  價值鏈的基礎是資料資源。資訊是通過資訊工程從資料資源生產得到,和使用原材料製造商品一樣。組織中的知識工作者使用資訊,並提供管理該組織所需的商務智慧。商務智慧用來支援業務戰略,從而實現業務目標。通過商務智慧價值鏈,資料的質量直接影響到如何成功地實現業務目標。因此,對質量的強調必須放在資料資源上,而不是在資訊處理和商務智慧流程上。

  Q2:資料質量真的可以免費獲得嗎?

  回顧一下熱力學第二定律,資料資源是一個開放的系統。嫡在沒有任何限制時會繼續增加,這也意味著若無任何限制措施,資料資源質量將繼續下降。為創造和維護一個高質量的資料資源,必須消耗能量,而能源是有代價的。無論是初始資料資源質量還是資料資源質量的維護都需付出相應成本。因此,獲取資料質量不是免費的。

  但在初始階段就建立資料資源的質量控制措施,其成本就比其後建立資料質量控制措施要低。同樣,在資料資源生命週期中維護資料質量的成本低於通過一些關鍵步驟來改進資料質量的成本。當資料資源質量持續惡化,要改進資料質量的代價就變得更為昂貴,而且會對業務產生更重大的影響。因此,質量不是免費的,但將其內建於整個資料生命週期中並持續維護的成本相對較低。所以,當人們說資料質量是免費時,大多數人的意思是,從初始就維護資料質量的成本/效益比遠小於放任資料質量惡化的成本/效益比。

  Q3:資料質量問題是隨著技術的不斷髮展最近才出現的新事物嗎?

  不是的。資料質量問題一直存在,甚至早在使用80列卡的時代就存在。但隨著資料量的增加和資料老化,資料質量問題越來越嚴重。同樣,隨著資料加工技術變得日益強大,且覆蓋資料範圍日益廣泛,該問題也就日趨明顯。

  在昨天孤立系統中似乎顯得質量較高的資料,一旦與今天跨組織範圍內的分析處理相結合時,其低質量的特點就顯現出來。每個期望既有效率又有效益地利用資料來支援其業務的組織,都應該建立起資料質量意識。任何認為資料質量是個短期問題,可拖延到以後再考慮的組織,其實都是在冒企業生死存亡的風險。目前的經濟環境還未到可以忽略其資料質量,用公司的生存機會來試驗的時候。

  Q4:在確保資料質量方面,是否有一件事件是最重要的?

  最重要的是建立一個單一的企業級資料架構,並在此基礎上建立和維護所有的資料。單一的企業級資料架構並不意味著所有資料都儲存在一箇中央儲存庫中。僅表明所有的資料開發和管理都在單一的企業級資料架構結構中進行。可根據需要的操作效率來部署資料。

  一旦某個組織允許資料在多個數據架構中開發,或更糟糕的是沒有任何資料架構,就會導致巨大的資料質量問題。即使試圖協調多個數據架構,也仍會存在大量的資料質量問題。因此,最重要的是在單一的企業級資料架構內管理企業所有資料。