企業資料質量管理核心要素和技術原則
主要大綱:
1. 資料質量管理的三個要素
2. 資料質量管理的技術關鍵點
3. 資料質量管理實戰
“十三五”,規劃提出了國家的大資料戰略,指出了企業實現以數字化驅動業務發展,實現資料開放共享,創新業務發展的新思路。現階段大中型企業已經開始了資料化運營的實踐。
在這個環境和趨勢中,資料是得以實現整個規劃佈局的前提。
在將資料作為資產的前提下,企業的運營需要準確的、完整的、及時的、高價值、高質量的資料。
一、資料質量管理的三個要素
資料是企業數字化轉型的核心要素,企業的決策者根據資料背後所反映出來的現象或趨勢。分析並洞察出其背後有價值的資訊,進而在決策和行動中,贏得先機,做出正確的判斷。
企業產品生產過程中數字化能力已經逐步取代傳統的產品製作模式,以生產男式西裝為主紅領集團為例,使用者在手機APP上下單之後,測量師會到你家裡做定式測量,然後在版型庫裡做自動設計,自動排產之後就能生產使用了。整個過程都是基於高質量的資料驅動的,資料質量成為業務的生命線。
在企業數字化轉型的程序中,資料的質量成為了一個制約因素。
資料能發揮價值的大小依賴於其資料的質量的高低,高質量的資料是企業業務能力的基礎。
但劣質的資料還不如沒有資料依據經驗的進行決策,通過錯誤的資料分析出的結果會帶來災難。
資料質量問題產生的原因有很多方面,比如在技術、管理、流程方面都會碰到。企業要在把這些方面的資料質量問題都管控到,監控好,才能從整體上提高質量
今天我們先談一下在技術領域中該注意哪些。
在技術問題域中要提高資料質量水平,資料的梳理、資料規範以及資料生命週期是三個關鍵的要素。
我們先來看資料梳理,資料梳理有兩個目的:
摸清楚企業當前有哪些資料,分別在什麼地方,表現形態是什麼樣子的,是哪些業務部門使用,哪些技術部門支撐,它能為資料質量提升提供一個全面的資料現狀參考。
理清楚企業當下資料的分類以及分類之間的關係,進而知道哪些資料是基礎資料,哪些是由基礎資料組裝成的衍生資料,明確了這些也就找到了提升資料質量水平的突破點。
在專案實踐中,對資料梳理核心的一環是對企業內的元資料梳理,對元資料的梳理能解決理清企業資料現狀和明晰核心基礎資料,是資料梳理的核心工作內容,被一些企業形象的比喻成摸家底工程。
如上圖所示,我們對企業交易資料進行剖析發現,交易資料的組成其核心是由主資料、參考資料和元資料組成。如果每一類資料的元資料在名稱和格式上存在差異的話,那麼資料的質量必然不高。
例如:在交易資料裡面有產品名稱和描述這兩個元資料,而在主資料中表述這兩個物件的名稱是產品名稱和產品描述,若兩邊的欄位型別長度也存在不一致,那資料有質量問題那是必然的。
下面我們介紹資料規範,這裡的規範主要指資料標準和資料模型,我們分開介紹。
資料模型是獲取和定義企業資訊需求和資料需求的一種方法,它表述了全企業範圍內的資料整合的主藍圖,是系統開發專案的關鍵輸入,也是專案資料需求分析和資料建模工作的基線。
如電力行業的CIM模型,電信行業的ETOM模型,指導這電力和電信資訊系統的建設,以確保資料質量從開始就能得到保證,還可以為現有應用軟體的資料質量水平提供衡量標準。
資料標準是對企業資料模型的一種補充,是對企業資料模型中重要資料制定的規範性檔案,是資料質量管理和監控的手段。
它促進企業資料模型落地,也擔負著對企業存量系統中關鍵資料進行標準化的任務。
企業資料模型在落地的過程中,各部門看待問題的角度不一樣,加之有些外購產品的限制,不能很好的按企業資料模型的規範進行落實,導致資料在整合,互聯互通的時候碰到資料不一致的問題,資料質量問題隨處可見。
如果系統(專案)模型設計的時候,有一套能遵循的規範,那麼就能解決這一問題。資料標準就扮演了這麼一個角色,它從企業資料模型中剝離出重要的業務實體,在系統(專案)模型設計的時候,實現了對模型設計是否符合企業資料模型規範的監控和評審,並從管理和認責的角度切入進去,很好的解決了上述問題。
資料和貨幣一樣,流通起來的價值遠遠大於它靜態的價值。因此我們要對資料生命週期的每個環節進行監控把關,知道在每個環節資料發生了什麼變化,才能採取相應的手段來處理質量問題。
比如在規劃階段,我們要參考企業資料模型進行系統模型的設計,並且要遵循資料標準的規範要求。在獲取階段要重點關注資料的及時性問題,資料傳輸的問題;
在儲存和共享過程中要重點關注資料的整合問題,資料一致性,完整性問題。
資料生命週期我們在實踐中總結了幾個技術原則,在第二部分的分享中給大家做介紹。
這裡,我們針對資料生命週期再介紹一種分析資料質量問題的應用場景,它對我們實施資料質量專案,是一個不錯的參考。
上圖是客戶資訊產生,維護和使用的一個樣例場景。
在圖中每個節點是企業中的一個部門,客戶資訊從左至右流動,在這個場景中我們發現銷售部、市場部、客戶資訊管理部都有維護客戶資訊的權利,且所使用的系統不統一。
在系統建設時,元資料,資料格式,資訊校驗方式都不一致,這導致商務職能部,市場策劃部通過資料進行分析是產生了很大的困惑,他們必須經過大量的調查明晰資料的含義,進過清洗,轉換,標準化資料的格式後才能使用。
利用資料生命週期的分析思路,若能在管理和流程上明確資料維護的責任主體,在源頭處切入質量監控節點,對關鍵元資料進行統一,將能有效的解決這些問題,資料質量也能大幅度的提升。
二、 資料質量管理的技術關鍵點
在技術實踐上,如何利用技術能力,幫助企業更容易的實現資料質量的提升,我們在專案中提煉了四項技術原則。
原則1::從需求開始控制資料質量
資料質量一直是企業的痛點,資料質量不高,分析和挖掘無從談起,但是企業容易出現的問題是隻對已經產生的資料做檢查,然後再將錯誤資料剔除,這種方法治標不治本,不能從根本上解決問題。
要想真正解決資料質量問題,應該從需求開始,將資料質量的服務整合到需求分析人員、模型設計人員與開發人員的工作環境中,讓大家在日常的工作環境中自動控制資料質量,在資料的全生命週期中控制資料質量。
原則2:在整合點檢查資料質量
在企業大資料治理過程中,對於大資料生產線中的每個整合點,都需要做資料質量的檢查,嚴格控制輸入資料的質量。比如在資料採集過程,整合過程,分析過程等等都需要做檢查。
但在大資料環境中,每個整合點都會有海量資料量流過,把資料逐條檢查這種傳統方式是行不通的,應該採用抽樣的方式,對一批資料做資料質量的檢查,來確定這批資料是否滿足一定的質量區間,再決定是否需要對這批資料做詳細的檢查。
原則3:持續積累檢核
目前企業內的資料主要分為外部資料和內部資料,大資料時代到來讓各企業廣泛採購第三方資料,第三方資料的質量逐漸成為決定企業資料質量的關鍵因素。
對於企業的內部資料,可以通過業務梳理直接獲得質量檢核規則。但是對於外部第三方資料,需要先對這些資料進行取樣,並應用關聯演算法自動發現其中的質量檢核規則,並將這些檢核規則持續積累,形成外部資料的檢核規則庫。
原則4:自動化質量評分
企業的資料管理需要對整個企業大資料的質量有評判機制,需要能夠自動化的對企業資料評分,促進整改。通過控制防止問題資料進入大資料平臺。特別對於第三方資料,第三方資料的質量需要建立一定的評估模型,對於第三方資料的質量做一定的控制,從而能夠保護企業的投資,使企業購買的資料真正有價值和意義。
三、資料質量管理實戰
上面介紹了資料質量管理的核心三要素,以及基於三要素在實戰中抽取出來的四項技術原則。下面我們看一個完整案例。
這是一個新建系統從需求到投產的場景案例,資料質量管控和切入共包含五個步驟。
基於系統建設的業務需求,分析資料標準規範,建立需求和標準的對映。從企業角度通過對映標準瞭解到需求是解決那個資料主題域的業務問題。資料標準的對映也統一了業務術語,實現了源頭出控制質量的目的。
參考企業資料模型,依據本次業務需求設計出系統(專案)模型,系統模型的核心資料模型來源於企業資料模型。企業資料模型的參考從模型層面避免了,欄位型別,欄位長度,欄位命名不統一,不一致的問題。
上述兩步驟完成了資料生命週期的規劃階段,也按資料管理要素二思路落實企業資料模型。步驟三實現了本次系統建設的元資料管理,附加實現了核查系統元資料是否符合企業資料模型規範,是否符合資料標準規範的工作。
對涉及資料整合整合的場景,要對資料生命週期中資料傳輸的幾個環節進行資料質量監控和檢核,也就是在整合點處進行監控。在此階段設計到資料質量規則制定的工作內容。實現傳輸過程中資料質量的把關。
若本次系統建設導致其他系統發生變更時,需要協同變更,是否發生變更時基於資料梳理實現元資料自動化管理所帶來的直接保證。