資料質量的常見問題
我們從以下幾個維度對資料質量問題進行描述。
1.準確性
資料與客觀實際要相符,即使資料項為空,也儘量不提供錯誤或者失真的資料。
2.合理性
資料要符合資料模型的定義和描述,且與常理不相違背。
3.一致性
如果同一個資料存在多處儲存,那麼資料及資料內容需要保持一致。
4.重複性
在同一個儲存區域內,同樣的一條記錄應該避免重複
5.及時性
資料應該能夠反映客觀實體的當前狀況。
6.完備性
資料要完備,要沒有記錄數量上的缺失和必要關鍵資料項的內容缺失。
我們將資料以實體資料(以下稱為主資料)資料、業務指標和實體標籤資料(統計結果資料)這四個層次在六個維度上形成一個二維表格,並將所見到的資料質量問題的情況逐一填寫到對應的表格中(表9-1~表9-6)。
表9-1
資料展次 |
準確性問題 |
主資料 |
(1)定義不準確,各自定義。比如,對客戶的定義,有的理解為包含潛在客戶,有的僅僅理解為會員。 |
交易資料 |
資料不準確,存在髒資料,記錄與事實不著 |
行為資料 |
數架噪聲大 |
業務指標和實體標籤資料 |
定義不準璃,計算口徑、取數口徑各自為政。比如,對同一個指標、不同的部門有不同的定義 |
表9-2
資料展次 |
準確性問題 |
主資料 |
(1)資料管理不合規,存在多頭管理或無人管理。比如,銷售部門和客戶中心都可以管理客戶資訊,重複維護。 |
交易資料 |
—— |
行為資料 |
—— |
業務指標和實體標籤資料 |
(1)無資料定義規範。 |
表 9-3
資料展次 |
準確性問題 |
主資料 |
(1)資料存在多個版本,同一個主資料的內容不一致。比如,員工賬戶資訊在每個應用系統中都各自定義,賬戶不統一。 |
交易資料 |
(1)資料內容前後不一致,有衝突。比如,在客戶資料中存在性別資訊,但是填寫的內容和身份證資訊中的性別資訊衝突。 |
行為資料 |
—— |
業務指標和實體標籤資料 |
資料定義不一致 |
表9-4
資料展次 |
準確性問題 |
主資料 |
在同一個集合內,資料被重複記錄 |
交易資料 |
在同一次交易中,資料被重複記錄 |
行為資料 |
存在技術問題,資料被大量重複記錄 |
業務指標和實體標籤資料 |
—— |
表9-5
資料展次 |
準確性問題 |
主資料 |
(1)資料被多頭維護。存在多個歷史版本,內容不能反映當前情況。比如對於職工資料中的所在部門屬性,由於員工調動和維護不及時存在多種內容。 |
交易資料 |
事後補錄資料,資料維護不及時。比如,在房地產行業中,房屋銷售資料經常在事後被一次性補錄,或者根據業務需要自行決定錄入時間 |
行為資料 |
—— |
業務指標和實體標籤資料 |
(1)資料化原因導致資料無法獲得。 |
表 9-6
資料展次 |
準確性問題 |
主資料 |
無法回答企業中存在多少個“客戶”“供應商”“裝置”“專案”等問題,缺少資料全域性檢視 |
交易資料 |
—— |
行為資料 |
由於技術問題導致行為資料大量缺失,如埋點伺服器宕機導致資料不全 |
業務指標和實體標籤資料 |
—— |
對於資料質量的提升,以往的做法是在資料倉庫中進行各種“清洗”操作,但是這種方法治標不治本,而且在資料中臺上的各種美化都屬於後期的人為干預,這樣的干預有時候本身就是一種錯誤。所以,我們寄希望於通過資料質量管理,進行治本的操作。