1. 程式人生 > 其它 >資料質量的常見問題

資料質量的常見問題

我們從以下幾個維度對資料質量問題進行描述。

1.準確性

    資料與客觀實際要相符,即使資料項為空,也儘量不提供錯誤或者失真的資料。

2.合理性

    資料要符合資料模型的定義和描述,且與常理不相違背。

3.一致性

    如果同一個資料存在多處儲存,那麼資料及資料內容需要保持一致。

4.重複性

    在同一個儲存區域內,同樣的一條記錄應該避免重複

5.及時性

    資料應該能夠反映客觀實體的當前狀況。

6.完備性

    資料要完備,要沒有記錄數量上的缺失和必要關鍵資料項的內容缺失。

    我們將資料以實體資料(以下稱為主資料)資料、業務指標和實體標籤資料(統計結果資料)這四個層次在六個維度上形成一個二維表格,並將所見到的資料質量問題的情況逐一填寫到對應的表格中(表9-1~表9-6)。

9-1

資料展次

準確性問題

主資料

(1)定義不準確,各自定義。比如,對客戶的定義,有的理解為包含潛在客戶,有的僅僅理解為會員。
(2)在資料模型中對屬性的理解不一致。比如,對門店面積的定義,有的填寫門店的實際面積,有的填寫經營面積。
(3)數內容不準確,被隨意填寫。比如,在客戶資訊中,對客戶姓名、年齡、住址等內容隨意填寫

交易資料

資料不準確,存在髒資料,記錄與事實不著

行為資料

數架噪聲大

業務指標和實體標籤資料

定義不準璃,計算口徑、取數口徑各自為政。比如,對同一個指標、不同的部門有不同的定義

 

9-2

資料展次

準確性問題

主資料

(1)資料管理不合規,存在多頭管理或無人管理。比如,銷售部門和客戶中心都可以管理客戶資訊,重複維護。
(2)資料使用不合規,存在洩漏風險。比如,所有客戶名單資料都星露在FTP 伺服器中。
(3)資料共享不合規,無技術規範

交易資料

——

行為資料

——

業務指標和實體標籤資料

(1)無資料定義規範。
(2)資料在使用過程中存在洩漏風險

 

9-3

資料展次

準確性問題

主資料

(1)資料存在多個版本,同一個主資料的內容不一致。比如,員工賬戶資訊在每個應用系統中都各自定義,賬戶不統一。
(2)多頭定義,資料及資料屬性定義不一致

交易資料

(1)資料內容前後不一致,有衝突。比如,在客戶資料中存在性別資訊,但是填寫的內容和身份證資訊中的性別資訊衝突。
(2)資料內容與資料模型定義不一致。比如,用於記錄產品的表格,記錄了“門店裝修返款”

行為資料

——

業務指標和實體標籤資料

資料定義不一致

 

9-4

資料展次

準確性問題

主資料

在同一個集合內,資料被重複記錄

交易資料

在同一次交易中,資料被重複記錄

行為資料

存在技術問題,資料被大量重複記錄

業務指標和實體標籤資料

——

 

9-5

資料展次

準確性問題

主資料

(1)資料被多頭維護。存在多個歷史版本,內容不能反映當前情況。比如對於職工資料中的所在部門屬性,由於員工調動和維護不及時存在多種內容。
(2)資料維護不及時,當前內容與真實情況不符。比如,客戶資訊中的“稅號”資訊。

交易資料

事後補錄資料,資料維護不及時。比如,在房地產行業中,房屋銷售資料經常在事後被一次性補錄,或者根據業務需要自行決定錄入時間

行為資料

——

業務指標和實體標籤資料

(1)資料化原因導致資料無法獲得。
(2)資料結果獲取緩慢,以周或者月為獲取時間單位不滿足業務需求

 

9-6

資料展次

準確性問題

主資料

無法回答企業中存在多少個“客戶”“供應商”“裝置”“專案”等問題,缺少資料全域性檢視

交易資料

——

行為資料

由於技術問題導致行為資料大量缺失,如埋點伺服器宕機導致資料不全

業務指標和實體標籤資料

——

    對於資料質量的提升,以往的做法是在資料倉庫中進行各種“清洗”操作,但是這種方法治標不治本,而且在資料中臺上的各種美化都屬於後期的人為干預,這樣的干預有時候本身就是一種錯誤。所以,我們寄希望於通過資料質量管理,進行治本的操作。