1. 程式人生 > 其它 >《資料安全實踐指南》- 資料質量管理

《資料安全實踐指南》- 資料質量管理

資料質量管理

  • 資料質量管理可以確保資料的質量得到可靠保障,從而使得資料安全保護的物件具有更高的價值,在資料採集的整個過程中,資料質量管理可以保證資料採集過程中收集和產生的資料具有一致性,完整性和可用性。

建立負責資料質量管理的職能部門

  • 組織機構需要專門設立負責資料質量管理的崗位,相關人員需要為組織機構建立資料質量管理體系,負責為公司制定統一的資料質量管理規範,推動資料質量管理制度的有效實施,明確責任主體,明確對資料質量進行監督和管理的相關責任人或責任部門。

明確資料質量管理崗位的能力要求

  • 熟悉國家網路安全法以及組織機構所屬行業的政策和監管要求。
  • 具備良好的資料安全風險意識。
  • 瞭解當前行業內資料質量管理的最佳實踐路線。
  • 瞭解資料採集階段中的資料質量控制要素。
  • 資料質量管理規範能有一致性的理解,能夠根據組織機構的實際資料質量管理需求,以及組織機構不同業務的特點開展資料質量評估工作。

資料質量管理崗位的建設及人員能力的評估方法

  • 可通過內部審計,外部審計等形式以調研訪談,問卷調查,流程觀察,檔案調閱,技術檢測等多種方式實現。
  • 調研訪談
    • 主要包含對資料質量管理團隊人員和業務團隊向人員進行訪談。
  • 問卷調查
    • 以紙面問卷的形式調研資料質量管理部門是否可以針對不同的業務環境開展資料質量評估工作。
  • 流程觀察
    • 以中立視角觀察公司資料質量管理團隊的工作流程,包括在為公司制定統一的資料質量管理制度和規範時,方法流程是否符合標準,對資料的完整性,規範性,一致性,準確性,唯一性,關聯性是否進行了管理和監控,是否明確了資料質量監控責任人,響應異常資料質量問題時,操作流程是否符合規範,整個響應鏈(即對異常資料質量問題,從發現,上報,評估,更正到繼續監控的整個過程)是否完善。
  • 技術檢測
    • 使用技術工具確認資料質量管理覆蓋了資料的全生命週期,確認在真實業務環境下的關鍵資料得到了有效的資料質量管理和監控,且監控結果符合預期效果,保證了資料的完整性,一致性和準確性,能夠準確,快速地識別出異常資料質量問題,且對識別出異常資料質量問題及時進行響應,告警和更正處理。

明確資料質量管理的目的

  • 對資訊系統的各個資訊採集點進行規範化管理,包括建立模式化的操作規程,原始資訊的校驗,錯誤資訊的反饋和糾正等一系列的過程。
  • 資料安全保護的物件是有價值的資料,而有價值的前提是要能保證資料的質量,所以必須要有與資料質量相關的管理體系,資料質量管理的目的是保證資料採集過程中收集和產生的資料的準確性,一致性和完整性。

資料質量評估維度

  • 資料質量可以進行8個維度進行衡量,分別是真實性,完整性,規範性,一致性,準確性,唯一性,關聯性和及時性。

實施資料質量校驗

  • 資料質量校驗是指實現資料的完整性和一致性檢查,從而提升資料的質量
  • 關聯性檢查:是否存在Key值關聯
  • 行級別:資料量是否一致
  • 列級別:表結構是否一致,如欄位數量,欄位型別和寬度等是否一致
  • 內容級別:資料內容是否一致,以及資料內容是否缺失
  • 資料質量校驗可分為一下三個層次
    • 人工對比
    • 程式對比
    • 統計分析
  • 資料質量校驗的流程如下:
    • 解析待校驗的資料來源,以得到資料來源的元資料。
    • 配置檢驗規則,例如:資料唯一性校驗,完整性校驗,精度校驗,格式校驗,長度校驗等。
    • 根據資料來源的元資料對資料來源進行校驗運算,得到校驗結果。

實施資料清洗

  • 資料清洗是發現並糾正資料檔案中可識別的錯誤的最後一道程式,包括檢查資料的一致性,以及處理無效值和缺失值等。
    • 缺失值處理
      • 根據同一欄位的資料進行填充,例如:均值,中位數,眾數等。
      • 根據其他欄位的資料進行填充,例如:通過身份證號碼提取出生日期等。
      • 設定一個全域性變數,例如:缺失值用“unkonwn”,等填充。
      • 直接剔除,避免缺失值過多影響結果。
      • 通過建模法進行歸納,可以用迴歸演算法,貝葉斯形式化方法等基於推理的工具決策樹歸納確定。
    • 重複值處理
      • 根據主鍵去重,利用工具去除重複記錄的資料。
      • 根據組合去重,編寫一系列的規則,對重複情況比較複雜的資料進行去重操作。
    • 異常值處理
      • 根據同一欄位的資料進行修改,例如:均值,中位數,眾數等。
      • 直接剔除,避免異常值過多影響結果。
      • 設為缺失值,可以按照處理缺失值的方法來處理。
    • 不一致值處理
      • 從根源入手,建立統一的資料體系。
      • 從結果入手,設立中心標準,對不同來源的資料進行值域對照處理。
    • 丟失關聯值處理
      • 重新建立關聯。

明確資料質量管理規範

  • 設立負責資料質量管理的崗位和工作人員,負責制定資料質量管理規範,以對資料質量進行管理和監控,資料質量管理規範中需要包含但不限於資料格式要求,資料完整性要求,資料質量要素,資料來源質量評價標準等內容。
  • 對資料質量進行管理時,需要對資料的真實性,完整性,規範性,一致性,準確性,唯一性,關聯性,及時性,進行定義和監控。
  • 建立資料採集過程中的質量監控規則,明確資料質量監控範圍及監控方式。
  • 設定資料質量校驗和監控方法,例如:人工對比,程式對比,統計分析等。
  • 設定資料質量異常問題上報流程和操作規範,並持續跟蹤每個已上報的異常問題的解決狀態。
  • 根據實際情況,設定資料清洗的規則和方法。

制定資料質量管理的實施流程

  • 提高資料質量最好的方法如下:首先,根據要分析的目標確定資料希望達到的標準,根據這些標準衡量現有的資料集,然後使用各種提高資料質量的技術和方法,持續不斷地提高資料的質量,以達到預定義的標準。下面是常用的資料質量管理專案的實施流程。
    • 發現數據質量問題,這是實施資料質量管理的第一步。
    • 分析與資料質量相關的業務環節。
    • 分析現有資料的資料質量,收集資料質量的管理需求。
    • 設計專案使用的技術平臺,技術平臺可從軟體供應商處購買,也可以自行開發。
    • 建立元資料模型。
    • 建立資料質量管理系統架構。
    • 評估資料質量管理程式的執行結果。
    • 清洗資料。
    • 持續監控資料。

使用技術工具

  • 資料質量是描述資料價值含量的指標,就像鐵礦石的質量一樣,礦石的質量越高,則其能提煉出來的鋼材就越多。

資料清洗工具的原理

  • 所謂的資料清洗,其目的是檢測資料集合中存在的不符合規範的資料,並進行資料修復,提高資料質量。
  • 資料清洗一般是自動完成,只有在少數情況下需要人工參與完成,以提高資料質量。
  • 常見的資料缺陷型別,資料清洗方法可以分為五大類:
    • 解決空值資料的方法
    • 解決錯誤資料的方法
    • 解決重複資料的方法
    • 解決不一致資料的方法
    • 解決資料不規範的方法

技術工具的使用目標和工作流程

  • 質量需求管理
  • 規則設定
  • 規則校驗
  • 任務管理
  • 監控分析
  • 質量報警
  • 報告生成