1. 程式人生 > 其它 >資料倉庫(11)什麼是大資料治理,資料治理的範圍是哪些

資料倉庫(11)什麼是大資料治理,資料治理的範圍是哪些

什麼是資料治理,資料治理包含哪些方面?大資料時代的到來,給了我們很多的機遇,也有很多的挑戰。最基礎的調整也是大資料的計算和管理,資料治理是一個特別重要的大資料基礎,他保證著資料能否被最好的應用,保證著資料的安全,治理等。那麼資料治理到底能治什麼,怎麼治?

資料治理主要包含七個方面。

主資料管理

即資料本身的管理,對於資料本身,基於資料倉庫,我們做了資料的分層、資料域的劃分、基於維度建模的架構、命名規範、對需要共享的資料建立統一檢視和集中管理等,這些都是屬於這個主資料管理的範圍。

元資料管理

元資料,即資料的資料。包含兩個個方面,技術元資料、業務元資料。用於打通了源資料、資料倉庫、資料應用,記錄了資料從產生到消費的全過程。元資料主要記錄資料倉庫中模型的定義、各層級間的對映關係、監控資料倉庫的資料狀態及 ETL 的任務執行狀態。

在資料倉庫系統中,元資料可以幫助資料倉庫管理員和開發人員非常方便地找到他們所關心的資料,用於指導其進行資料管理和開發工作,提高工作效率。

  1. 技術元資料

技術元資料是儲存關於資料倉庫系統技術細節的資料,是用於開發和管理資料倉庫使用的資料。

  • 資料本身技術元資料有:表、列、分割槽等資訊。記錄了表的表名。分割槽資訊、責任人資訊、檔案大小、表型別,生命週期,以及列的欄位名、欄位型別、欄位備註、是否是分割槽等資訊。

  • 分散式計算系統執行元資料,如叢集上所有作業執行資訊,類似於Hive Job 日誌,包括作業型別、例項名稱、輸入輸出、 SQL 、執行引數、執行時間、最細粒度的Instance 執行資訊等。資料同步、計算任務、任務排程等資訊,包括資料同步的輸入輸出表和欄位,以及同步任務本身的節點資訊,計算任務主要有輸入輸出、任務本身的節點資訊,任務排程主要有任務的依賴型別、依賴關係等,以及不同型別排程任務的執行日誌等。

  • 資料質量和運維相關元資料,如任務監控、運維報警、資料質量、故障等資訊,包括任務監控執行日誌、告警配置及執行日誌、故障資訊等。

  1. 業務元資料

業務元資料從業務角度描述了資料倉庫中的資料,它提供了介於使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠懂”資料倉庫中的資料。

  • 企業業務元資料,有維度及屬性、業務過程、指標等的規範化定義,用於更好地管理和使用資料。

  • 資料應用元資料,如資料報表、資料產品等的配置和執行元資料。

資料標準

資料標準建設提供全面完整的資料標準管理流程及辦法,用於決定和建立單一、準確、權威的事實來源,實現大資料平臺數據的完整性、有效性、一致性、規範性、開放性和共享性管理,併為資料質量檢查、資料安全管理提供標準依據。比如,“客戶型別”是一個數據項,應該有統一的業務含義,將客戶歸類為大客戶、一般客戶的規則是什麼,資料項的取值是幾位長度,有哪些有效值(如01,02,03)等。這方面有國際標準可以參考,如ISO11179,國內很多行業也制定了行業資料標準,如電子政務資料元、金融行業統計資料元等等。共同的問題是,標準定義出來之後,執行的情況怎麼樣?是否真正落實到IT系統了,誰為資料的管理者等。

這裡主要包含三個方面,技術定義、業務定義以及資料管理定義。

資料質量管理

資料質量管理,包含五個部分,資料的唯一性、完整性、準確性、一致性、有效性。資料質量管理,就是通過特定的規則對資料的五個方面進行測試,檢查,監控和告警。

  • 唯一性:不存在無意義的重複資料
  • 完整性:資料完整且連續
  • 一致性:資料在多資料來源中意義一致
  • 有效性:這裡主要指資料在分析的時間點是有效,而非過期或失效資料
  • 準確性:資料合理、準確,並符合資料型別的標準

資料安全管理

資料安全管理貫穿於資料治理全過程,提供對隱私資料的加密、脫敏、模糊化處理、資料庫授權監控等多種資料安全管理措施,全方位保障資料的安全運作。

資料計算管理

對大資料叢集每天儲存資源、計算資源消耗等進行管理、監控、優化。如何降低計算資源的消耗,提高任務執行的效能,提升任務產出的時間。一般從系統優化和任務優化兩個方面進行計算優化。

資料儲存管理

在大資料時代,對於資料爆炸式的增長,儲存管理也將面臨著一系列挑戰。如何有效地降低儲存資源的消耗,節省儲存成本,也是資料治理的一個目標。對於資料儲存,目前業界的一些主要的處理方式,包括資料壓縮、資料重分佈、資料垃圾檢測和清理、資料生命週期管理等。
參考文章:資料倉庫(11)什麼是大資料治理,資料治理的範圍是哪些