1. 程式人生 > >元資料及資料倉庫相關概念

元資料及資料倉庫相關概念

文章目錄

元資料(metadata)的概念

Data about Data

  • 狹義的解釋是用來描述資料的資料
  • 廣義的來看,除了業務邏輯直接讀寫處理的那些業務資料,所有其它用來維持整個系統運轉所需的資訊、資料都可以叫作元資料

定義

按照傳統的定義,元資料(Metadata)是關於資料的資料。在資料倉庫系統中,元資料可以幫助資料倉庫管理員和資料倉庫的開發人員非常方便地找到他們所關心的資料;元資料是描述資料倉庫內資料的結構和建立方法的資料,可將其按用途的不同分為兩類:技術元資料(Technical Metadata)和業務元資料(Business Metadata)。
在這裡插入圖片描述

技術元資料

儲存關於資料倉庫系統技術細節的資料,是用於開發和管理資料倉庫使用的資料

  • 資料倉庫結構的描述,包括倉庫模式、檢視、維、層次結構和匯出資料的定義,以及資料集市的位置和內容;
  • 業務系統、資料倉庫和資料集市的體系結構和模式
  • 彙總用的演算法,包括度量和維定義演算法,資料粒度、主題領域、聚集、彙總、預定義的查詢與報告;
  • 由操作環境到資料倉庫環境的對映,包括源資料和它們的內容、資料分割、資料提取、清理、轉換規則和資料重新整理規則、安全(使用者授權和存取控制)。

業務元資料

從業務角度描述了資料倉庫中的資料,它提供了介於使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠“讀懂”資料倉庫中的資料

  • 企業概念模型:這是業務元資料所應提供的重要的資訊,它表示企業資料模型的高層資訊、整個企業的業務概念和相互關係。以這個企業模型為基礎,不懂資料庫技術和SQL語句的業務人員對資料倉庫中的資料也能做到心中有數。
  • 多維資料模型:這是企業概念模型的重要組成部分,它告訴業務分析人員在資料集市當中有哪些維、維的類別、資料立方體以及資料集市中的聚合規則。這裡的資料立方體表示某主題領域業務事實表和維表的多維組織形式。
  • 業務概念模型和物理資料之間的依賴:以上提到的業務元資料只是表示出了資料的業務檢視,這些業務檢視與實際的資料倉庫或資料庫、多維資料庫中的表、欄位、維、層次等之間的對應關係也應該在元資料知識庫中有所體現。

總結

搭建資料倉庫中最容易缺失的就是對元資料的管理,很少有資料倉庫團隊具備完整的元資料,當然搭建資料倉庫的工程師本身就是活的元資料,但無論是為了用資料的人還是資料倉庫自身的團隊著想,元資料都不可或缺。一方面元資料為資料需求方提供了完整的資料倉庫使用文件,幫助他們能自主地快速獲取資料,另一方面資料倉庫團隊成員可以從日常的資料解釋中解脫出來,無論是對後期的不斷迭代更新和維護還是培訓新的員工,都非常有好處,元資料可以讓資料倉庫的應用和維護更加高效。

資料倉庫

ODS簡單的理解為 Operational Data Store, 運營資料倉儲 資料整合層(也叫做資料緩衝層)

  • ODS儲存了運營系統(如OLTP(聯機事務處理)系統)近實時的詳細資料
  • 為了尋找能滿足快速載入和資料整合的效能要求,並且減少面向分析需求的變更和擴充對生產系統影響的解決方案

EDW簡單理解為 Enterprise Data Warehouse, 企業資料倉庫

  • 為企業各級的經營決策和市場營銷提供及時、精確、全面的資料支援和科學、方便、體系化的分析工具和使用方法,為除生產系統以外的管理、分析等需求提供資料支撐,實現業務資料與分析資料的分離。
  • 解決目前市場等部門資訊獲取能力和分析決策手段不能適應企業環境變化和精確化管理要求的問題,並通過各種形式的主題,專題分析,支撐針對性營銷、上市資訊披露、精確化管理.有效降低營銷成本,減少客戶流失,尋找商機,達到提升企業價值的目的。

ODS與EDW之間的差異

使用角色

  • ODS主要面向營業、渠道等一線生產人員和一線管理人員,為了實現準實時、跨系統的運營細節資料的查詢,以獲得細粒度的運營資料展現,例如渠道人員查詢客戶的全檢視資訊由ODS提供資料支撐。
  • EDW主要面向專業分析人員、輔助決策支援人員等,為了實現基於歷史資料的統計分析和資料探勘,以獲得客戶深層次的特徵和市場發展的規律,例如專業分析人員的經營狀況趨勢分析由EDW提供支撐。

資料來源

  • ODS需要的大部分運營資料直接來源生產系統。 ODS中的部分分析結果資料來源於EDW,例如客戶洞察資訊等[^1]。
  • EDW需要的運營資料,如果在ODS中已存在,EDW則直接從ODS獲取這部分資料。· EDW需要的運營資料,如果在ODS中沒有,EDW則直接從生產系統獲取這部分資料。

資料獲取效能和及時性

  • ODS支援OLTP型別的資料更新,資料更新時間短,資料可實現準實時更新,效能與及時性都高於EDW
  • EDW中的資料一般通過批量載入進入,資料更新速度慢,無法實現準實時更新,資料更新時間不足以支援實時的報表和事件監控需求。

資料架構

  • ODS以關注生產運營過程的統計與監控為主的生產視角主題域方式來組織資料;ODS提供操作資料的統計,主要提供應用需要的細粒度運營資料。ODS中也存在部分粗粒度彙總資料,但彙總的維度少且簡單
  • EDW關注對歷史資料的深層次分析與挖掘.從分析與挖掘的需要出發按不同主題維度來彙總與組織資料。EDW提供歷史資料的展示和分析,主要提供多層粗粒度彙總資料.彙總的維度多且複雜。

資料共享能力

  • ODS為其他生產系統提供運營資料的準實時資料共享服務
  • EDW一般不為生產系統提供此類準實時的資料共享服務。系統中的資料只供本系統分析與挖掘應用使用。

資料系統提供應用資料查詢

  • ODS提供生產環境下的資料查詢,查詢的交易量較小,不耗費太多資源,有確定的完成速度。而EDW提供分析環境下的查詢,查詢單元量較大,消耗的資源很多,完成的速度也不確定
  • ODS提供生產環境下實時性較高的生產經營報表,而EDW提供分析環境下的主題分析與挖掘報表。動態報表。
  • ODS提供面向少量維度的細粒度資料的統計,而EDW提供面向多個維度的多層粗粒度資料的主題統計、分析及深層次的挖掘。
  • ODS提供績效管理和統計、資料質量審計和監控管理等功能。
  • EDW提供趨勢分析、客戶消費行為分析和評估等功能

資料儲存

  • 客戶等關鍵實體資料。ODS長久儲存當前資料,EDW長久儲存當前與歷史資料。
  • 詳單資料。ODS儲存1個月到3個月;EDW儲存2年。
  • 彙總資料。ODS儲存3年;EDW儲存5年。
  • 其他資料。ODS儲存l3個月;EDW儲存3年

系統技術特徵

  • ODS主要面對大併發使用者數、小資料量的訪問,EDW主要面對小併發使用者數、大資料量的訪問。
  • ODS資料庫優化同時側重索引和分割槽技術;EDW資料庫優化主要側重分割槽技術。
  • ODS支援OLTP型別和OLAP(聯機分析處理)型別的資料操作,EDW支援OLAP型別的資料操作。

系統可靠性

  • ODS參與運營.必須保證可靠性。
  • 相對ODS.EDW可以允許有更多的離線時間。

系統開放性

  • 因為需要與大量不同硬體、資料庫配置的系統相互交換資料。ODS要求比較高的系統開放性。
  • EDW一般只獲取資料.而不提供給其他應用系統以多種模式直接訪問,解決方案上也可採用相對封閉的資料庫、軟硬體平臺

資料倉庫分層

最底層的細節資料

管理策略是優化儲存,一般儲存匯入的原始資料,便於進行向上的統計彙總,因為資料量較大所以需要優化儲存

中間層是多維模型

管理策略是優化結構和查詢,面向主題的多維模型的設計,需要滿足OLAP和資料查詢的多樣需求,同時保證查詢的便捷性,關鍵在與維表的設計和維度的選擇及組合,事實表需要關注儲存和索引的優化;
####最上層是展現資料
管理策略是優化效率,一般會存放每天需要展現的彙總報表,或者根據多維模型拼裝的檢視,展現層的資料需要以最快的速度展現出來,一般用於BI平臺的Dashboard和報表。

參考資料

  1. 從概念到應用再到架構,一篇文章徹底讀懂元資料管理 http://www.360doc.com/content/16/1029/08/17488509_602243527.shtml
  2. 聊一聊資料倉庫中的元資料管理系統 https://yq.aliyun.com/articles/174269
  3. 淺析ODS與EDW 關係 https://www.cnblogs.com/quchunhui/articles/5340382.html
  4. 資料倉庫 http://webdataanalysis.net/no-category/questions-3/