1. 程式人生 > 其它 >大資料開發之資料倉庫架構分析

大資料開發之資料倉庫架構分析

概述
架構是資料倉庫建設的總體規劃,從整體視角描述瞭解決方案的高層模型,描述了各個子系統的功能以及關係,描述了資料從源系統到決策大資料培訓系統的資料流程。業務需求回答了要做什麼,架構就是回答怎麼做的問題。

架構的價值

資料倉庫架構

資料倉庫的核心功能從源系統抽取資料,通過清洗、轉換、標準化,將資料載入到BI平臺,進而滿足業務使用者的資料分析和決策支援。資料倉庫架構包含三個部分:資料架構、應用程式架構、底層設施。

底層設施

底層設施為架構提供了基礎,底層設施包括硬體、資料庫平臺、網路和桌面系統。

硬體

硬體主要指伺服器硬體,主要有資料庫伺服器、ETL伺服器、排程伺服器、報表伺服器、BI門戶伺服器、介面伺服器。

資料庫平臺

資料庫平臺分為二大類:聯機事務處理OLTP(on-line transaction processing)、聯機分析處理OLAP(On-Line Analytical Processing),OLAP是為資料分析而設計的資料庫管理系統。主要有Oracel,MySQL,Teradata, Greenplum,Hive,Kudu。

桌面系統

資料倉庫不同的應用對桌面系統也有不同的要求,開發工具主要有Window、Mac面系統,部署伺服器主要有Unix桌面系統,系統BI應用程式主要有Window、Mac、移動裝置桌面系統。

網路

網路是底層設施的基礎,特別是大資料時代對網路的要求越來越高。

BI應用程式架構

資料倉庫是資料處理的後臺,業務使用者並不關心後臺怎麼處理。BI應用是資料呈現的前臺,是業務使用者進行查詢的入口。BI應用程式的體驗也是衡量資料倉庫是否成功的主要因素。

BI分析週期

業務分析從監視活動開始識別某個問題或時機,進而採取行動,最終回到監視該活動產生的結果上來,達到資料驅動業務增長的目的。分析週期把這個過程分為五個不同的階段。

BI應用分類

介面查詢

資料以介面的形式提供給上下游系統,供上下業務系統進行查詢。主要有推和拉二種模式。

即席查詢

業務使用者根據自己的需求,自定義查詢請求,後臺自動組織SQL語句訪問維度模型。

標準報表

根據業務使用者的需求,進行定製報表。

儀表盤

它是向企業展示度量資訊和關鍵業務指標現狀的資料視覺化工具。

資料探勘

為資料探勘工具提供標準基礎資料。

運營查詢

為了減少業務系統的大資料量查詢壓力,資料倉庫為業務系統提供實時的查詢。

資料儲存

資料架構

資料架構主要描述資料從源系統抽取資料,然後經過清洗、規範化、提交形成標準模型,最終提交給業務使用者,以及對資料的管理。

源系統

資料倉庫一般會面臨多個、異構資料來源的問題,主要分為結構化,半結構化以及非結構化資料。為了便於管理需要對源系統建立元資料資訊。

抽取

因為源系統的多樣性,源抽取階段一般選擇使用工具。在抽取之前還要做以下工作:

資料剖析是對資料的技術性分析,對資料的內容、一致性和結構進行描述。對源系統的資料質量進行評估。

資料剖析和變化資料捕獲策略:為了減少對源系統的影響,一般只抽取變化的資料,也需要識別物理刪除的資料。CDC策略主要有:

  • 新增審計列

在源系統追加日期欄位,當資料發生變化的時候,系統會自動更新該值。如果由後臺人員手工修改資料,可能就發生遺漏。

  • 資料比較

比較源系統和資料倉庫的資料,只抽取變化的資料。這種方法需要全量的資料,比較耗費資源。可以視資料量的大小而定。

  • 讀取日誌

讀取資料庫操作日誌資訊,同步到資料倉庫中。一般日誌的有效期比較短,一旦發生要重跑的情況,可能以前的日誌已經被清空了。

  • 訊息佇列

把事務資訊放到訊息佇列裡,以流的形式同步到資料倉庫。這種方式即可以減輕源系統的壓力,又能做到實時同步。

  • 資料轉換

資料從源系統抽取過來之後,就要進入資料轉換階段。這一階段是資料倉庫開發核心階段。主要有以下步驟:

清洗

資料清洗是制定轉換規則,篩選資料並糾正資料的過程。清洗的目的是改進源系統的資料質量,但是不要在資料倉庫做過多的清洗,源系統的資料質量應該在源頭處理。清洗的主要內容包括:


規範化

規範化就是整合各個源系統的資料,把資料統一命名,統一取值,建立企業標準版本資料。主要內容包括:

提交

提交就要根據維度模型生成維度表和事實表。提交主要內容包括:

  1. 選擇合適的緩慢變化維型別
  2. 為維表生成代理鍵
  3. 管理不同粒度的層次維
  4. 管理專項維
  5. 生成維度橋接表
  6. 生成代理鍵管道
  7. 選擇合適的事實表型別
  8. 處理延遲到達的事實
  9. 生成維度表
  10. 生成事實表

聚集

聚集是指根據事務事實表進行更高粒度的聚合以及生成相對應的維度表。主要內容包括:

資料儲存

資料儲存是指在在資料的生命週期內對資料的管理,主要內容包括: