資料倉庫為什麼要分層

阿新 • • 發佈：2018-12-06

如何分層
- 結合Inmon和Kimball的集線器式和匯流排式的資料倉庫的優點，分層為ODS【-MID】-DW-DM-OLAP/OLAM/app
- ODS層是將OLTP資料通過ETL同步到資料倉庫來作為資料倉庫最基礎的資料來源。在這個過程中，資料經過了一定的清洗，比如欄位的統一，髒資料的去除等，但是資料的粒度是不會變化的。ODS層的資料可以只保留一定的時間。
- MID中間層是採用Inmon集線器架構的方式，使用正規化建模（貼源）的方法。這一層主要是做規範化的事情，比如應用庫表非規範化，欄位格式複雜（json格式）需做一些處理。這一層不是必須有的。也不會對外開放使用。正規化建模保證了資料一致性、唯一性、正確性。
- DW-DM層是採用Kimball的匯流排式的資料倉庫架構，針對部門（比如財務部門）或者某一主題（比如商戶、使用者），通過維度建模（推薦星型模型），構建一致性維度，原子粒度的資料是DW層，按照實體或者主題經過一定的彙總，建設資料集市模型。資料集市可以為OLAP提供服務。
為什麼要分層
- 空間換時間。通過建設多層次的資料模型供使用者使用，避免使用者直接使用操作型資料，可以更高效的訪問資料。
- 把複雜問題簡單化。講一個複雜的任務分解成多個步驟來完成，每一層只處理單一的步驟，比較簡單和容易理解。而且便於維護資料的準確性，當資料出現問題之後，可以不用修復所有的資料，只需要從有問題的步驟開始修復。
- 便於處理業務的變化。隨著業務的變化，只需要調整底層的資料，對應用層對業務的調整零感知.
分層的價值
- 高效的資料組織形式【易維護】
  面向主題的特性決定了資料倉庫擁有業務資料庫所無法擁有的高效的資料組織形式，更加完整的資料體系，清晰的資料分類和分層機制。因為所有資料在進入資料倉庫之前都經過清洗和過濾，使原始資料不再雜亂無章，基於優化查詢的組織形式，有效提高資料獲取、統計和分析的效率。
- 時間價值【高效能】
  資料倉庫的構建將大大縮短獲取資訊的時間，資料倉庫作為資料的集合，所有的資訊都可以從資料倉庫直接獲取，資料倉庫的最大優勢在於一旦底層從各類資料來源到資料倉庫的ETL流程構建成型，那麼每天就會有來自各方面的資訊通過自動任務排程的形式流入資料倉庫，從而使一切基於這些底層資訊的資料獲取的效率達到迅速提升。
  從應用來看，使用資料倉庫可以大大提高資料的查詢效率，尤其對於海量資料的關聯查詢和複雜查詢，所以資料倉庫有利於實現複雜的統計需求，提高資料統計的效率。
- 整合價值【簡單化】
  資料倉庫是所有資料的集合，包括日誌資訊、資料庫資料、文字資料、外部資料等都整合在資料倉庫中，對於應用來說，實現各種不同資料的關聯並使多維分析更加方便，為從多角度多層次地資料分析和決策制定提供的可能。
- 歷史資料【歷史性】
  記錄歷史是資料倉庫的特性之一，資料倉庫能夠還原歷史時間點上的產品狀態、使用者狀態、使用者行為等，以便於能更好的回溯歷史，分析歷史，跟蹤使用者的歷史行為，更好地比較歷史和總結歷史，同時根據歷史預測未來。

資料倉庫為什麼要分層

如何分層結合Inmon和Kimball的集線器式和匯流排式的資料倉庫的優點，分層為ODS【-MID】-DW-DM-OLAP/OLAM/app ODS層是將OLTP資料通過ETL同步到資料倉庫來作為資料倉庫最基礎的資料來源。在這個過程中，資料經過了一定的清洗，比如欄

【資料倉庫】5.如何優雅地設計資料分層

0x00 前言一、文章主題本文主要講解資料倉庫的一個重要環節：如何設計資料分層！其它關於資料倉庫的內容可參考之前的文章。本文對資料分層的討論適合下面一些場景，超過該範圍場景 or 資料倉庫經驗豐富的大神就不必浪費時間看了。資料建設剛起步，大部分的資

資料倉庫的架構以及資料分層

資料倉庫分層的原因1通過資料預處理提高效率，因為預處理，所以會存在冗餘資料2如果不分層而業務系統的業務規則發生變化，就會影響整個資料清洗過程，工作量巨大3通過分層管理來實現分步完成工作，這樣每一層的處理邏輯就簡單了標準的資料倉庫分層：ods（臨時儲存層），pdw（資料倉庫層）

資料倉庫系列——4.如何優雅地設計資料分層

一、文章主題本文主要講解資料倉庫的一個重要環節：如何設計資料分層!其它關於資料倉庫的內容可參考之前的文章。本文對資料分層的討論適合下面一些場景，超過該範圍場景 or 資料倉庫經驗豐富的大神就不必浪費時間看了。資料建設剛起步，大部分的資料經過粗暴的資料接入後就直接對

資料倉庫系列－為什麼要維度建模

凡是建設資料倉庫，一定會提到維度建模方法。這一方法是Kimball最先提出的，其最簡單的描述就是，按照事實表、維度表來構建資料倉庫、資料集市。在維度建模方法體系中，維度是描述事實的角度，如日期、商品、地址等，事實是要度量的指標，如使用者數、銷售額等。按照一般書籍的介紹，維度

資料倉庫分層之辯

資料倉庫的分層可以算是資料倉庫架構的子話題。在前段時間參與的一次討論中，筆者發現其中爭論的焦點集中在每一層的作用、特點、是否有必要存在等問題。其中，大家雖然一致提到某些相關概念，但各方的理解卻並非完全一致。例如對於ODS是什麼、維度建模是什麼等問題的解讀，都是如此。不妨

資料倉庫分層設計

為什麼要對資料倉庫分層： a)用空間換時間，通過大量的預處理來提升應用系統的使用者體驗（效率），因此資料倉庫會存在大量冗餘的資料； b)如果不分層的話，如果源業務系統的業務規則發生變化將會影響整個資料清洗過程，工作量巨大 c）通過資料分層管理可以簡化資料清洗的

兩種資料倉庫分層例項

資料倉庫分層，目前見到的兩種分層：分層一標準的資料倉庫分層：ods（臨時儲存層），pdw（資料倉庫層），mid（資料集市層），app（應用層） ods：歷史儲存層，它和源系統資料是同構的，而且這一層資料粒度是最細的，這層的表分為兩種，一種是儲存當前需要載入的資料，一

為什麼資料分析中要建資料倉庫？

最近在部落格園上看到一篇文章，關於資料倉庫建設相關的。以前做專案一直通過PowerQuery進行資料加工處理，再使用PowerBI Desktop進行資料分析展現，沒有單獨構建資料倉庫的概念。通過這個文章找到中軟易通官網，瞭解一些免費的ETL工具介紹和視

資料庫倉庫系列：(一)什麼是資料倉庫，為什麼要資料倉庫

最近全程參與了數倉的重建工作，頗有些心得。於是萌生了寫一篇關於資料倉庫文章的想法。編寫此文章的過程中會查詢更多的資料和結合自己工作經歷，確保內容質量。即是自己工作的記錄和總結，也是更系統的捋一遍數倉。文章會分為三個部分：第一部分：介紹什麼是資料倉庫第二部分：如何設計資料倉庫

資料倉庫入倉問題：mysql獲取資料存在"UTF8": 0x00問題的轉換

1、 invalid byte sequence for encoding “UTF8”: 0x00 要使用如下方案轉換欄位 replace(ifnull(first_name,null),char(‘0x00’),null) as first_name, 2、寫入到csv時，無法寫入完全的

大資料導論（4）——OLTP與OLAP、資料庫與資料倉庫

公司內部的資料自下而上流動，同時完成資料到資訊、知識、洞察的轉化過程。而企業內部資料，從日常OLTP流程中產生，實時儲存進不同的資料庫中。同時定期被提取、經格式轉化、清洗和載入（ETL），以統一的格式儲存進資料倉庫，以供決策者進行OLAP處理，並將處理結果視覺化。 OLTP & OLAP 企業

【資料倉庫】2.維度建模

0x00 前言前一篇已經對常用的幾種資料模型做了簡單的介紹，本篇主要對其中最常用的維度建模做一個深入的理解。 0x01 什麼是維度建模維度模型是資料倉庫領域另一位大師 Ralph Kimball 所倡導，他的《The DataWarehouse Toolkit-The Complet

【資料倉庫】1.資料模型

0x00 前言翻出來之前零零散散寫的資料倉庫的內容，重新修正整理成一個系列，此為第一篇《資料模型》。資料倉庫包含的內容很多，比如系統架構、建模和方法論。對應到具體工作中的話，它可以包含下面的這些內容：以Hadoop、Spark、Hive等元件為中心的資料架構體系

Hive資料倉庫工具安裝

一.Hive介紹 Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單SQL查詢功能，SQL語句轉換為MapReduce任務進行執行。優點是可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合資料倉庫的統計分

（轉載）一文搞定資料倉庫之拉鍊表，流水錶，全量表，增量表

轉載自：https://blog.csdn.net/mtj66/article/details/78019370 全量表：每天的所有的最新狀態的資料，增量表：每天的新增資料，增量資料是上次匯出之後的新資料。拉鍊表：維護歷史狀態，以及最新狀態資料的一種

【資料倉庫】6. ETL 的設計

0x00 前言資料倉庫體系裡面的主要內容也寫的差不多了，現在補一點之前遺漏的點。這一篇就來聊一下 ETL。文章結構先聊一下什麼是 ETL。聊一下大致的概念和一般意義上的理解。聊一聊資料流是什麼樣子。因為 ETL 的工作主要會體現在一條條的資料處理流上，因此這裡做一個

資料倉庫研究之二--mondrian入門

原文：http://blog.csdn.net/infowain/archive/2006/06/24/829074.aspx 以前一直是用MS Anylize Service的，最近要做的專案是java的，小專案預算有限，所以想找一個開源的java的資料倉庫解決方案來用用。

資料倉庫學習筆記 --- 對於資料倉庫開發者的建議

1.理解資料倉庫和資料平臺的區別當你開始建設資料倉庫之前，需要明白資料倉庫和資料平臺是兩個不同的概念，不要把搭建一套 Hadoop + Hive 的平臺叫資料倉庫，這是資料平臺的範疇。我們常說的資料倉庫不僅僅是指資料接入、資料儲存和資料計算，它也要包括資料治理、資料建模和

深度|從資料倉庫到資料湖——淺談資料架構演進

轉載自https://mp.weixin.qq.com/s/321mkZsuxqXOme5hw_83mQ 網管產品需要從資料倉庫的角度來看，才能獲得完整的檢視。資料整合真正從大資料的角度來看，才能明白其中的挑戰。一個運行了20多年的資料架構，必然有其合理性。也正是因為年代久遠，存量過多，才導致舉

資料倉庫為什麼要分層

相關推薦