大資料-資料倉庫-實時數倉架構分析

阿新 • • 發佈：2022-12-07

數倉分層

分層	全稱	譯名	說明	壓縮	列式儲存	分割槽
ODS	Operation Data Store	原始層	原始資料	✅	❌	✅
DIM	Dimension	維度層	合併維度表	✅	✅	✅
DWD	Data Warehouse Detail	明細層	資料處理、維度建模	✅	✅	✅
DWS	Data Warehouse Service	服務層	去主鍵聚合，得到原子指標	✅	✅	✅
DWT	Data Warehouse Topic	主題層	存放主題物件的累積行為	✅	✅	✅
ADS	Application Data Store	應用層	具體業務指標	❌	❌	❌

ODS：原始資料，日誌和業務資料放到 Kafka
DWD：根據資料物件為單位進行分流，比如訂單、頁面訪問等等
DIM：維度資料
DWM：對於部分資料物件進行進一步加工，比如獨立訪問、跳出行為，也可以和維度進行關聯，形成寬表，依舊是明細資料。
DWS：根據某個主題將多個事實資料輕度聚合，形成主題寬表。
ADS：把ClickHouse中的資料根據視覺化需進行篩選聚合

命名規範

庫名：業務大類
表名：分層名_業務細類
臨時表：temp_表名
備份表：bak_表名
檢視：view_表名（場景：不共享的維度表、即席查詢）

分層	命名規範	說明	例
ODS	ods+源型別+源表名+full/i	full：全量同步 i：增量同步	ods_postgresql_sku_full ods_mysql_order_detail_i ods_frontend_log
DIM	dim+維度+full/zip	full：全量表 zip：拉鍊表日期維度表沒有後綴	dim_sku_full dim_user_zip dim_date
DWD	dwd+事實+full/i	full：全量事實 i：增量事實
DWS	dws+原子指標	時間粒度有1d、1h… 1d：按1天 1h：按1小時	dws_page_visitor_1d
DWT			dwt_消費者畫像
ADS	ads+衍生指標/派生指標

離線數倉：事實表，維度表，都放Hive
實時數倉：原始資料放 Kafka，維度資料放 HBase，Phoenix

離線計算：就是在計算開始前已知所有輸入資料，輸入資料不會產生變化，一般計算量級較大，計算時間也較長。例如今天早上一點，把昨天累積的日誌，計算出所需結果。最經典的就是 Hadoop 的 MapReduce 方式；
一般是根據前一日的資料生成報表，雖然統計指標、報表繁多，但是對時效性不敏感。從技術操作的角度，這部分屬於批處理的操作。即根據確定範圍的資料一次性計算。
實時計算：輸入資料是可以以序列化的方式一個個輸入並進行處理的，也就是說在開始的時候並不需要知道所有的輸入資料。與離線計算相比，執行時間短，計算量級相對較小。強調計算過程的時間要短，即所查當下給出結果。
主要側重於對當日資料的實時監控，通常業務邏輯相對離線需求簡單一下，統計指標也少一些，但是更注重資料的時效性，以及使用者的互動性。從技術操作的角度，這部分屬於流處理的操作。根據資料來源源不斷地到達進行實時的運算。
即席查詢：需求的臨時性，小李，把兩星期的資料拉給我看下（只在這個時刻需要）
Presto: 當場計算（基於記憶體速度快）
Kylin:預計算（提前算好），多維分析（Hive With Cube)

Sqoop 匯入資料方式:

增量： where 1=1、
全量： where 建立時間=當天、
新增及變化：where 建立時間=當天 or 操作時間=當天、
特殊（只匯入一次）
Flume:
tailDirSource
優點：斷點續傳，監控多目錄多檔案
缺點：當檔案更名之後，重新讀取該檔案造成資料重複
注意：1. 要使用不更名的列印日誌框架（logback)--一般logback 也會設定成更名的，每天一個日誌檔案，檔名帶上日期，如果寫死檔名，更名後可能會丟資料
2.修改原始碼，讓TailDirSource判斷檔案時，只看 iNode 值
KafkaChannel
優點：將資料匯入Kafka，省了一層Sink
Kafka：生產者、消費者
用法：1. Source-KafkaChannel-Sink
2. Source-KafkaChannel
3. KafkaChannel-Sink

邏輯線：資料流、監控、優化、配置。

Kafka

Producer:ACK、攔截器、序列化器、分割槽器、傳送流程、事務、冪等性，分割槽規則-->有指定分割槽發到指定分割槽，沒有根據Key進行hash,都沒有進行輪詢（粘性）
Broker: Topic 副本-> 高可用 ISR LEO、HW ；分割槽：高併發、負載均衡（防止熱點）
Consumer：分割槽分配規則 offset 儲存（預設：_consumer_offsets 主題、其它：手動維護Offerset(MySQL)帶事務，精準一次消費

分層的好處

複雜問題拆解為多層
減少重複開發（可以去中間層取數，不用每次都去原始層）
隔離原始資料，例如：異常資料、敏感資料（使用者電話…）

資料儲存策略

原始層保持資料原貌，不進行脫敏和清洗
建立分割槽表（例如：日期分割槽），防止全表掃描
資料壓縮，減少磁碟佔用（如：LZO、gzip、snappy）
列式儲存提高查詢效率（如：Parquet、ORC）

離線架構：追求系統的穩定性、考慮到公司未來的發展，資料量一定會變得很大、早期的時間實時業務使用 SparkStreaming(微批次)

優點：耦合性低、穩定性高
缺點：時效性差

實時架構：Kafka叢集高可用，資料量小，所有機器存在同一個機房，傳輸沒有問題，

優點：時效性好 Flink
缺點：耦合性高，穩定性低

大資料-資料倉庫-實時數倉架構分析

數倉分層分層全稱譯名說明壓縮列式儲存分割槽 ODS Operation Data Store 原始層原始資料

Filnk實時數倉（資料採集）

第1章電商實時數倉介紹 1.1普通實時計算與實時數倉比較　　普通的實時計算優先考慮時效性，所以從資料來源採集經過實時計算直接得到結果。如此做時效性更好，但是弊端是由於計算過程中的中間結果沒有沉澱下來，所以

【實時數倉】Day06-資料視覺化介面：

一、資料視覺化介面介紹 1、設計思路後把輕度聚合的結果儲存到 ClickHouse 中後，提供即時的查詢、統計、分析

基於 Flink 的實時數倉生產實踐

資料倉庫的建設是“資料智慧”必不可少的一環，也是大規模資料應用中必然面臨的挑戰。在智慧商業中，資料的結果代表了使用者反饋、獲取資料的及時性尤為重要。快速獲取資料反饋能夠幫助公司更快地做出決策，更好地進

專案實戰從0到1之離線和實時數倉體系（29）

一什麼是資料倉庫 1.1資料倉庫概念資料倉庫，英文名稱為Data Warehouse，可簡寫為DW或DWH。資料倉庫，是為企業所有級別的決策制定過程，提供所有型別資料支援的戰略集合。它出於分析性報告和決策支援目的而建

實時數倉、基於Flink1.11的SQL構建實時數倉之搭建hadoop HA叢集

目錄 hadoop3.2.1 叢集安裝一：準備環境： 1.配置Java環境 [root@m1 ~]# java -version java version \"1.8.0_261\" Java(TM) SE Runtime Environment (build 1.8.0_261-b12) Java

實時數倉入門訓練營：實時計算 Flink 版 SQL 實踐

簡介：《實時數倉入門訓練營》由阿里雲研究員王峰、阿里雲資深技術專家金曉軍、阿里雲高階產品專家劉一鳴等實時計算 Flink 版和 Hologres 的多名技術/產品一線專家齊上陣，合力搭建此次訓練營的課程體系，精心打磨課

基於Flink構建全場景實時數倉

目錄：一. 實時計算初期二. 實時數倉建設三. Lambda架構的實時數倉四. Kappa架構的實時數倉

實時數倉系統構建

背景介紹當前的資料報表服務採用定時離計算的方式構建數倉，但隨著業務對實時性的要求變高，需要實現一套實時入庫方案。

美團外賣實時數倉建設實踐

本文主要介紹一種通用的實時數倉構建的方法與實踐。實時數倉以端到端低延遲、SQL標準化、快速響應變化、資料統一為目標。美團外賣資料智慧組總結的最佳實踐是：一個通用的實時生產平臺跟一個通用互動式實時分析引擎

美團點評基於 Flink 的實時數倉建設實踐

引言近些年，企業對資料服務實時化服務需求日益增多。本文整理了常見實時資料元件的效能特點和適用場景，介紹了美團如何通過 Flink 引擎構建實時資料倉庫，從而提供高效、穩健的實時資料服務。此前我們美團技術部落

基於 EMR OLAP 的開源實時數倉解決方案之 ClickHouse 事務實現

簡介：阿里雲 EMR OLAP 與 Flink 團隊深度合作，支援了 Flink 到 ClickHouse 的 Exactly-Once寫入來保證整個實時數倉資料的準確性。本文介紹了基於 EMR OLAP 的開源實時數倉解決方案。

技術揭祕：從雙11看實時數倉Hologres高可用設計與實踐

簡介：本文將會從阿里巴巴雙11場景出發，分析實時數倉面臨的高可用挑戰以及針對性設計。

實時數倉Hologres首次走進阿里淘特雙11

簡介：這是淘特在阿里巴巴參與的第二個雙11大促，大促期間累計超過上千萬消費者在此買到心儀的商品，數百萬家商家因為淘特而變得不同，未來，淘特也將會繼續更好的服務於下沉市場，讓惠民走近千萬家。

【實時數倉】Day04-DWS層業務實現：

一、DWS層與DWM設計 1、思路之前已經進行分流但只需要一些指標進行實時計算，將這些指標以主題寬表的形式輸出

【實時數倉】Day05-ClickHouse

一、ClickHouse入門 1、介紹是一個開源的列式儲存資料庫（DBMS）使用C++編寫用於線上分析查詢（OLAP）

5個網際網路大廠實時數倉建設例項，例例皆經典

一、實時數倉建設背景 1. 實時需求日趨迫切目前各大公司的產品需求和內部決策對於資料實時性的要求越來越迫切，需要實時數倉的能力來賦能。傳統離線數倉的資料時效性是 T+1，排程頻率以天為單位，無法支撐實時場景的

美團外賣實時數倉方案整理

實時數倉以端到端低延遲、SQL標準化、快速響應變化、資料統一為目標。美團外賣資料智慧組總結的最佳實踐是：一個通用的實時生產平臺跟一個通用互動式實時分析引擎相互配合，同時滿足實時和準實時業務場景。兩者合理分

離線+實時數倉建設方案

大綱一、數倉基本概念 1、資料倉庫架構我們在談數倉之前，為了讓大家有直觀的認識，先來談數倉架構，“架構”是什麼？這個問題從來就沒有一個準確的答案。這裡我們引用一段話：在軟體行業，一種被普

大資料倉庫Hive原理與架構

前面講到，MapReduce計算模型可以解決絕大多數的資料分析與資料探勘任務，那麼對於如下我們常見的一條SQL分析語句，MapReduce如何程式設計實現？

大資料-資料倉庫-實時數倉架構分析

數倉分層

命名規範

相關推薦