(原創)大資料 數倉基本概念梳理
一、大資料的基本概念
其實到目前為止對於大資料的資料量的多少還是一個可變定義,主觀定義,即並不是要大於一個特定資料的TB,才叫大資料,包括在做的專案中,有的客戶因場景需求即使幾TB的資料仍然需要建立大資料體系來提供價值。所以這就體現了資料的屬性,如行業屬性,歷史屬性,價值屬性等等。
二、大資料的結構
大資料簡單來說一般可分為3層結構
1, 資料採集層
2, 資料計算層
3, 資料應用層
每三層又可細分為若干個動作
1.資料採集層可分為:
資料來源層(掌握資料的來源如日誌,資料庫,圖片等等)
資料傳輸層(負責資料的傳輸,抽取等當前主流的框架有flume等)
資料儲存層(將資料儲存在檔案資料庫或HBase等)
2.資料計算層可分為:
資源管理層(提升叢集利用率、資源統一管理和資料共享,主流工具有YARN等等)
資料分析層(解決海量資料的離線或實時運算,主流框架有MapReduce離線計算,Storm離線計算)
任務排程層(一個能把多個MR作業組合為一個邏輯工作單元(一個工作流),從而自動完成任務呼叫的工具)
2.資料應用層可分為:
為多種大資料應用直接提供資料來源
(只是找了些主流的元件,可根據不同業務場景替換)
三、資料倉庫
1、資料倉庫是什麼?
資料倉庫是大資料的底座,這裡是指除了物理伺服器之外的資料底座。
資料倉庫是一個面向主題的,整合的,相對穩定的,反應歷史的資料集合,
2、資料倉庫的價值及意義:
一,支援管理決策,面向分析型資料處理,不同於企業現有的交易型,操作型資料庫
二,資料倉庫是對多個異構資料來源的有效整合,並按照主題進行重組
三,資料倉庫是把資訊及時交給所需要的這些資訊的使用者,使之作出改善其業務經營決策,發揮意義和價值,資訊重組是資料倉庫的根本任務
四、資料倉庫分層(五層):
ODS:原始資料層-直接存放原資料,不做任何處理,如日誌,操作記錄,事件記錄等
DWD:明細資料層-對原始資料進行清洗如(去空,超過極限的資料,脫敏等)
DWS :資料服務層-以資料明細層為基礎,按天進行輕度彙總(每天的資料量,銷售量等)
DWT:主題資料層 以DWS資料服務層為基礎,按主題進行彙總,獲得每個主題的全量資料表
ADS:(專題庫)資料應用層面向實際的資料需求,為各種統計表報提供資料
五、構建(建模)思想:
1,原始資料層-備份-追溯-分割槽,壓縮
2,資料明細層-構建維度模型(星形模型)
3,服務資料層-服務於主題資料層(DWT)的主題寬表,該表字段是站在不同的視角去看事實表
4,主題層(主題寬表) 站在維度表的角度去看事實表,重點關注事實表度量的累計值。首次時間,末次時間如(首次下單時間,末次下單時間,累計下單金額,累計下單量等等)
5,資料應用層-對個主題的指標分析,提取
!!!