1. 程式人生 > 其它 >(原創)大資料 數倉基本概念梳理

(原創)大資料 數倉基本概念梳理

一、大資料的基本概念

  其實到目前為止對於大資料的資料量的多少還是一個可變定義,主觀定義,即並不是要大於一個特定資料的TB,才叫大資料,包括在做的專案中,有的客戶因場景需求即使幾TB的資料仍然需要建立大資料體系來提供價值。所以這就體現了資料的屬性,如行業屬性,歷史屬性,價值屬性等等。

二、大資料的結構

大資料簡單來說一般可分為3層結構

1, 資料採集層

2, 資料計算層

3, 資料應用層

每三層又可細分為若干個動作

1.資料採集層可分為:

  資料來源層(掌握資料的來源如日誌,資料庫,圖片等等)

  資料傳輸層(負責資料的傳輸,抽取等當前主流的框架有flume等)

  資料儲存層(將資料儲存在檔案資料庫或HBase等)

2.資料計算層可分為:

  資源管理層(提升叢集利用率、資源統一管理和資料共享,主流工具有YARN等等)

  資料分析層(解決海量資料的離線或實時運算,主流框架有MapReduce離線計算,Storm離線計算)

  任務排程層(一個能把多個MR作業組合為一個邏輯工作單元(一個工作流),從而自動完成任務呼叫的工具)

2.資料應用層可分為:

  為多種大資料應用直接提供資料來源  

(只是找了些主流的元件,可根據不同業務場景替換)

三、資料倉庫

1、資料倉庫是什麼?

  資料倉庫是大資料的底座,這裡是指除了物理伺服器之外的資料底座。

  資料倉庫是一個面向主題的,整合的,相對穩定的,反應歷史的資料集合,

2、資料倉庫的價值及意義:

一,支援管理決策,面向分析型資料處理,不同於企業現有的交易型,操作型資料庫

二,資料倉庫是對多個異構資料來源的有效整合,並按照主題進行重組

三,資料倉庫是把資訊及時交給所需要的這些資訊的使用者,使之作出改善其業務經營決策,發揮意義和價值,資訊重組是資料倉庫的根本任務

四、資料倉庫分層(五層):

ODS:原始資料層-直接存放原資料,不做任何處理,如日誌,操作記錄,事件記錄等

DWD:明細資料層-對原始資料進行清洗如(去空,超過極限的資料,脫敏等)

DWS :資料服務層-以資料明細層為基礎,按天進行輕度彙總(每天的資料量,銷售量等)

DWT:主題資料層 以DWS資料服務層為基礎,按主題進行彙總,獲得每個主題的全量資料表

ADS:(專題庫)資料應用層面向實際的資料需求,為各種統計表報提供資料

五、構建(建模)思想:

1,原始資料層-備份-追溯-分割槽,壓縮

2,資料明細層-構建維度模型(星形模型)

3,服務資料層-服務於主題資料層(DWT)的主題寬表,該表字段是站在不同的視角去看事實表

4,主題層(主題寬表) 站在維度表的角度去看事實表,重點關注事實表度量的累計值。首次時間,末次時間如(首次下單時間,末次下單時間,累計下單金額,累計下單量等等)

5,資料應用層-對個主題的指標分析,提取

!!!