大資料分析為什麼會把資料分層
阿新 • • 發佈:2021-01-13
原因
1.處理的資料基本都是以T為單位的,資料量比較大,如果不分層會對處理資料造成很大的困難程度。
2.將複雜的任務分解成多層來完成,每一層只處理簡單的任務,方便定位問題。
3.規範資料分層,通過的中間層資料,能夠減少極大的重複計算,增加一次計算的複用性。
4.不論是資料的異常還是資料的敏感性,其真實的資料與統計資料解耦開,把我們想要的資料從複雜的資料集中解析出。
分層標準
對於普通的資料分層大致只有五層:ODS,DWD,DWS,DWT,ADS。
- ods(原始資料層):從hdfs取資料,ods存放原始資料,載入原始日誌以及資料,不對資料進行任何操作.
- dwd(資料明細層):對ods層來的資料進行清洗(去除空值,髒資料,超過範圍的資料)、維度退化、脫敏等。在這一層需要進行維度建模,一般採用星型模型,太會太去實現3FN,在hadoop體系中多次的驚醒jion會降低速率,粒度是一行資訊代表一次行為(需要按照自己的需求來決定粒度的大小)。
選擇業務過程→宣告粒度→確認維度→確認事實
- dws(資料服務層):以dwd層來的資料為基礎,按照粒度需求進行輕度彙總。
- dwt(資料主題層):以dws層的資料為基礎,按照主題進行彙總。主要是進行資料總體的總結匯總,比如dws層的資料是按照天來計算,那麼dwt層的資料就是按照月或者年來計算總結。
- ads(資料服務層):為各種資料報表提供資料。會將ads層的資料傳到mysql,方便superset視覺化報表的使用