資料分析的資料架構知識詳解(三)
資料分析的架構是有很多的,比如傳統的大資料架構、流式架構、lambda架構、Kappa架構、Unifield架構。但是大家對於這些架構都不是很熟悉的,並且各個資料分析的架構都是有很多優點和缺點的,下面就由小編為大家解答一下這個問題。
首先說說傳統大資料架構。我們叫傳統大資料架構,是因為其定位是為了解決傳統BI的問題。簡單來說,資料分析的業務沒有發生任何變化,但是因為資料量、效能等問題導致系統無法正常使用,需要進行升級改造,那麼此類架構便是為了解決這個問題。可以看到,其依然保留了ETL的動作,將資料經過ETL動作進入資料儲存。傳統的大資料架構的優點是簡單、易懂,對於BI系統來說,基本思想沒有發生變化,變化的僅僅是技術選型,用大資料架構替換掉BI的元件。缺點就是對於大資料來說,沒有完整的架構,因此對業務支撐的靈活度不夠,所以對於存在大量報表或複雜鑽取的場景,需要太多的手工定製化,同時該架構依舊以批處理為主,缺乏實時的支撐。這種架構適用於資料分析需求依舊以BI場景為主,但是因為資料量、效能等問題無法滿足日常使用。
然後說說流式架構。在傳統大資料架構的基礎上,流式架構非常激進,直接拔掉了批處理,資料全程以流的形式處理,所以在資料接入端沒有了ETL,轉而替換為資料通道。經過流處理加工後的資料,以訊息的形式直接推送給了消費者。雖然有一個儲存部分,但是該儲存更多以視窗的形式進行儲存,所以該儲存並非發生在資料湖,而是在外圍系統。這種架構的優點就是沒有臃腫的ETL過程,資料的實效性非常高。缺點就是對於流式架構來說,不存在批處理,因此對於資料的重播和歷史統計無法很好的支撐。對於離線分析僅僅支撐視窗之內的分析。
最後給大家說說Lambda架構。Lambda架構算是大資料系統裡面舉足輕重的架構,大多數架構基本都是Lambda架構或者基於其變種的架構。Lambda的資料通道分為兩條分支:實時流和離線。實時流依照流式架構,保障了其實時性。而離線則以批處理方式為主,保障了最終一致性。這個架構的優點就是既有實時又有離線,對於資料分析場景涵蓋的非常到位。缺點就是離線層和實時流雖然面臨的場景不相同,但是其內部處理的邏輯卻是相同,因此有大量冗餘和重複的模組存在。
通過這篇文章我們不難發現數據分析行業的知識是比較高深的,由於篇幅原因小編就給大家介紹到這裡了,我們會在後面的文章中給大家介紹剩下的Kappa架構、Unifield架構,希望這篇文章能夠給大家帶來幫助。