1. 程式人生 > >資料分析的資料架構知識詳解(二)

資料分析的資料架構知識詳解(二)

我們在前面的文章中提到了BI系統,從文章中我們不難發現BI系統處理資料的時候都是很有效的,但是當資料量過大的時候,我們系統的效能就會弱了很多。當然了,如果我們處理的資料在TB或者TB以上的資料量的時候,這個系統根本就不能夠正常執行,所以,我們就需要解決這個問題。

大家都知道資料庫的規則是有很多的,資料庫的規則,能夠解決資料冗餘的問題,是為了保障資料的一致性。但是對於資料倉庫來說,我們並不需要對資料做修改和一致性的保障,原則上來說,資料倉庫的原始資料都是隻讀的,所以這些約束反而會成為影響效能的因素。

在一系列的問題下,大資料分析平臺逐漸表現出優異性,生態圈也不斷變大,但是從根本上解決了傳統資料倉庫瓶頸的問題,但是也帶來一系列的新問題:就是從資料倉庫升級到大資料架構,是不具備平滑演進的,基本等於推翻重做。而大資料下的分散式儲存強調資料的只讀性質,所以儲存方式都不支援update,HDFS的write操作也不支援並行,這些特性導致其具有一定的侷限性。基於大資料架構的資料分析平臺側重於從以下幾個維度去解決傳統資料倉庫做資料分析面臨的瓶頸。我們可以通過幾種方式解決這個問題,比如分散式計算、分散式儲存、檢索和儲存的結合。

現在就給大家說一下分散式計算。分散式計算的思路是讓多個節點平行計算,並且強調資料本地性,儘可能的減少資料的傳輸,這樣就能夠來減少資料的傳輸。

然後就給大家說一下檢索和儲存的結合。在早期的大資料元件中,儲存和計算相對比較單一,但是目前更多的方向是在儲存上做更多的手腳,讓查詢和計算更加高效,對於計算來說高效不外乎就是查詢資料快、讀取資料快,所以目前的儲存不單單的儲存資料內容,同時會新增很多元資訊,例如索引資訊。

最後分散式儲存。所謂的分散式儲存,指的是將一個大檔案拆成N份,每一份獨立的放到一臺機器上,這裡就涉及到檔案的副本、分片以及管理等操作,分散式儲存主要優化的動作都在這一塊。

想必大家看到了這篇文章的具體內容了吧,大家在進行資料分析的時候還是需要做好知識的儲存,希望這篇文章能夠給大家帶來幫助,如果您喜歡我們的文章,那麼快快關注我們吧。