1. 程式人生 > >Hadoop 3.0版本測試,終將計算與儲存解耦!

Hadoop 3.0版本測試,終將計算與儲存解耦!

傳統的hadoop架構是建立在相信通過大規模分散式資料處理獲得良好效能的唯一途徑是將計算帶入資料。在本世紀初,這確實是事實。當時,典型的企業資料中心的網路基礎架構不能完成在伺服器之間移動大量資料的任務,資料必須與計算機共存。

現在,企業資料中心的網路基礎設施以及公有云提供商的網路基礎設施不再是大資料計算的瓶頸,是時候將Hadoop的計算與儲存解耦。不少行業分析師也認識到了這一點,正如最近IDC關於分離大資料部署計算和儲存的報告中指出:

  “解耦計算和儲存在大資料部署中被證明是有用的,它提供了更高的資源利用率,更高的靈活性和更低的成本。” - Ritu Jyoti,IDC

  2018年,關於大資料基礎設施的討論不再圍繞使用高質量的資料佈局演算法減少網路流量的方法展開。相反,現在有更多關於如何可靠地降低分散式儲存成本的討論。


  Hadoop開源社群最近引入了Apache Hadoop版本3.0,即便被Gartner連續唱衰,但Hadoop釋出的3.0版本還是有不少值得注意的改進。這一版本的釋出也將計算和儲存解耦的討論推向輿論高峰。Hadoop 3.0的一個關鍵特性是Hadoop分散式檔案系統(HDFS)的Erasure Coding (擦除編碼)。作為歷史悠久的HDFS 3x資料複製的替代方案,在配置相同的情況下,Erasure Coding與傳統3x資料複製相比,可以將HDFS儲存成本降低約50%。

  在過去幾年,Hadoop社群已經討論了Erasure Coding將為HDFS帶來的潛在儲存成本的降低。鑑於過去十年在硬體和網路方面的進步,許多人質疑3x資料複製是否有存在的意義。現在,HDFS Erasure Coding已經從根本改變了Hadoop的儲存經濟性——Hadoop社群也最終承認這一事實:資料不必與計算位於同一位置。

  為了瞭解這個結果有多麼戲劇性,我們可以比較一下2010年雅虎釋出的關於Hadoop擴充套件的效能資料,並將其與HDFS和Erasure Coding進行比較。

  如下的幻燈片上呈現的是DFSIO基準測試,讀取吞吐量為66 MB / s,寫入吞吐量為40 MB / s。Sort基準測試的效能資料是基於非常仔細的調優之後獲得的。曾經,在HDFS中使用3x複製被認為是資料保護和效能提高的強大工具。


  在如下的幻燈片上,同樣基於DFSIO基準,具有3x複製的HDFS讀取吞吐量為1,262MB / s,而對於使用Erasure Coding(6+3 Striping)的HDFS,讀取吞吐量為2,321MB / s。這是30個同步對映器,並沒有提到仔細的應用程式調優!HDFS使用的3x複製現在被視為實現(有限)資料可靠性的陳舊、昂貴和不必要的開銷。


  帶有Erasure Coding(EC)的HDFS利用網路為每個檔案讀寫。這也在間接承認網路不是效能的瓶頸。事實上,HDFS EC的主要效能影響是由於其CPU週期消耗而非網路延遲。 總的來說,這表明儲存成本顯著降低(在這種情況下,可降低6美元/ TB),而不會犧牲效能。

  即便接連被不看好,但Hadoop依舊是大資料領域堅實的底層基礎。隨著新版本被正式推入生產環境,Hadoop生態也開始逐漸壯大,取其精華,去其糟粕,Hadoop生態一直在努力改善表現不佳的元件,並不斷根據新的業務需求進行擴充套件,Hadoop生態或許並不是老了,而是成熟了。

想學習大資料或者想學習大資料的朋友,我整理了一套大資料的學習視訊免費分享給大家,從入門到實戰都有,大家可以加微信:Lxiao_28獲取,還可以入微信群交流!(備註領取資料,真實有效哦)。