1. 程式人生 > >運營商在VMware vSphere、vSAN上執行Hadoop的案例剖析

運營商在VMware vSphere、vSAN上執行Hadoop的案例剖析

【編者 Peter Ye 按】

2018-01-22在微信公眾號“樂生活與愛IT”上,發表《vSAN支援大資料應用嗎?》後,收到了一些朋友和同事的,非常好的提問或反饋。

今天這篇文章《運營商在VMware vSAN上執行大資料應用的案例》可以視為對上一篇文章的迴應。VMware不僅支援,而且還有幾個國內的案例。

一、提問和答案

例如:Hadoop預設的3副本是否可以在vSAN場景中降到2,以提高容量呢? 我簡單查了一下資料,並諮詢了一位Hadoop領域的技術大拿。問答如下:

問:Hadoop的HDFS可以通過修改dfs.replication將預設值3,改為2或者1,或者其它值,對嗎?

答:可以的,這個是修改全域性的,也可以建立檔案的時候指定。

問:實際使用中,有沒有改成2或者1的? 什麼場景改成1,或改成2?

答:這個看使用者需求,如果是一些日誌型資料不太重要的,可以設成1或者2,如果是存企業裡一些歷史資料的,預設都用3。

新的HDFS版本,有糾錯碼技術,可以明顯降低空間的浪費

https://www.edureka.co/blog/hadoop-3/#ErasureEncoding 

---

我個人覺得,如果使用者為了標準化購買和方便運維和管理,將HDFS執行在vSAN上。由於當前vSAN版本尚未支援vmdk和Hadoop的虛機鎖定在同一物理伺服器的前提下,為了提高儲存利用率,也可以考慮將HDFS的預設副本數3減小。但這個需要使用者仔細評估和平衡,因為這可能會影響效能。

二、大資料應用執行在VMwarevSAN上的案例

且不論國外,在國內也已經有些使用者了。

1)有一個控股集團,將其電商大資料平臺,以及某行業平臺的資料分析,執行在Hadoop on vSAN上;

2)有一個電信運營商,將某信令檢測系統,執行在Hadoop on vSAN上;

3)還有一些政府使用者,正在規劃將某些應用執行在Hadoop on vSAN上;

……

4)本文正文要分享的是另一個電信運營商的案例。

需要再次提醒的是,Hadoop不是大資料的全部。當我們考慮大資料應用是否適合執行在vSAN上的時候,應該知道除了Hadoop之外,還有其他許多應用也被歸在大資料專案裡;即使是Hadoop,除了HDFS之外,還有MapReduce等其他元件,他們執行在vSAN上,也是不錯的。即使是HDFS,雖然利用率和效能都會有所減損,但仍有少量使用者希望做到:標準化購買和運維,並利用虛擬化資源池實現彈性伸縮

,所以將HDFS也執行在vSAN上。 

下面分享我的同事---程恆在電信行業做得很漂亮的一個案例,可以視為Hadoop on vSAN上的很好的實踐。

---Begin---

圖一:採用超融合vSAN資源池後:

1、儲存資源和服務交付更快更靈活

2、業務儲存需求變更更快,實時生效

3、降低IT架構複雜度,實施、配置和管理更加簡單

4、儲存與計算基礎架構融合共享,資源利用率更高

5、儲存與計算基礎架構融合共享,減少硬體採購成本,節約機房空間、節能減排

640?wx_fmt=png

圖二:使用者的業務需求 - 物聯網Hadoop虛機

640?wx_fmt=png

圖三:採用裸伺服器部署大資料業務,每個物理伺服器只能部署一個Hadoop節點,加上業務負載具有波動性,導致物理伺服器的資源利用率不高,且節點擴容不夠快速靈活,虛擬化之後計算、網路和儲存資源整合,單個物理伺服器上可以部署更多的Hadoop節點,提高了業務分析速度和物理伺服器資源利用率,採用虛擬機器方式擴容節點更加快速和靈活。另外虛擬化後可以在資源池裡為不同租戶不同業務部署Hadoop大資料業務,共享基礎架構資源。

640?wx_fmt=png

圖四:資源共享和靈活排程

640?wx_fmt=png

圖五:虛擬化後提高了所有節點的可用性,當物理伺服器發生故障宕機後,vSphereHA可以其他物理伺服器上快速恢復Hadoop節點,採用容錯技術可以為Namenode節點提供7*24小時的無中斷保護。

640?wx_fmt=png

圖六:物理伺服器配置:HP DL380 G7CPU: 2x X5687 Memory: 72GB or 96GB Disk: 16x SAS 146GB NIC: Broadcom 10GbE

Native:在裸伺服器上部署1Hadoop節點

1VMHadoop虛擬化後,每臺物理伺服器上執行1Hadoop虛擬機器資料節點

2VMHadoop虛擬化後,每臺物理伺服器上執行2Hadoop虛擬機器資料節點

4VMHadoop虛擬化後,每臺物理伺服器上執行4Hadoop虛擬機器資料節點

TeraGen:資料生成耗時,100%

TeraSort:資料排序耗時,40%讀,60%

TeraValidate:資料校驗耗時,100%

從測試結果來看,即使是將物理伺服器虛擬化,在每臺物理伺服器上部署1個虛擬資料節點,該業務的重要參考指標TeraGen耗時相比裸伺服器增加了不到6%,部署2個或4個虛擬資料節點情況下只增加了約4%2.5%

640?wx_fmt=png

圖七:所有虛擬機器的作業系統盤和非Datanode虛擬機器的資料盤都放在vSAN共享儲存中,為所有節點提供高可用性保護和差異化的資料儲存服務,便於遷移和故障恢復。Datanode的資料盤直接採用伺服器的3塊6TB本地盤。

640?wx_fmt=png

在上面這張圖七中,其實還分享了Hadoop部署在vSphere上的最佳實踐。通過將DataNode的資料盤直接部署在物理伺服器的本地物理盤上,較好的規避了《vSAN支援大資料應用嗎?》提到的儲存利用率僅有六分之一,且IO延遲較長的問題。示意圖如下所示:

640?wx_fmt=png

相關的VMware白皮書是《Virtualized Hadoop Performance with VMware vSphere 6 on High-Performance Servers》,詳細地介紹了Hadoop執行在vSphere上最佳實踐。感興趣的朋友可以前去軟體定義儲存討論群的QQ群:122295009 下載

圖八:Datanode、NameNode和業務虛機的分佈

640?wx_fmt=png

圖九:Hadoop虛機在vSAN叢集上擴容方便

640?wx_fmt=png

圖十:管理網路、vSAN網路和業務網路物理上隔離。

管理網路採用標準虛擬交換機,業務和vSAN採用2個獨立的分散式虛擬交換機,Hadoop業務與vSAN共享虛擬交換機和一對萬兆上行鏈路,上行鏈路互為主備,當某條鏈路發生中斷時,另外一條鏈路會同時承載vSAN流量和Hadoop業務流量。

VLAN劃分:

11個管理網VLAN

21Hadoop業務VLAN

31vSAN網路VLAN

4、若干個其他業務VLAN

640?wx_fmt=png

---End---

想要了解更多vSAN,可以開啟如下連結:

歡迎您通過掃描關注微信公眾號:“樂生活與愛IT”。

640?wx_fmt=png

關注後,可以通過點選左下角的文章目錄,通過輸入三位數(記住!是三位數,目前第一位是0或者1)詳細瞭解如何檢視歷史文章。

點選左下角“閱讀原文”,可以看到上一篇文章《vSAN支援大資料應用嗎?》