運營商在VMware vSphere、vSAN上執行Hadoop的案例剖析
【編者 Peter Ye 按】
2018-01-22在微信公眾號“樂生活與愛IT”上,發表《vSAN支援大資料應用嗎?》後,收到了一些朋友和同事的,非常好的提問或反饋。
今天這篇文章《運營商在VMware vSAN上執行大資料應用的案例》可以視為對上一篇文章的迴應。VMware不僅支援,而且還有幾個國內的案例。
一、提問和答案
例如:Hadoop預設的3副本是否可以在vSAN場景中降到2,以提高容量呢? 我簡單查了一下資料,並諮詢了一位Hadoop領域的技術大拿。問答如下:
問:Hadoop的HDFS可以通過修改dfs.replication將預設值3,改為2或者1,或者其它值,對嗎?
答:可以的,這個是修改全域性的,也可以建立檔案的時候指定。
問:實際使用中,有沒有改成2或者1的? 什麼場景改成1,或改成2?
答:這個看使用者需求,如果是一些日誌型資料不太重要的,可以設成1或者2,如果是存企業裡一些歷史資料的,預設都用3。
新的HDFS版本,有糾錯碼技術,可以明顯降低空間的浪費
https://www.edureka.co/blog/hadoop-3/#ErasureEncoding
---
我個人覺得,如果使用者為了標準化購買和方便運維和管理,將HDFS執行在vSAN上。由於當前vSAN版本尚未支援vmdk和Hadoop的虛機鎖定在同一物理伺服器的前提下,為了提高儲存利用率,也可以考慮將HDFS的預設副本數3減小。但這個需要使用者仔細評估和平衡,因為這可能會影響效能。
二、大資料應用執行在VMwarevSAN上的案例
且不論國外,在國內也已經有些使用者了。
1)有一個控股集團,將其電商大資料平臺,以及某行業平臺的資料分析,執行在Hadoop on vSAN上;
2)有一個電信運營商,將某信令檢測系統,執行在Hadoop on vSAN上;
3)還有一些政府使用者,正在規劃將某些應用執行在Hadoop on vSAN上;
……
4)本文正文要分享的是另一個電信運營商的案例。
需要再次提醒的是,Hadoop不是大資料的全部。當我們考慮大資料應用是否適合執行在vSAN上的時候,應該知道除了Hadoop之外,還有其他許多應用也被歸在大資料專案裡;即使是Hadoop,除了HDFS之外,還有MapReduce等其他元件,他們執行在vSAN上,也是不錯的。即使是HDFS,雖然利用率和效能都會有所減損,但仍有少量使用者希望做到:標準化購買和運維,並利用虛擬化資源池實現彈性伸縮
下面分享我的同事---程恆在電信行業做得很漂亮的一個案例,可以視為Hadoop on vSAN上的很好的實踐。
---Begin---
圖一:採用超融合vSAN資源池後:
1、儲存資源和服務交付更快更靈活
2、業務儲存需求變更更快,實時生效
3、降低IT架構複雜度,實施、配置和管理更加簡單
4、儲存與計算基礎架構融合共享,資源利用率更高
5、儲存與計算基礎架構融合共享,減少硬體採購成本,節約機房空間、節能減排
圖二:使用者的業務需求 - 物聯網Hadoop虛機
圖三:採用裸伺服器部署大資料業務,每個物理伺服器只能部署一個Hadoop節點,加上業務負載具有波動性,導致物理伺服器的資源利用率不高,且節點擴容不夠快速靈活,虛擬化之後計算、網路和儲存資源整合,單個物理伺服器上可以部署更多的Hadoop節點,提高了業務分析速度和物理伺服器資源利用率,採用虛擬機器方式擴容節點更加快速和靈活。另外虛擬化後可以在資源池裡為不同租戶不同業務部署Hadoop大資料業務,共享基礎架構資源。
圖四:資源共享和靈活排程
圖五:虛擬化後提高了所有節點的可用性,當物理伺服器發生故障宕機後,vSphereHA可以其他物理伺服器上快速恢復Hadoop節點,採用容錯技術可以為Namenode節點提供7*24小時的無中斷保護。
圖六:物理伺服器配置:HP DL380 G7,CPU: 2x X5687 Memory: 72GB or 96GB Disk: 16x SAS 146GB NIC: Broadcom 10GbE
Native:在裸伺服器上部署1個Hadoop節點
1VM:Hadoop虛擬化後,每臺物理伺服器上執行1個Hadoop虛擬機器資料節點
2VM:Hadoop虛擬化後,每臺物理伺服器上執行2個Hadoop虛擬機器資料節點
4VM:Hadoop虛擬化後,每臺物理伺服器上執行4個Hadoop虛擬機器資料節點
TeraGen:資料生成耗時,100%寫
TeraSort:資料排序耗時,40%讀,60%寫
TeraValidate:資料校驗耗時,100%讀
從測試結果來看,即使是將物理伺服器虛擬化,在每臺物理伺服器上部署1個虛擬資料節點,該業務的重要參考指標TeraGen耗時相比裸伺服器增加了不到6%,部署2個或4個虛擬資料節點情況下只增加了約4%和2.5%。
圖七:所有虛擬機器的作業系統盤和非Datanode虛擬機器的資料盤都放在vSAN共享儲存中,為所有節點提供高可用性保護和差異化的資料儲存服務,便於遷移和故障恢復。Datanode的資料盤直接採用伺服器的3塊6TB本地盤。
在上面這張圖七中,其實還分享了Hadoop部署在vSphere上的最佳實踐。通過將DataNode的資料盤直接部署在物理伺服器的本地物理盤上,較好的規避了《vSAN支援大資料應用嗎?》提到的儲存利用率僅有六分之一,且IO延遲較長的問題。示意圖如下所示:
相關的VMware白皮書是《Virtualized Hadoop Performance with VMware vSphere 6 on High-Performance Servers》,詳細地介紹了Hadoop執行在vSphere上最佳實踐。感興趣的朋友可以前去軟體定義儲存討論群的QQ群:122295009 下載。
圖八:Datanode、NameNode和業務虛機的分佈
圖九:Hadoop虛機在vSAN叢集上擴容方便
圖十:管理網路、vSAN網路和業務網路物理上隔離。
管理網路採用標準虛擬交換機,業務和vSAN採用2個獨立的分散式虛擬交換機,Hadoop業務與vSAN共享虛擬交換機和一對萬兆上行鏈路,上行鏈路互為主備,當某條鏈路發生中斷時,另外一條鏈路會同時承載vSAN流量和Hadoop業務流量。
VLAN劃分:
1、1個管理網VLAN
2、1個Hadoop業務VLAN
3、1個vSAN網路VLAN
4、若干個其他業務VLAN
---End---
想要了解更多vSAN,可以開啟如下連結:
歡迎您通過掃描關注微信公眾號:“樂生活與愛IT”。
關注後,可以通過點選左下角的“文章目錄”,通過輸入三位數(記住!是三位數,目前第一位是0或者1)詳細瞭解如何檢視歷史文章。
點選左下角“閱讀原文”,可以看到上一篇文章《vSAN支援大資料應用嗎?》