評估超融合平臺到底需要關注哪些核心問題?
1.超融合平臺整合了哪些 IT 服務?
1) 分散式儲存打破資料孤島
雖說超融合通過軟體定義的方式整合了多個 IT 服務,但其中軟體定義儲存是基石。這裡需要說明一下:池化伺服器的本地儲存,要求軟體定義儲存必須是分散式的,且能被虛擬機器掛在成虛擬卷使用,不加特殊的說明,超融合平臺裡的軟體定義儲存指的是分散式塊儲存。
沒有穩定可靠的分散式塊儲存,就無法對外提供統一的儲存資源抽象,沒有統一的抽象,各個伺服器的本地儲存就是一個個資料孤島,與傳統的單機儲存沒有區別。所以,討論超融合平臺卻不討論分散式塊儲存,而避重就輕的展示平臺 IT 服務的種類,更甚者竟然用支援 IT 種類的多少作為超融合的代數標準,基本可以判定是一種“誤導”,本質是這類廠商不具備超融合與分散式儲存的研發能力。主流核心廠商都無一例外的在分散式塊儲存上有著核心的競爭力和自主研發能力,比如:Nutanix Acropolis Enterprise Storage (內部之前叫 NDFS), VMware VSAN ,SmartX ZBS等 都是對應超融合平臺裡的核心分散式儲存。
2)虛擬化計算同樣不可或缺
虛擬化計算是超融合平臺另一個不可或缺的服務,有了儲存和計算就有了最基本的 IT 基礎架構,很多廠商也會一部分網路服務的功能納入到虛擬化計算。由於 Hypervisor 的技術相對成熟,無論是閉源的 VMware ESXi 還是開源的 KVM,無論功能還是效能都通過了很多年市場驗證。所以虛擬化計算服務在超融合平臺上基本集中在 VMware 產品和 基於 KVM 自研的產品,如:Nutanix 的 AHV(基於 KVM),VMware 的 vSphere(基於 ESXi),SmartX 的 Elf(基於 KVM)等。當然 Nutanix 和 SmartX 也同樣支援 VMware 虛擬化計算平臺,而且藉助其強大的儲存服務,整體超融合平臺的表現甚至還要優於 VMware。
3)一個平臺管理多個IT服務,運維簡化是趨勢
隨著單個伺服器計算能力越來越強,越來越多的 IT 服務其實都可以通過軟體定義的方式來實現,如:災備服務、全快閃記憶體、容器服務、網路服務、安全服務等。
一個平臺上有多個 IT 服務是一種趨勢,伴隨著革命性的變化就是:傳統架構下需要運維管理多個 IT 平臺,在超融合下,一套管理平臺就夠了,這就為從全新的角度審視 IT 運維,提供了極大的想象空間。同時,在超融合架構下實現強大好用的統一管理平臺,其重要性和優先順序也被提升到前所未有的高度。像超融合領導廠商 Nutanix,SmartX 等,在運維管理平臺上都下足了功夫,分別推出了智慧強大的管理平臺:Nutanix Prism 和 SmartX Fisheye,極大的提升系統的易用性。
總結一下就是,超融合平臺裡分散式塊儲存、虛擬化計算和統一運維管理平臺是最小,也是最核心的集合,缺少任何一個都無法稱作超融合平臺。但隨著硬體的發展,更多的服務勢必會在超融合平臺裡實現。
2.這些IT服務是如何實現的?
評測超融合產品,關鍵不是看包含了哪些 IT 服務,向超融合這個“盒子”裡塞更多的 IT 服務遠不如塞進“盒子”IT 服務的質量重要。一些廠商藉助客戶對超融合市場認知的不成熟,會一味的拼超融合平臺上服務和功能的數量。通常的做法就是拿開源的專案,如:“OpenStack + 開源分散式儲存 (Ceph/GlusterFS…)” 搭一個功能看似大而全的“超融合平臺”快速推向市場。可以看到,幾乎沒有使用者最終能夠真正的用起來,原因在於這種拼湊的“超融合”產品往往各個服務元件的質量無法過關,在可靠性,穩定性,效能方面問題多多,加上開源社群基本不在這些 廠商的控制之下,所謂的售後支援形同虛設,很難達到一個產品應該擁有的市場準備度。
1)實現機制是核心
服務的核心在於實現它的技術和機制。舉一個手機電池的例子,為了實現手機長續航的能力,一家廠商簡單的增加電池塊的容量,另一家公司採用的是優化手機軟體的電池管理演算法,即便最後的測試下來都能續航兩天,但第一家手機在續航的實現機制上是不如第二家的,因為增加電池塊會引起手機發燙,並且有電池爆炸的風險,但這些缺陷無法在測試續航時間這個指標裡得以體現。
同樣的道理適用於超融合產品。超融合產品比拼最重要的必然是分散式塊儲存、虛擬化計算、運維管理平臺的實現。
重中之重是軟體定義儲存,它是超融合平臺的基石。當前市場裡各家超融合平臺分散式塊儲存的實現無非是兩個途徑:
自主研發,如:Nutanix NDFS,VMware VSAN,SmartX ZBS,華為 Fusion Storage;
直接採用開源的分散式儲存或在開源基礎上小幅改造,如,Ceph,GlusterFS;
開源最大的好處是產品上市的週期可極大的縮短,最大的風險除了儲存的穩定性沒有保障,還有就是廠商對儲存的控制力和維護能力幾乎沒有,儲存系統不比其它系統,守護著企業最重要的資料,一旦發生問題就會陷入束手無策的失控境地,給企業帶來的損失是慘重而不可估量。
這裡有一個不可忽視的事實,國外知名超融合廠商無一例外的都走了自主研發的道路,也證實了在成熟的市場環境下,使用者會理性的選擇自主可控且有保障的產品。縱觀 IT 發展的歷史,甚至沒有一家儲存公司,使用開源的儲存專案來實現自家的儲存產品,並取得產品和商業的成功。再次驗證了,儲存關乎業務的連續性、資料的可靠性和安全性。沒有一家企業客戶“敢”把自己的業務託付給不可控的儲存產品。
市場上所有的分散式塊儲存架構基本可以收斂到兩種,一種資料放置和分佈依賴元資料服務,另一種資料放置和分佈依賴一致性雜湊。但就分散式塊儲存本身而言,兩種資料架構各有千秋。但在超融合場景上,元資料服務的方式有更多的優勢,資料的放置更靈活可控,如:VM 資料本地化能縮短 I/O 路徑,大大減少網路流量。採用這種架構的產品有 Nutanix NDFS 和 SmartX ZBS。
其次是虛擬化計算,與儲存不同的是,虛擬化的核心技術 Hypervisor 相對成熟。各超融合產品更多比拼的是虛擬化平臺的支援能力。支援多種虛擬化平臺意味著更少的廠商繫結的風險。此外,是否支援虛擬化的特殊介面也是很重要的指標,它直接影響使用體驗和維護支援,比如:VMware VAAI/VVol,Citrix Ready 等。這塊比較優秀的國外廠商是 Nutanix,幾乎支援所有的虛擬化平臺;國內廠商 SmartX、華為支援除 Hyper-v 以外的所有虛擬化平臺;VMware 只支援自家的虛擬化平臺,開源超融合方案一般只支援 KVM。
KVM 作為開源的 Hypervisor 被很多廠商選用,但各家需要實現自己的虛擬化計算管理平臺,除了基本的 VM 生命週期管理,還至少需要實現企業級常用的功能,如:VM HA、、虛擬分散式交換機、共享盤等。
除了儲存和計算,其他 IT 服務或多或少會依賴以上兩類核心服務,比如:容災和備份依賴儲存服務;容器編排依賴計算服務。
2)資源消耗需著重評估
除了服務的實現機制,超融合平臺有一項特殊的要求:資源消耗要儘可能的小。超融合場景下,消耗大量的資源是絕對不能接受的,每個物理伺服器除了執行儲存、計算等多個 IT 服務,還要把剩餘的資源分配留給業務應用,IT 服務佔用資源越大,留給業務應用的資源就越小,甚至擠壓到業務無法執行。資源消耗不僅節省 TCO 的指標,更是影響超融合實用性的重要變數。
以下收集了各廠商分散式塊儲存產品的資源消耗情況。
3. 服務如何進行整合與管理?
1)各有利弊的三類服務整合方式
服務整合廣義是超融合平臺上各服務的結合方式,但業內討論更多的是儲存與虛擬化的整合。大致可以分為三類:
儲存服務作為核心模組執行在 Hypervisor 內部。最典型的代表是 VxRail,儲存服務 VSAN 作為 ESXi/vSphere 核心模組被整合 。這種架構下儲存服務不經過Hypervisor直接訪問儲存裝置,幾乎無效能損耗,理論上本地 I/O 效能可以充分發揮,遺憾的是 VSAN 的實際效能在超融合產品裡並不突出,應該是儲存軟體的優化相比其它廠商還有差距。這種緊耦合架構存在以下風險:
廠商鎖定的風險,如 VMware 超融合平臺虛擬化計算鎖死了 vSphere;
計算和儲存無法獨立升級;
儲存或虛擬化計算服務任何一個發生問題都可能會影響對方的正常工作。
儲存服務運行於 Hypervisor 上獨立的虛擬機器裡,該虛擬機器實際起到虛擬儲存裝置 VSA(Virtual Storage Applicance)的作用,所以也稱為控制虛擬機器(Nutanix 稱 CVM)或者儲存控制虛擬機器(SmartX 稱 SCVM)。VSA 需要通過 Hypervisor 訪問物理硬體資源,一般為了降低效能的開銷,VM 會以直通的方式訪問硬體資源,如:HDD,SSD,網絡卡等。這種架構裡虛擬化與儲存解耦,互不影響,可以獨立升級,甚至 VSA 發生故障不工作,也不會影響該物理節點,通過 I/O 路由的技術,VSA 故障節點上的 VM 會通過其他正常的 VSA 訪問儲存資源。當然,給使用者帶來的最大收益還有消除了 Hypervisor 鎖定的風險,VSA 可以支援多種虛擬化計算平臺。 採用這種整合的產品有 Nutanix,SmartX Halo for VMware。
儲存服務執行在 Hypervisor 外部,但與 Hypervisor 隸屬於同一個軟體棧。這種架構適用於 KVM 超融合平臺。比如,SmartX Halo 超融合平臺自帶的虛擬化平臺 Elf 基於 KVM 實現,分散式塊儲存 ZBS 與 Elf 都在 Halo (SmartX OS) 軟體棧上。這種整合的最大優勢在於:
效能相比 VSA 的方式要好;
儲存或者 Hypervisor 出現故障互不影響。
2)管理與運維好才能發揮出超融合的優勢
由於涉及比傳統平臺更多的 IT 服務,超融合更加強調管理平臺的重要性和易用性。強大好用的管理平臺能大大提升運維效率,降低運維成本,將超融合架構敏捷的特性發揮得淋漓盡致。
超融合廠商產品家的管理平臺一覽:
一個優秀的超融合管理平臺應該涵蓋產品從交付到日常運維的方方面面:
基於 Web 管理 UI 應該是超融合平臺的標配,同時 Web 管理服務也是超融合服務的一種,需要考慮管理控制檯的的高可用;Nutanix Prism 和 SmartX Fisheye 都是分散式的管理平臺,沒有單點故障,相比之下 VMware vCenter 就存在單點故障的風險;
叢集服務管理,包括:儲存,虛擬化,網路等管理;更進一步,由於採用了軟體定義的技術,管理平臺也應該能展示並洞察更細粒度服務,比如:軟體定義儲存裡的分散式元件服務;
基於事件、效能的監控、分析和報警,可以說各家的產品或多或少都在這塊有支援,但是仔細研究會發現功能豐富度和易用性各產品差別巨大。這塊做得非常突出的是 Nutanix 和SmartX的產品,兩家都能在全域性叢集、物理伺服器、虛擬機器三個層面提供豐富的效能和事件的監控、分析和報警。
系統硬體管理,好的管理平臺也應該能支援資料中心硬體的拓撲管理和配置,這方面 VMware,Nutanix,SmartX 都非常優秀,尤其是 Nutanix 和 SmartX 都提供了基於叢集拓撲的管理。
4.產品有哪些交付方式?
超融合依託標準的 x86 伺服器,一般可以是安裝了超融合軟體的一體機或者是獨立的軟體授權。當前主流廠商支援的交付方式如下:
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------