混合雲架構備受青睞,但是實施過程要避開哪些坑?
混合雲已經逐漸成為系統架構設計師的架構設計選擇而變得越來越流行,為什麼架構師會越來越多地選擇混合雲架構呢?
公有云的優勢
回答這個問題之前,我們先從公有云的優勢入手進行逐步分析,現在各種企業都在越來越多地使用公有云了,使用公有云主要是基於以下幾個需求:
1、對於業務快速響應的需求
現代企業的業務往往都需要IT基礎設施快速響應業務的變化 ,公有云非常適合於快速應對流量突發增長的市場活動所帶來的峰值。
2、成本受限的需求
現實中,為了支援市場活動等突發需求必須對於各個層次的資源都準備的匹配容量的資源,這無疑會增加整體成本,公有云按需付費恰好可以補足傳統IDC的這個弱點。
3、對於運維標準化的需求
傳統的IDC擴容往往會遇到一系列因為伺服器配置和環境差異導致的問題,公有云使用虛擬化技術恰好可以解決這些問題。
公有云的不足
然而,公有云還有其無法解決的一些問題,正是這些問題導致架構師們不完全使用公有云,而是在一定程度上保留原來的IDC,這些問題點主要有:
1、遷移成本問題
一方面使用公有云可以降低IT系統的整體硬體和運維成本,這是它的優勢,但是從另一方面來講,從傳統的IDC完全地遷移到公有云上是需要很大的遷移成本的,這包括為了適應公有云平臺而對系統進行改造的人工成本,平滑遷移的時間成本,尤其是對於複雜系統來講,這些改造、遷移成本是非常高的。
2、資料安全問題
不可否認的是有些時候公有云會出現問題,那麼架構師就有必要把這種穩定性問題導致的資料安全問題考慮在內;另外一方面,某些企業對於核心資料不希望完全託付給公有云,不希望被公有云完全繫結,這也是很正常的需求。
3、無法支援需要特殊硬體的軟體系統的問題
某些特殊軟體系統是軟硬體配合的,如某些行業的硬體加密系統,其軟體依賴於USB、串列埠等連線的特殊硬體來執行,而公有云的是不可能讓客戶連線這些硬體的。再比如許多企業使用範圍較廣的基於共享儲存的ORACLE集群系統RAC、基於共享儲存的SAP等企業中常用的需要儲存系統的軟體,在公有云上還沒有非常成熟的解決方案。
4、需要超高的併發連線數或超高的網路頻寬數的特殊軟體問題
對於某些行業來講,資料或內容是線上下集中產生的,如拍攝現場、生產車間等場景下,資料產生之後希望可以使用公有云的計算能力、分發能力等,這時候只使用IDC或者只使用公有云都無法實現優雅的系統架構。
混合雲架構是答案
正是由於上面所述的各種問題,架構師正在越來越多地採用混合雲架構模式。我們把混合雲架構定義為:公有云+IDC。混合雲架構,既可以充分利用公有云的彈性計算、按需計費的特點,將前臺應用相關的計算、快取節點遷移到公有云上,同時把不適合於公有云的系統核心元件保留在IDC中。
1 遷移成本
遷移成本方面,可以換取架構變更的時間緩衝,留待系統重構的時候再進行架構變更,而又可以立即享用公有云的優勢;我的一個客戶,想要把系統平臺遷移到公有云上,需要考慮儘量不影響業務的狀況下進行遷移,但是累積歷史資料量比較大,但是公共網際網路的傳輸速度往往沒法保證,在沒有高質量的網路通道的狀況下很難進行大批量的資料遷移。
2 資料安全
資料安全方面,把核心資料留在IDC中,以保障核心資料的安全,只把需要彈性計算的元件放到公有云中;在過去兩年當中,幾乎所有的公有云都出現過大規模的故障,這也逼著系統架構師在進行系統架構設計的時候,必須要考慮公有云的容災問題,而伺服器端應用和資料庫之間必然要求有高質量的通道才能支援正常執行。因此很多企業希望把資料庫等核心系統元件留在原來自己的資料中心裡,用自己的物理伺服器來執行,這樣也可以更好地支援容災切換。
3 特殊硬體
特殊硬體方面,把需要連線特殊硬體的伺服器放置在IDC中,前端的軟體系統雖然執行在公有云中但是依然可以通過API等服務使用這種元件。我的一個客戶是一套高安全要求的軟體系統,它依賴於是一種硬體加密狗插在伺服器上才能執行,公有云上就無法支援這種模型,所以該客戶只好保持原來的資料中心伺服器,而把前端伺服器遷移到公有云,這時候就必然要求前端伺服器和加密伺服器之間有高質量的可靠的連線通道。
4 線下產生內容
一個客戶是現場拍攝產生大量資料內容,使用公有云的計算資源進行渲染,並使用公有云的CDN資源進行分發。這也要求在現場和公有云間有大容量的、有頻寬保證的傳輸通道。由此可見,混合雲在企業上雲的過程中是一種非常有意義的架構,它可以在一定程度上讓企業同時使用公有云的優勢,又擁有傳統IDC的特點,不但擁有公有云彈性計算、峰值靈活擴充套件的特點,同時具備核心資料安全、可以使用特殊硬體的特點。
混合雲架構要避開的坑
混合雲架構雖好,但是在實施過程中卻也有不少需要注意的問題,公有云+IDC的混合雲架構要想順暢地使用就必須要有高速可靠的網路連線,可以說,高速可靠的網路連線是成功實施混合雲的最重要的保障之一,否則會引發各種的應用故障。混合雲架構所需要的網路連線,行業裡面又有兩種不同的實現模型:一是使用公共internet來進行互聯,另外一個是使用專線網路來進行互聯。
使用公共internet進行互聯一般都會配合ipsec vpn等虛擬私有專網技術來使用,否則會遇到極大的安全隱患。但是隻要使用公共internet的方式,不管是否使用ipsec等vpn技術,幾乎肯定都會遇到的問題是,公共internet會在網路使用高峰時產生擁塞,這時候就會出現頻寬不足、延時增大的問題。因此通過公共internet互聯來實現混合雲的網路連線的方式是無法可靠地保障混合雲軟體系統的頻寬需求和延時需求的。
另外一種使用專線網路進行互聯的方式是現在企業進行混合雲架構設計的主要模型。這種架構是必須要求公有云服務商給予支援的,否則使用者無法獨立完成連線到使用者的公有云中的私有網路,自然就無法實施混合雲。值得高興的是現在市面上大多數的著名公有云服務廠商都提供了類似的支援。各大公有云廠商對其產品的有不同命名,像阿里雲叫高速通道,騰訊雲叫專線接入(DC/direct connect),AWS叫做AWS direct connect,Microsoft Asure叫做Asure ExpressRoute,其它的雲服務商有些有公開的產品定義,有些還沒有。不管叫什麼名稱,這些產品的本質都是為了最終實現混合雲的專線網路連線。
這些公有云的廠商在幫助客戶實施混合雲的時候,一般只是負責網路連線進入公有云的界限之後的問題,另外一個端點也就是在IDC內部,大多數情況下企業是會自建私網的,自然也可以管理自己的私網。在IDC和公有云互聯的整個鏈路上,它們兩者的外面一般是由第三方運營商來負責實施,這個互聯鏈路,有時候是同城的,有時候是跨省市甚至是跨國的。這時候網路質量就是衡量這種專線網路的重要要素。
使用專線網路連線,最主要的就是兩個方面的保障:一是延時方面的保障,二是頻寬方面的保障,這兩者對於大多數主要關注IDC內部應用架構的架構師往往意識不到它們的重要性。Tcp/ip的基礎是路由器,所有的路由器都是基於儲存轉發模式的,正是由於這個基本原理,所以就決定了internet必然會發生抖動、波動。對於終端使用者的服務問題影響不是太大,無非是重新整理一下、重試一下就可以解決了,但是對於伺服器中執行的服務端應用程式之間的互相訪問就是非常嚴重的問題了,因為它們往往都是對於延時抖動很敏感的,而延時抖動又會直接影響TCP協議的速度。
我就曾經在客戶實施混合雲的時候遇到了因為延時和流控問題而產生的cifs(檔案共享協議)速度無法穩定高速,表現為遠端拷貝的速度忽上忽下,無法達到要求,進而導致混合雲實施失敗的問題,最後不得不更改成完全使用犀思雲提供的專線通道,就拷貝速度幾乎總是可以達到理論最高速度。
犀思雲構建了CXP雲交換平臺,混合雲服務通過雲交換平臺所連線的公有云,資料中心以及雲交換平臺本身提供的DCI、ECI等網路連線服務,可以幫助企業輕鬆快速搭建自己所需要的混合雲架構;包括兩地三中心、公有云加物理伺服器託管、公有云加企業私有云、公有云加託管雲、公有云加裸機雲等。
架構圖如下:
雲交換平臺基於物理光纜和DWDM技術構建的全球專網,可最大程度的保障網路最低延遲和高穩定性,同時不受網路高峰時段影響,為企業提供持續穩定的網路服務保障。基於MPLS技術,將網路多重隔離加密,使每使用者網路獨立且互不影響,並且支援多級別SLA選擇。
QA
Q1 如何提高運維能力
與話題無關,對於成規模的系統運維,最關鍵的一點是:自動化和標準化,想盡一切辦法地去把運維工作自動化和標準化。比如應用部署、應用監控等都有大量的實踐進行自動化和標準化。比如,Docker為什麼這幾年這麼火熱,就是因為這是一種可以讓部署自動化和標準化的技術。
Q2 推薦易實施的全鏈監控方案
監控是運維工作中非常重要的一個工作,有基礎設施監控,也有業務監控,但是由於每家公司的業務都有其不一樣的地方,所以很難有完全適合於所有公司的全鏈監控方案,對於基礎設施監控方面,有傳統的nagios、zabbix等,也有openfalcon等新一代的監控方案,更多地需要各公司自行研發。犀思雲的業務監控系統也是基於自己的需求基於開源監控系統做了大量的研發。
Q3 列舉一個兩個實際的詳細案例分享
1醫網,犀思云為其提供從上海某資料中心連線到阿里雲上海區的網路連線服務,資料庫等核心元件執行在資料中心的伺服器中,擴充套件性的前端服務執行在阿里雲裡。京東、七牛雲等,等犀思云為其提供了多個數據中心的互聯鏈路,頻寬達數十G。
Q4雲很重要的一點是能力開放,犀思雲提供了哪些開放的能力?
犀思雲會開放業務的自助化服務和API介面,已經提供監控、告警、測速等服務。犀思雲連線了國內大公有云服務商(例如阿里雲、騰訊雲、百度雲、華為雲、金山雲、UCloud);以及全國的數十家T3+資料中心,在此基礎上持續覆蓋,犀思雲未來會開放技術開放的平臺,讓有技術能力的公司和個人作為賣方提供混合雲的能力輸出。
Q5 什麼樣的公司不適合混合雲?只適合私有云?
對於資料保密有極其嚴苛的要求,對於可靠性有極其嚴苛的要求,不需要對計算能力進行彈性擴充套件的企業不適合於公有云+私有云。
Q6您認為混合雲現象會不會長存
基於對客戶的需求調研及上雲遇到的問題,我們認為混合雲一定會長久存在。主要就是因為前面說的,純粹公有云所遇到的問題,是不太可能在短期內消失的。
Q7 請問網路的抖動產生的具體原因是什麼呢?
網路的抖動產生的根本原因是鏈路的變化,所謂鏈路的變化包括鏈路上的頻寬擁塞,也包括鏈路上裝置的負載變化,這些因素與延時的增加交織在一起就會產生明顯的網路抖動。對於TCP協議來講,它的頻寬是協商出來,而抖動就會非常明顯地影響TCP的頻寬。
Q8 提起倆地三中心,請問資料中心網路如何設計實現資料間切換,資料中心的災備怎麼考慮(衡量)資料上雲後如何在多家公有云如aws,阿里雲上混和接入,是提供開放api嗎?感謝指教.
這個問題更多的是軟體系統架構的問題,軟體系統架構是基於基礎設施架構的,在一個可靠的基礎設施架構之上,軟體架構才有依託。業務切換和災備正是混合雲所要實現的目標,至於具體如何實現是需要根據每家公司的軟體架構進行確定,一般都離不開資料庫的複製技術(ORACLE/MYSQL都有)、前端控制導流技術(LOADBALANCE/DNS/HTTPDNS)多雲接入,我們現在已經不少客戶提供瞭解決方案。API現在還沒有開發,計劃今年內會提供一定的API開放。
Q9 請淺談下雲環境的安全性,比如IDC行業的DDOS,流量清洗和vpc許可權控制等,感謝,
不同的雲服務廠商在安全方面差異很大,防DDOS必須的兩個前提:1、足夠大的頻寬;2、高效的流量清洗(不正常流量的篩選)。所以對於不同的廠商還是得實際地用過才知道,據我們所知,現在有第三方廠商正在計劃把高防DDOS業務作為一種服務來提供,犀思雲也計劃依託於自身的網路優勢整合這方面的服務,相信以後普通使用者也可以享受到高防服務。VPC許可權控制主要依託於每個廠商對於帳號、許可權方面的產品需求的分析和定位。
Q10犀思雲和其他雲廠商對比,補丁熱修復功能是否支援,感謝!
犀思雲不提供以計算和儲存為主要目標的大規模的雲服務,所以不太涉及虛擬化相關的熱補丁等問題。
Q11 業務檢測網路鏈路是通過dns,還是sdk這種技術來檢測各網路運營商?感謝
犀思雲的專線通道不是基於公共網際網路的傳輸服務,而是基於物理光纖等專線網路的私有網路通道,所以不涉及到DNS等,可以理解為一個跨資料中心、企業、雲的大範圍區域網。
Q12老師使用犀思雲需要單獨架設專線嗎?感謝
需要,我們的服務就是基於專線的,所幸我們接入了很多的資料中心,所以對於客戶來講,如果恰好用了合作的資料中心,就不需要額外地架設專線了。
作者介紹
王正豔,犀思雲端計算科技有限公司CTO,負責技術團隊管理工作及公司CXP平臺架構設計、開發等工作。上海交通大學電腦科學與技術專業工學學士,華東理工大學工商管理碩士。從事研發管理工作十餘年,對技術研發管理有一定的心得,對於SDN、大型分散式系統等領域有濃厚的興趣和豐富的實踐經驗。
文章來自微信公眾號:高效開發運維