雙活架構設計必讀的10篇深度文章
又是一個“融合”(融合國慶和中秋)節假日,不過知足了,春節也僅八天假。首先祝大家節日快樂,出行順心。然後打算給小夥伴們分享點儲存相關且值得收藏的內容(或許這是我寫的最後幾篇有關儲存盒子的文章),同時也把近幾期分享的主流廠商儲存雙活做個梳理和彙總,最後在給大家分享一些相關學習資料。
儲存是一門既古老有現代的技術,縱觀儲存計算經歷的一體,分離到融合的變遷,完美詮釋了從伺服器中來到伺服器中去的儲存服務思想,從DAS到如今的SDS/HCI最大的不同的就是可靠性和有效性的提升。如同宇宙,誕生於宇宙大爆炸前的一個黑洞或高質量天體,隨著星系的演變、誕生和消失後,最終還是要被黑洞所吞噬再次回到起點。這兩個風馬牛不相及的事情都說明過程的重要性
回到儲存,從EMC被收購,HDS被整合到傳聞NetApp被收購來看,單純的儲存盒子是玩不動了。資料越來越多的被放在虛擬機器、容器和公有/混合雲上,未來的儲存應該站在雲平臺上來考慮如何滿足Cloudnative應用需求,而不是隔離單獨拼儲存盒子的效能和容量。應該更加專注資料雲上雲下流動,資料跨廠商共享,智慧運維,服務質量遵從和儲存即服務等。未來客戶將更加青睞如同PayU和PayG的新商業模式,所以未來雲端計算的所有屬性將被完全賦予儲存。
但是傳統儲存盒子自從從大型機上獨立出來,在整個漫長髮展的過程中,確實給我們帶來很多回憶和難以忘卻故事,今天還是聚焦分析下資料中心雙活部署網路相關要求
建設資料中心雙活需要網路系統、儲存系統、計算資源、應用系統等多個系統之間緊密合作才能實現。使用者業務系統同時在兩個資料中心執行,包括前端的全域性負載均衡、伺服器前端的負載均衡、伺服器叢集HA技術,後端的資料庫系統和儲存系統技術,同時為使用者提供服務。
當某個資料中心的應用系統出現問題時,由另一個數據中心的應用來持續提供服務,儲存雙活只是資料中心雙活的其中一部分,物理機和虛擬機器的應用部署也也是截然不同,具體參看資料中心雙活該如何構建和雙活解決方案如何部署“應用”雙活。
雙活資料中心除了儲存雙活技術外,最需要考慮的技術因素就是資料中心之間網路互聯需求,這些因素主要包括。
-
組網方式:裸光纖直連或DWDM裝置;同一城域內通過都會網路的核心層進行互聯,不同城域間的DC通過骨幹網進行互聯;DC儲存通過密集型光波複用DWDM或裸光纖進行直連。
-
叢集心跳:叢集心跳要求二層網路
-
虛擬機器vMotion:在保持業務連續性的前提下,虛擬機器可在跨資料中心間實現動態遷移
-
廣播隔離:廣播訊息需在資料中心間實現隔離
由於VM需要在兩個資料中心間漂移,一般情況要求這兩個資料中心都是在一個大二層的物理架構裡。
-
光纖鏈路直連,弱化距離,與傳統網路架構相同;
-
採用大二層互聯,實現大二層網路有多種解決方案。主流的大二層互聯技術可關注本號,在底部回覆“大二層網路”關鍵字獲取詳細資料。
-
與網路裝置解耦,通過軟體定義實現資料流的重定向,其原理就是VPN,底層網路只要IP可達,不管是在同一個VLAN還是不同的VLAN,通過再次封裝,實現全新統一的隔離域,同時擺脫了VLAN數量的限制。
資料中心網際網路絡一般採用光纖互聯。對於大於25km的光纖鏈路,需要增加DWDM波分裝置,用於提高頻寬降低時延。DWDM對於資料傳輸的時延起著關鍵的作用。
資料複製通過儲存實現,所以儲存層雙活網路時延的限制需要格外關注,要保證兩地業務資料的同步複製,就目前的技術水平來看,兩地雙活資料中心最遠支援100km。HDS宣傳GAD雙活實際部署距離支援500km,測試發現距離每增加100km,時延大約增加1ms。實際上雙活距離一直都不是問題,主要看網路時延和誤位元速率,以及應用對RTT時延要求和容忍度。如果當距離超過了500km時,其應用能容忍5ms以上的時延,那所有的問題都不是問題。
當然,資料中心雙活除了網路,還要關注其他因素,這些因素我先大致列出來,等國慶過完了再給小夥伴們逐一分析解釋。
-
腦裂風險問題:如何避免腦裂是每個雙機系統都要重視的問題,儲存雙活系統尤其如此,腦裂會帶來長時間的儲存讀寫IO HANG住,造成重大影響。
-
效能影響問題:因為雙活系統在寫入資料時,會寫兩次資料,尤其是通過複製功能寫到遠端儲存的過程,傳輸鏈路的效能也會影響整體效能。
-
資料一致性風險問題:當寫入資料時,在複製過程中,資料傳遞是在快取中進行的,這樣做的好處是提升了效能,問題是當出現異常宕機事件時,就會導致快取內的資料不能寫入儲存中,從而造成資料的不一致。
-
雙中心間通訊不可控問題:一是鏈路穩定狀況不可控;二是IO延時指標不可控。這些不可控因素非常容易造成災難性影響,輕則導致資料庫讀寫效能災難,重則導致資料庫節點直接處於僵死狀態。另外,鏈路的不穩定會導致儲存鏈路頻繁切換,甚至會導致叢集仲裁頻繁發生,這對於業務連續性更是一個災難。
-
資料同步邏輯錯誤問題:儲存層面的複製技術基本以儲存塊為單位進行的資料複製,假設資料塊發生了邏輯錯誤,那麼儲存是無法檢測到的,它會繼續將壞的資料塊兒同步到災備端,如果因此資料庫發生宕機,那麼災備端的資料庫也同樣無法正常啟動。
-
儲存網路故障氾濫問題:兩個資料中心的SAN網路打通,整合為一張大的SAN網路,可能會因為區域性的儲存網路故障而波及到整個儲存網路,造成重大影響。
-
叢集仲裁一致性問題:所謂的仲裁一致性問題,是指雙中心之間的雙活儲存叢集和資料庫叢集的仲裁結果是否能保證一致性。當不一致時,對業務系統將造成災難性影響。
-
儲存多路徑控制的策略問題:倘若採用儲存廠商自己的多路徑,可能存在相容性問題,很多雙活方案採用系統自帶多路徑緩和這一問題。
架構師技術聯盟: 專注技術架構和行業解決方案,構建專業交流平臺,分享一線技術實踐,洞察行業前沿趨勢,內容覆蓋雲端計算、大資料、超融合、軟體定義網路、資料保護和解決方案,關注即可免費下載本號技術原創資料。
<相關閱讀>
溫馨提示:
請搜尋“ICT_Architect”或“掃一掃”下面二維碼關注公眾號,獲取更多精彩內容。
閱讀量又能說明什麼
只專注做一個有情懷的技術分享平臺