1. 程式人生 > >全國低於30ms響應速度:千萬級魅族使用者的異地多點網路架構如何優化

全國低於30ms響應速度:千萬級魅族使用者的異地多點網路架構如何優化

Q&A

問題1:為什麼要做標準化網路架構?如何實現?

1、傳統的“人肉運維模式”已經無法支撐千萬級使用者;

2、IDC 網路架構版本設計標準不統一,不利於公司網際網路業務快速發展 ;

3、業務的高速增長。

我們的標準化方案:我們通過網路架構規劃設計、網路裝置選型、全網 IP 規劃、網路連線規劃、網路配置指令碼等制訂一套標準規範。

問題2:如何實現辦公網與資料中心的互聯互訪?

我們將辦公網與 IDC 解耦,即 IDC ⇒ FW ⇒ OA:消除了過去以珠海總部為集中單一的混合核心節點,通過 OA 邊界牆實現辦公網與 IDC 的隔離,安全策略預設只放通運維相關的埠,策略申請需要安全部門評估審批。

問題3:為什麼要做多機房架構?如何應對單機房、運營商問題?

單機房會存在擴充套件難、無法容災、無就近接入等問題。我們的應對措施:1、制定運營商、代理商服務 SLA 協議標準,比如 99.9%;2、多線 IDC + 分散式資料中心部署,提高業務部署冗餘性,提高業務部署冗餘性。

問題4:異地多點 DCI 網路架構如何保障基礎網路的高可用?

我們 DCI 經過半年多的優化整改,已經實現如下效果:DCI 由專線平面 A 、VPN平面 B 雙平面組成 ,其中專線平面為主,VPN 平面為備,當專線平面癱瘓後,流量會自動切換到 VPN 平面上。

問題5:網路架構改造演進過程中積累的經驗和教訓?

1、 架構:網路架構脆弱,故障不定時爆發。比如單點架構:IDC 與辦公共用辦公網珠海總部節點為中心,辦公大樓的基礎設施可靠性遠不如資料中心,當辦公網中心節點需電力等維護或故障時,將影響IDC節點可用性等;

我們的應對措施:網路架構整改,搭建魅族的 DCI 網路、以及推出標準化的 V3.0 網路架構。

2、硬體:硬體效能瓶頸,高峰期 CPU 高達 99%。比如早期的廣域網使用低端路由器跑公網 DMVPN,經常會在晚上高峰期 CPU 經常會高達 99% 左右,產生丟包影響;

我們的應對措施:引入資料中心級高密交換機或路由器、防火牆,穩定支撐承載網際網路業務。

3、 監控:監控覆蓋率低,故障無法跟蹤定位。比如機房內、機房間、公網的質量情況等等;

我們的應對措施:1)監控模板標準化;2)告警收斂;3)提高監控覆蓋率至99%以上;4)公網/專線線路質量監控;5)頻寬視覺化。

4、運營商:運營商複雜,公網質量無法保障。比如公網鏈路丟包等。

我們的應對措施:1、制定運營商、代理商服務 SLA 協議標準,比如 99.9%;2、多線 IDC + 分散式資料中心部署,提高業務部署冗餘性,提高業務部署冗餘性。

問題6:對公網和 DCI 網路是如何監控的?

1、我們把公網線路和專線線路經過的所有關鍵節點納入到監控系統中,實現整條路徑的丟包、延時網路質量監測;2、通過基調、博睿等第三方對監控 IDC 至全國各城市的網路質量

問題7:基於什麼原因引入 SDN 架構方案?

1、DCI 流量智慧排程 ; 2、雲平臺的租戶隔離 ;3、網路配置自動下發; 4、雲業務的快速更變。

對網路及基礎架構感興趣的讀者,歡迎在本文留言,我們將邀請作者對有效評論進行答疑。

本文由李彬成在高可用架構群分享,轉播葉青、尹雯玉。

原文來自高可用架構「ArchNotes」微信公眾號

高可用架構微信公眾號二維碼

22