1. 程式人生 > >全國低於30ms響應速度:千萬級魅族使用者的異地多點網路

全國低於30ms響應速度:千萬級魅族使用者的異地多點網路

2015 年 12 月 21 日魅族副總裁李楠在年度媒體溝通會公佈 2015 年總銷量突破 2000 萬臺,同比去年增長 350%,增長率全球手機品牌第一;

2015 年 12 月 29 日魅族副總裁楊顏公佈,2015 年魅族 Flyme 註冊使用者數突破 3000 萬,應用商店現有超過 100 萬款應用,總下載量超過 100 億,營收能力同比增長 12 倍。

在業績出現爆發式增長的同時,資料中心基礎資源也出現大規模擴張,目前的一些資料如下。


網路裝置數量:200+

  • 伺服器數量:2000+

  • 虛擬子機數量:2500+

  • 網際網路頻寬:4G+

  • 專線頻寬:400M+

  • CDN 頻寬:100G+

運維問題

在傳統手機制造業向網際網路方向轉型,以及業務爆發式增長,基礎網路運維遇到過什麼問題、困難呢?


  • 架構:網路架構脆弱,故障不定時爆發。比如單點架構:IDC 與辦公共用辦公網珠海總部節點為中心,當中心節點需維護或故障時,將影響 IDC 節點可用性;

  • 硬體:硬體效能瓶頸,高峰期 CPU 高達 99%。比如廣域網採用低端路由器跑公網 DMVPN,採用 CPU 進行封裝、轉發,耗裝置設能,在晚上高峰期 CPU 經常會高達 99%左右,產生丟包影響;

  • 監控:監控覆蓋率低,故障無法跟蹤定位。比如機房內、機房間、公網的質量情況;

  • 運營商:運營商複雜,公網質量無法保障。比如公網鏈路丟包;

    資料中心演進的 4 個時代

一、練級階段(2010-2013)

1、 2010 - 2011:架構:外網 1.5 個機櫃;業務:魅族官網、社群;人力:開發兼運維;

2、2011 - 2012:架構:5 個機櫃,二層級聯、機架式單系統伺服器;業務:魅族官網、社群、商城、Flyme 官網;人力:成立業務運維、DBA 運維;

3、2012 - 2013

架構:二層 STP 網路架構、IBM 刀箱 + EMC 儲存 + VMWARE 虛擬化

業務:魅族官網、社群、商城、Flyme 官網、雲服務

人力:業務運維、DBA 運維

二、英勇黃銅(2013 年):網路架構 V1.0

“英勇黃銅,金字塔的塔基,就是那種挖坑的存在。如果你掉進去了,想爬上來沒有一定的實力真心不容易啊!”


伴隨著魅族官網、社群、商城、Flyme 官網、雲服務的發展,業務驅動誕生了魅族網路架構 V1.0 版本,主要特點:

網路架構:傳統二層 STP 網路架構,鏈路資源利用率低、可靠性性低、維護成本大;

硬體裝置:效能和穩定性不足,核心裝置經常會出現 CPU 負載過高導致重啟。

典型機房代表:廣州亞太 IDC ,已於 2015 年 12 月完成了裁撤。

三、不屈白銀(2014 年):網路架構 V2.0

“不屈白銀,大多數玩家都處在這個位置當中。”

        

伴隨著應用中心、遊戲中心、O2O、大資料、flyme 雲服務、魅族雲等發展,傳統的網路架構已經無法支撐滿足,業務驅動誕生了魅族網路架構 V2.0 版本。

主要特點:

1、網路架構:1)引入 10G 萬兆大流量區;2)大二層虛擬化網路架構;3)內、外、管理流量混合;

2、硬體裝置:引入資料中心級高密交換機,穩定支撐承載網際網路業務。典型機房代表:華南 IDC、華東 IDC。

四、榮耀黃金(2015 年):網路架構 V3.0

“聯盟裡的中端玩家。”

    

伴隨著網際網路業務的爆發性發展,傳統的“人肉運維模式”已經無法支撐千萬級使用者,於是標準化驅動誕生了魅族網路架構 V3.0 版本.

什麼叫標準化?舉個簡單例子:商鞅變法前,秦國各地度量衡不統一。為了保證國家的賦稅收入,商鞅製造了標準的度量衡器,意義:全國上下有了標準的度量準則,為人們從事經濟文化交流活動提供了便利的條件。

我們是怎麼做的呢?我們通過架構設計、網路裝置選型、IP規劃、網路連線規劃、網路配置指令碼等制訂一套標準規範。

3.0 版本網路架構除標準化外,其它主要特點:

1)三網分離:

a) 結構邏輯清晰;

b) 安全分級:內外網物理隔離,提高內網的安全級別,降低安全風險;

c) 提高網路可用性、吞吐能力;

d) 管理網帶外管理,提高運維排錯能力。

2)流量視覺化:

a) 外網流量特性固定,基本是直上直下的南北流量;

b) 內網流量複雜,屬於東西南北穿透。

內外網流量分開便於網路流量管控視覺化。

3)單組 TOR 升級:一組 TOR 容量提升 50% 以上。原來 V2.0 一組接入層交換機僅能覆蓋 2 個機架(24 臺伺服器),而 V3.0 版本一組接入層交換機可以覆蓋 3 個機架(36 臺伺服器起)

4)邏輯分割槽:普通區、LVS 區、大流量區、安全管控區。

5)安全方面:

a) DDOS 流量清洗購買了 BAT 的雲盾(騰訊叫宙斯盾)服務;

b) 自研 WAF 平臺;

c) 出口 ACL 白名單

V3.0 網路架構版本另外一個突出特點是 LVS 引入了 FULLNAT 模式,逐步淘汰 DR 模式,從而提高了資料中心的擴充套件性、健壯性。

五、華貴鉑金(2016 年後):網路架構 V4.0

測試及進行中,請留意進展。

六、IDC 網路架構介紹

前面所提到的都是單個 IDC 的網路架構,大家都還記得 2013 年 7 月及 2015 年 5 月一些同行的光纖被挖斷故障?單機房會存在擴充套件難、無法容災、無就近接入等問題。針對單機房問題,我們的應對措施:

  1. 制定運營商、代理商服務 SLA 協議標準,比如 99.9%;

  2. 多線 IDC + 分散式資料中心部署,提高業務部署冗餘性,提高業務部署冗餘性。

接下來將分享我們的 IDC 網路架構:

先簡單概述我們多機房業務的部署,目前我們通過 GSLB 已經實現了使用者就近接入,提高了使用者體驗,即華東片區使用者訪問華東 IDC,華南片區使用者訪問華南 IDC。 關於異地多活的方案,我們正在演練階段,計劃今年將會實現。

    

下面看 IDC 基礎網路架構,IDC 由專線平面 A 、VPN 平面 B 雙平面組成 ,其中專線平面為主,VPN 平面為備,當專線平面癱瘓後,流量會自動切換到 VPN 平面上。


我們先來看看 VPN 平面,節點之間是建立電信、聯通鏈路兩條 VPN,路由協議跑的是 IPSEC + EBGP,BGP 具有靈活、穩定的特點,裝置選型是 FT 的 1000D,VPN 吞吐量高達 30Gbps 以上,可用性相比 2015 年之前,有了一定的提升。

                

備註:

99.9%(月中斷時長:43.2 分鐘)

99.92%(月中斷時長:34.56 分鐘)

99.95%(月中斷時長:21.6 分鐘)

我們做過相關的測試:當電信線路發生中斷故障,中斷 10 - 12S 路由切換到聯通鏈路。

由於運營商網路錯綜複雜萬變,運營商經常凌晨會進行割接或者鏈路經常出現堵塞,造成廣東片區訪問北京、華東片區網路丟包等現象,隨著網際網路業務日益壯大,對網路質量要求越來越高,於是我們在今年 1 月份搭建了專線平面,把可用性提高到至 99.92% - 99.95%,華南、華東、華北互聯,構成一個“三角形”環狀,當其中一條鏈路出現故障,流量可以自動切換到第二條鏈路上。舉兩個例子:

a)專線平面(A):環保護

比如:華南 ⇒ 華東,當主鏈路 a 發生異常故障中斷,秒級切換至 b,即華南 ⇒ 華北 ⇒ 華東

b)VPN 平面(B):公網冗餘保護

比如:華南 ⇒ 華東,當專線同時發生異常故障中斷,秒級切換至 B 平面,即華南 ⇒ 華東走 A 鏈路

    

七、辦公網與 IDC 解耦

資料中心的大概分享到這裡,接下來將簡單介紹一下辦公網以及跟資料中心的互聯互訪。

曾經踩過的坑:2015 年 7 月珠海總部辦公大樓掉電,影響中斷華南 IDC—華東 IDC 機房間網路的通訊。

辦公網與 IDC 解耦,IDC ⇒ FW ⇒ OA:通過 OA 邊界牆實現辦公網與 IDC 的隔離,預設只放通運維相關的埠,策略申請需要安全部門評估審批。

網路監控的 4 大優化

面對千萬級使用者的異地多點網路架構,魅族的網路監控是怎麼支撐的呢?

監控痛點

我們監控曾經遇到痛點:

  1. 監控系統可讀性差;

  2. 監控項告警重疊;

  3. 告警無法定位問題;

  4. 業務產品頻寬使用。

監控架構總體檢視

先來看看監控總體檢視:

    

監控物件分三塊:

1、裝置監控:裝置可用性、狀態監控、效能監控

2、鏈路監控:公網質量、專線質量、VPN質量、流量情況

3、架構監控:路由鄰居變化、路由下一跳變化

監控工具主要是:Zabbix、Cacti、NetFlow、SmokePing、基調、博睿

一、監控模板標準化的優化

優化前:

監控配置人手一個標準,名稱、引數,等一切變數都存在隨心而定的情況,導致監控系統的可讀性以及準確性存在嚴重的問題。

      監控模組標準化(前)


優化後:

對裝置的監控配置進行了標準化,比如:什麼型別的裝置用什麼樣的監控模板,模板需要包含什麼內容,甚至是模板的命名也進行了標準化

             監控模組標準化(後)


二、告警收斂的優化

優化前:


每日會收到超過 100 條的簡訊和郵件的告警,很多是一些沒有實際意義的告警,嚴重的干擾了正常的工作,經過對告警資訊的分析,主要存在幾個問題:

1、告警的準確性;

2、重複告警;

3、通知類告警太多。

優化後:


對告警閥值進行研究,細化,提高告警的準確性,並形成一套告警體系,對重複事件進行關聯,通知類事件每天只進行一次郵件通知,極大的優化了監控告警,實現了當收到簡訊告警時,肯定是發生異常了。

三、公網/專線線路質量監控優化

        公網線路質量監控

    

優化前:

我們 IDC 經過二級運營商接入至一級運營商的網路,專線網路也是同樣的情況,當發生故障時,我們只知道整條訪問路徑有問題,但不知道故障具體發生在哪個節點

優化後:

為了解決這個問題,我們把接入運營商網路時經過的所有關鍵節點(二級運營商機房的邊界、一級運營商網路邊界)均納入到我們的監控系統中,在我們的監控系統中可以非常直觀的看到某個運營商整條訪問路徑的鏈路質量。

對於專線網路也是同樣的做法,我們聯合線路供應商,線上路的關鍵節點上配置了監控地址,整體鏈路的質量情況也盡在掌握當中。

            專線線路質量監控

    

四、頻寬視覺化的優化

    
網路架構演進及實踐17.jpg


為什麼要做這事?主要是基於成本方面考慮,另外對業務的頻寬使用情況進行視覺化,推動業務優化架構等。

寬容量分配體系視覺化,產出頻寬產品維度的營收報表,實現按需分配頻寬和專線資源,並量化監控。

資料中心的未來

上面提到了網路架構的四個時代,魅族資料中心未來應該如何設計?目前來看有以下幾個挑戰。

一、多機房 IDC 佈署規劃

1、國內:分散式

現階段國內我們在華南、華東、華北均已部署了我們自已的資料中心,從第三方網路質量監測報告顯示:覆蓋西南、西北片區的使用者網路質量較差,延時高達 50-60ms 之間。基於使用者訪問體驗的考慮,將全國使用者的響應時間控制在 30ms 以下,是我們優化的目標之一,所以下一階段我們將會結合業務覆蓋使用者情況考慮在西南、西北片區部署資料中心節點。

另外一個驅動力是基於業務高可用,下一階段我們會考慮核心機房同城雙活。

2、海外:全球化

國內手機市場利潤率逐年降低,國產手機強大後走出國門是必然趨勢。業務發展驅動資料中心延伸至海外佈局,目前我們海外已完成香港機房佈署,下一階段將會匹配海外業務市場發展情況,進行全球發展部署。

二、SDN + 魅族雲

什麼叫 SDN?軟體定義網路,給我們會帶來什麼收益?

1、IDC 流量智慧排程

現階段我們 IDC 網路遇到如下挑戰:

1)資料中心間網路鏈路頻寬資源有限,難以滿足業務臨時性的大容量傳輸需求,對重點業務流量的 QOS 保障需要較長的時間擴容滿足,業務部分經常抱怨基礎運維側行動緩慢、缺乏靈活性、響應速度慢。

2)IDC 冗餘鏈路利用率低。

為了更好地滿足業務的頻寬需求,提升專線利用率及降低運營複雜度,我們下一階段將會逐步實踐 IDC SDN 解決方案

2、雲端計算網路:

1)租戶隔離;

2)網路配置自動下發;

3)雲業務的快速更變;

最後,簡單介紹一下我們團隊:5 人,主要負責魅族移動網際網路資料中心基礎網路架構規劃、建設、優化、運營等。