1. 程式人生 > 其它 >雲網絡的守護神:主動鏈路監控

雲網絡的守護神:主動鏈路監控

摘要:華為雲Stack主動鏈路監控技術,構建整個網路服務監控系統,故障發現時間從不確定走向確定,故障定界定位時間從小時級變成分鐘級。

本文分享自華為雲社群《【華為雲Stack】【大架光臨】第3期:雲網絡的守護神,主動鏈路監控》,作者:華為雲Stack首席網路運維架構師 秦永鋼 。

背景

在雲資料中心環境下,IAAS雲網絡是資料中心所有業務的通訊基礎;雲網絡的穩定保障,需要全面、高效能、實時的監控能力,能夠覆蓋所有轉發網元、路徑和業務,這套能力一定是多手段的、多維度的和多層次的,目前還沒有一種監控方案或工具能滿足所有的監控訴求,我們在一些實際案例中發現由於缺失網元/雲服務的某些監控指標,無法及時發現一些業務故障。

案例1:某客戶進行新版本的雲平臺網路元件升級,升級後各元件的指標監控以及其他監控測試方法沒有發現異常,但是由於升級導致EndPoint轉發網元的某個元件異常,小概率場景使用到這個網元的時候會導致流量中斷,當前監控體系沒有做到能力覆蓋,導致當客戶的實際業務使用時發生業務故障,而阻塞業務超過1個小時。

案例2:某專案物理網路進行了變更,物理網路變更引入一個路由拒收問題,從物理網路的監控沒有發現問題,但是實際影響了業務流量,導致業務故障長達2小時。

案例3:某專案站點某租戶突發流量導致閘道器轉發效能到達瓶頸,影響其他租戶的時延高達20ms,網路監控無法及時發現此時延問題,直到其他租戶業務報障。

上面的案例都有一個共同特點:單個網元和交換機的指標正常,但是綜合用到這些網元和交換機的網路服務有問題,華為雲Stack不斷致力於在網路監控上增加監控指標,不斷補充監控手段,我們釋出了用於虛擬網路監控的主動鏈路監控系統,通過點->線->面

的邏輯構建整個網路服務監控系統。

“點”: 包括物理網元和軟體網元,主要監控單個網元的CPU、記憶體、收發報文、錯包處理/丟包、轉發相關的表項、規格和資源佔用情況等。“點”的監控能夠監控當前網元的KPI是否正常,是否具備符合預期的業務能力。

“線”: 包括監控物理鏈路,虛擬鏈路和租戶業務流。

1)物理鏈路監控:是指從一個計算節點到另外一個計算節點的物理轉發路徑的KPI是否正常,或者從一個物理交換機到另外一個物理交換機的路徑KPI是否符合預期。

2)虛擬鏈路監控:是從雲服務的維度,檢測某個網路服務的服務通道是否正常,雲網絡下的網路服務鏈路是物理網元和軟體網元配合完成的一個整體鏈路。

3)租戶業務流監控:將物理鏈路和虛擬鏈路比作道路,那麼租戶業務流可以認為是這條路上跑的汽車。物理鏈路和虛擬鏈路的監控可以保證大部分的汽車執行正常,不會有大規模的阻塞問題,但是並不代表某輛汽車的執行一定是正常的。租戶業務流監控是在物理物理監控和虛擬物理監控的基礎上補充對某個業務例項的監控。

“面”: 是從雲服務的維度對網路監控進行統一的整理和展示,一個標準網路服務的元件包括管理面元件,資料面元件和租戶例項。以華為雲Stack為例,其支援的雲服務數量眾多,網路服務就有10多種,每種網路服務有不同的元件,為了幫助運維管理員管理好這些服務,按照雲服務的角度,把資源、拓撲、告警、效能、規格、日誌、配置、撥測等進行統一整理和分類,做到一站式監控整個雲服務的運維能力。

表1 網路監控對比

虛擬鏈路監控殺手鐗:主動鏈路監控

雲網絡大部分都是軟體化部署,僅僅監控物理網路的質量是不夠的,更重要的是監控虛擬網路端到端的質量,比如VPC服務網路質量(從ECS到ECS),VPC-Peer服務網路質量(ECS-vRouter-ECS),ELB服務網路質量(client-LVS-member)等,虛擬網路鏈路是雲網絡的本質轉發路徑,雲網絡下的虛擬網路監控對於網路轉發,應用質量保障非常重要。

華為雲Stack面向政企市場,為了監控虛擬鏈路質量,提供了智慧化的主動鏈路監控系統,客戶不需要理解複雜的雲網絡/的內部原理,只需要傻瓜式的啟動這個系統,主動鏈路監控系統能夠根據專案業務場景和客戶組網,自動計算需要監控的虛擬網路物件,主動規劃學習監控路徑,自動上報網路監控指標和告警網路故障。

通過主動鏈路監控,可以及時發現前面案例中的各種故障,故障發現時間從不確定走向確定,故障定界定位時間從小時級變成分鐘級。

一、黃金指標:丟包率和時延

網路監控的指標很多,但是最能代表網路質量的是丟包率和時延兩個指標。丟包率時延是網路轉發能力和業務質量體驗的最直接指標,丟包會導致報文重傳,會引起網路震盪,對業務的影響表現為業務不平穩,有抖動。時延高會導致網路傳輸慢,導致頁面卡頓、應用反應遲緩。

丟包率和時延的檢測需要通過主動或者被動的方式來動態測量,不能通過直接查詢或者採集交換機或者伺服器的某個指標獲取,相關的網路測量技術有很多,在此不做過多贅述。

為了獲取到裝置級、Fabric級、整個DC和跨DC的時延和丟包率指標,各個廠家都設計了自己的工具系統,比如微軟的Pingmesh,Facebook的NETNORAD,百度的NetRadar,阿里的vTrace等,都是為了監控整個資料中心網路質量的系統方案,其中最重要的輸出指標就是丟包率和時延。

二、鏈路檢測根技術

黑盒檢測方法是計算時延和丟包率最常用,最簡單的方法。

傳統的黑盒撥測通常只關注最後撥測的結果通或者不通,如圖1所示,通過傳送ICMP request和TCP SYN,關注 ICMP replay和TCP ACK報文是否有迴應,傳送和接受報文間RTT時延,由此計算整條探測路徑的丟包率和時延。如果中間某個交換機或者網元有了故障,並且網元已經自我隔離了,對外的服務質量並沒有中斷,這種情況下通過普通的黑盒探測是無法探測的。

基於染色報文的撥測常用於出現問題後對問題進行復現時候的故障定界定位,如圖2所示,在每個網元,包括物理網元和軟體網元,都具備對染色報文進行映象和統計的能力,可以精確定位每個監測點接收和傳送的報文數,以及每個點的時延資訊,是一種高精度的黑盒檢測方法。

基於染色的撥測方法,我們主動鏈路監控進行主動配置探針,主動編排策略,達到覆蓋所有網元節點的探測目的,可以監控網路服務經過所有網元的服務可用性,同時得到全量網元的時延和丟包率指標。

主動鏈路監控以染色報文的撥測作為測量方法,可以做到比傳統黑盒監控更精細化的監控效果,不僅監控雲服務的質量,更能覆蓋的所有網元的轉發質量,更大化的保障租戶業務流質量。

圖1 傳統黑盒撥測

圖2 基於染色報文的撥測

三、系統架構

主動鏈路監控整體系統架構如圖3所示,主要包括Server端和Agent端。Server端用於根據雲服務維度和監控場景生成策略列表和建立撥測任務,agent端用於報文注入和映象報文收集。

圖3 主動鏈路監控系統架構

監控場景:包括日常監控場景升級監控場景,日常監控是一個持續監控的過程,主要側重於監控面廣,持續迭代和優化;升級監控,側重於快速給出某個網路服務的監控結果,需要針對某個網路服務進行快速迭代和升級前後對比。

網路拓撲:資料中心的網路拓撲,包括所有的交換機和所有的計算節點,軟體網元的網口連線資訊。

策略列表:包含所有要探測的鏈路的集合,一個策略物件是一個五元組資訊,包括源探針IP,目的探針IP,協議,源埠和目的埠。

撥測Controller:按照策略列表下發撥測任務。

撥測Analyzer:收集撥測結果,並根據撥測結果對策略進行正向反饋優化,策略優化後可以覆蓋更全的鏈路。

撥測Agent:對探針注入染色報文,並收集OVS的映象報文。在所有的計算節點和網元節點部署。

ERSPAN:物理交換機通過ERSPAN的方式,把染色的撥測報文映象到Analyzer,供Analyzer進行虛擬網路和物理網路的統一路徑檢測和分析。

四、關鍵技術

亮點1:策略優化

按照使用者輸入的監控場景和雲服務列表,Server會生成一個預設的策略列表,但是每個客戶現網的情況都不盡相同,初始建立的策略難點在於如何覆蓋所有的網元,比如下面的圖4,網元1_3和網元2_3並沒有被探測到,達不到鏈路覆蓋的效果。

我們基於染色報文的撥測方法,提出策略優化的方案,Analyzer得到撥測結果後會進行分析,不斷的迭代策略的五元組資訊,按照不斷的反饋和補償,可以達到一條策略能夠覆蓋所有網元的目的,如圖5所示。策略從圖4的結果到圖5的結果就是一個策略優化的過程。

策略優化還有另外一種結果,那就是嘗試了所有的可能後,始終無法覆蓋到某個網元,比如圖6中的網元1_3,出現這種情況我們有理由懷疑,網元1_3業務出現某種問題後觸發了自身的自動隔離,這種情況不影響這個網路服務整體對外的可用性,只是效能或者服務等級下降,主動鏈路監控一樣可以發現網路服務的亞健康問題。

因此主動鏈路監控的策略優化機制,監控的不僅包括雲服務的可用性,而且包括網元的可用性,監控粒度和精度比傳統的黑盒監控要高很多。

圖4 初始策略

圖5 優化後策略-1

圖6 優化後策略-2

亮點2:告警匯聚

圖7 故障場景

在網元故障場景下,某個網元出現故障,由於網元是被所有節點和所有租戶共同使用的,大量的主動鏈路監控撥測任務會定位到此網元,如何不做任何過濾直接上報,Server會產生大量的告警,這些告警的問題溯源是重複的,告警處理效率低。

告警匯聚的過程,會把所有的故障點資訊進行彙總分析,匯聚成統一故障點之後再上報,避免了大量重複告警上送,運維管理員根據上報的匯聚告警快速定界到故障點,得到故障的影響範圍。

亮點3:視覺化指標

為了展示測量資料和異常檢測結果,主動鏈路監控設計視覺化指標,包括兩部分,虛擬鏈路的時延、丟包率指標和網元的時延、丟包率指標。

虛擬鏈路是包含多個路徑的,比如VPC的服務,包括的是計算節點的虛擬交換機到其他計算節點的虛擬機器交換機的路徑。圖8中的每個原點表示某個計算節點的探針,兩個網點之間的線表示兩個探針之間的路徑,這個路徑是包括兩邊的OVS和中間的物理交換機,同時通過策略優化,每個網絡卡和每個物理交換機也會被覆蓋到。線是綠色表示指標正常,如果指標異常,圖8中的連線會紅色展示。

點選其中的某條路徑,可以檢視這個路徑的丟包率和時延指標,可以檢視最近30分鐘,近一小時,近一天以及最長最近一個月的指標。

圖8 VPC服務鏈路質量展示

圖9 路徑指標展示

圖10和圖11展示的是網元的丟包率和時延指標,如果一種網元型別有多個,會分別展示每個的時延和丟包率指標。

圖10 網元丟包率

圖11 網元時延

寫到最後

主動鏈路監控基於染色報文的探測方案,改善了傳統黑盒監控,只能監控網路服務SLA,沒法監控網元級服務SLA的弊端,採取主動探測和策略優化的方法,做到儘可能覆蓋每個服務和每條路徑,最大可能的探測到客戶實際業務流的每條路徑,儘早的發現網路質量問題,切實保障客戶業務質量。

點選關注,第一時間瞭解華為雲新鮮技術~