1. 程式人生 > 實用技巧 >分析一次STP無法生效的故障

分析一次STP無法生效的故障

今天下午,突然間收到通知,下面某個分點的故障報告:由於機房線路整改,網路突然中斷。所有工作站無法連線伺服器。
由於事關重要,領導要求立即趕往現場進行技術支援。路途中我經過多次與分點技術人員進行交流,整理了拓撲資料: 20110330-MDF_IDF
MDF連線閘道器、伺服器,部分工作站。MDF通過兩對光纖到其中一個IDF的兩臺交換機,這兩臺交換機作為匯聚,與其它接入交換機互聯。上述兩臺樓層核心互聯,與MDF的交換機成環保護。IDF另備有1條到MDF的UTP作備用。
故障發生時,綠色,即所有連線到MDF的工作站連線伺服器沒有問題;但紅色,即連線到該IDF的所有工作站均無法連線伺服器。結合之前線路整改,由此判斷,應該是MDF與IDF之間的樓層骨幹中斷。但由於區域網已成環保護,照理來說,即使其中一條Fiber骨幹終端,STP應該能夠啟動另一條Fiber作為樓層骨幹。為何STP收斂會造成上述情況呢?
由於趕到現場前故障已經排除,但沒有作現場錄影取證,因此無法判斷屬於哪方的責任。只能從裝置日誌中瞭解相關情況。
根據現場工作人員的事故描述,發生故障時,在MDF檢查的工作人員沒有發現異常情況;而IDF檢查工作人員檢查發現,IS1光纖模組燈為×××,而MS1光纖模組燈正常。由於當時正對MDF的配線進行登記,有可能觸碰了MDF的交換機光纖線路。工作人員經過插拔並清潔光纖口後插回,網路恢復正常。 到達事故現場後,開始著手進行故障分析。首先登入IS1檢查Log,發現備案密碼錯誤(低階錯誤,應自我檢討),於是登入到MS1,show log,發現最近的Log裡面居然沒有任何級聯口的提示!照例說,IS1亮黃燈,應該會造成MS1同時報警,為何MS1卻沒有告警呢?
通過現場不斷了解情況,我瞭解到當時施工方所做操作為檢查光纖跳線的連線情況。一般來說,光纖對操作,無論插拔都是每根單獨進行的。難道說是UDLD?根據UDLD描述,單進端的網橋STP是無法檢查出異常情況的。假如說MS1接收正常,IS1接受異常,在IS1已經進行STP生成樹運算並要求啟用另一條Fiber時,MS1卻依然沒有進行STP計算。因此MS1有可能仍舊採用舊的MAC表地址,導致工作站無法正常連線到伺服器!
由於當時正處於工作時間,不便進行測試。於稍晚時,分點工作人員有單獨進行了一次STP觸發測試,發現當兩對光纖同時拔下時,經過大約9個ICMP Timeout後,STP收斂。基本證明了問題成因為單向鏈路導致IDF網路中斷。
經驗總結:這次工作總結起來還有很多做的不夠的地方。第一是安全實施不嚴謹,以為STP成環即可實現區域網線路保護,卻忽視了實驗室裡極少提到的UDLD;第二是理論知識掌握不牢,對於故障成因的分析沒有抓住要點,造成分析時間過長;第三是日常管理不到位,很多資料都是由分點提供,也沒有經過校對,影響了排查時間。