1. 程式人生 > 資訊 >鄭州洪災,通訊網路的容災機制,發揮作用了嗎

鄭州洪災,通訊網路的容災機制,發揮作用了嗎

這兩天,河南鄭州等地區遭受罕見的強降雨襲擊,出現了嚴重的洪澇災害。

洪水造成的城市內澇,給當地居民的生命財產帶來重大損失。來自現場的觸目驚心的視訊畫面,牽動著全國人民的心。

目前,一線正在進行緊張的搶險救災行動。我們只能默默祈禱,希望雨早點停,水早點退,災區的損失不要進一步擴大,災區人民的生活能儘快恢復正常。

作為通訊人,小棗君在關注現場災情的同時,特別留意了一下通訊網路設施的損失情況。

根據以往的經驗,遇到大災大害,當地的通訊基礎設施一定會遭受損壞。而可靠的通訊網路,是搶險救災的重要保障,也是穩定一線災民情緒的基石。

也就是說,災害一旦發生,一線通訊人必須儘快投入到通訊裝置搶修和應急保障的工作中。

小棗君的朋友圈裡,就已經有河南的通訊同行正在加班加點搶修,力求儘快恢復業務。

▲圖片來自鄭州聯通

根據現場同行反饋的故障通知訊息來看,這次洪災確實造成了遠超以往的危害。

▲鄭州現場的故障通知訊息

往常的普通洪災,一般只會淹沒基站和接入機房。更嚴重一點,也就是各區縣的匯聚機房和機樓機房。這次特大降雨造成的內澇,竟然將省會城市部分骨幹核心機房也淹了,而且主備機房都發生雨水倒灌。

這種情況,極為罕見。近幾十年,國內應該是沒有發生過。

骨幹機房,執行著重要的核心網裝置。而核心網裝置,是整個通訊網路的心臟。

▲核心網機房

目前來看,受影響最大的,是運營商的 HLR 裝置。

HLR,全名是 Home Location Register,歸屬位置暫存器。它是一種使用者資料庫裝置,是核心閘道器鍵裝置之一,儲存著所有本地使用者的資料資訊,包括使用者的基本資訊、基本業務資訊、補充業務資訊,等等。

HLR 是 2G/3G 時代的叫法,現在 4G/5G 時代,HLR 已經改名叫 HSS(Home Subscriber Server,歸屬簽約使用者伺服器),功能和效能上有所升級。

HLR 和 HSS,作為使用者資料庫,是整個通訊網路的核心。但凡出現重大網路故障,多半和它們有關。要麼是資料庫誤刪,要麼是傳輸中斷(例如光纖中斷),導致 HLR(HSS)鏈路中斷。

2017 年廣西南寧重大網路中斷故障,就是運營商 HLR 的 80 萬用戶資料被誤刪導致的。當時整網業務中斷長達 8 小時 39 分,影響巨大,責任方被罰 5 億元人民幣。

這次鄭州 HLR 被淹退服(通訊行業術語:退出服務),影響本來也是巨大的。但是從現場情況來看,應該是容災機制發揮了作用,所以沒有造成大面積的通訊中斷。

首先,提醒一下河南災區的兄弟姐妹們,最近期間手機儘量不要關機。因為手機開關機都需要聯絡 HLR 進行“登記”。

▲正常情況下

在 HLR 退服的情況下,手機開機,信令訊息到不了 HLR,就無法得到來自網路的身份確認,也就無法接入網路。

▲HLR 退服情況下

一般來說,手機連入網路後,網路也會定期對手機進行“位置更新”。也就是說,每隔一段時間,網路會讓手機上報狀態資訊。這次,在災情發生的情況下,當地運營商可能已經在網路側手動修改配置,延長了更新週期,避免位置更新失敗。

此外,本次鄭州 HLR 退服,運營商的異城異地備份方案也發揮了重要作用。

在本地主備 HLR 都受災的情況下,運營商啟用了位於鄰近省份省會城市的備份 HLR,臨時頂替退服的本地 HLR,保障業務的實現。

這基本上算是最高級別的備份了,專門針對戰爭、恐襲、地震等極端情況。

▲不同的容災級別

在極特殊的情況下,使用者通話量激增,網路中信令訊息太多,超過了網路鏈路的負荷,網路側可能會採取取消使用者鑑權等手段,儘可能降低網路信令負荷,避免網路徹底擁塞。

本次洪災,固網寬頻接入業務的 radius 裝置離線,就採取了取消鑑權的方法。

Radius,全名是 Remote Authentication Dial In User Service,遠端使用者撥號認證系統。看名字就知道,也是一個對使用者進行認證授權的裝置。現場 radius 故障,採用的解決方案,就是直接關閉認證,啟用撥號不認證策略,保證所有使用者網路暢通。

除了 HLR 之外,根據現場反饋的情況,微波中繼線路也有短暫影響,IPTV 業務也受影響,這些都不算太麻煩。

目前,現場的通訊工程師們正在進行緊張的裝置搶修,相信不久之後,核心骨幹網路的功能就會恢復。隨著洪水的退卻,各個站點機房的搶修也會緊鑼密鼓地啟動起來,老百姓的手機和寬頻業務,會逐漸恢復正常。

最後,再次祈禱河南地區的雨早點停,洪水早點退,希望大家都平平安安的,也希望所有一線的通訊工程師們能注意安全,不辱使命,搶險成功!