1. 程式人生 > >機房運維:核心機房電源中斷應急預案

機房運維:核心機房電源中斷應急預案

核心機房電力的保障一直是維護體系的頭等重要事項,通過實施應急發電演練,建立了可靠的應急預案機制,最大限度的降低電源中斷對網路傳輸質量的影響。現分享核心機房電源中斷應急預案,希望分公司儘快建立一套統一指揮、職責明確、反應迅速、處置有力的機房安全保障機制。

組織架構:

責任領導、工程維護、網路監控、網路運維、質量管理等相關人員。

機房電源系統說明:

1.機房電力是兩路三相四線制供電,進線線纜規格為:RVV50*4+16*1銅芯護套線。

2.機房電源系統採用三級防雷系統,三級防雷分別位於電源進線端、UPS輸入前端。

3.機房現有兩臺60KVA-UPS電源,均處於正常執行狀態。

4.機房現有裝置機櫃已編號,均通過UPS電源和市電供電,每個機櫃有獨立的20A空氣開關。空調、牆壁插座開關、應急燈、照明等都是單獨空開接市電。

5.執行中的UPS電源所帶負荷,在逆變執行狀態下能正常工作約4小時(已經過UPS放電測試)。

一.核心機房電源中斷預案

1.在接到停電通知的情況下:

1)計劃性停電通知要確保綜合部、工維機房管理部對口人接到通知(提前將對口聯絡人備案在物業處),機房管理員接到計劃停電通知後,升級到排程中心進行資訊傳送,同步進行郵件通知相應應急小組成員。並與負責組長及責任領導電話告知,確保已經接收到本次停電的時間及可能發生的情況。

2)維部進行發電應急預案小組成員通知,提前做好機房發電預案要求的準備工作,將相應的發電機、連線線、人員安排到位,各司其職,隨時待命現場,做發電準備工作。確保停電時刻的電力安全及機房用電的保障措施,提前排程安排好相應人員做好保障用電的措施。

3)計劃停電時間開始後,馬上啟動應急發電操作,按照機房發電操作步驟實施階梯供電的步驟,恢復市電保障。並進行現場值守及裝置工作確認,確保全部正常後電話告知排程中心及維護體系領導。

2.在沒有接到任何通知,突然發生停電的情況下:

確認停電線路,停電時刻,停電時間等要素,啟動核心機房發電應急預案。

1)值班網管工作流程:

⑴值班網管監控到核心機房停電,第一時間告知工維部、網路部、運維部應急小組組長。資訊傳達到工維部機房管理員(一主一備),告知停電開始時間。

要求在停電5分鐘內將訊息傳達到排程中心,各應急小組組長。如無法聯絡上,進行升級到責任領導-工維部經理經理處。

⑵網管將停電資訊電話傳達後,進行排程派單,確保全部的應急小組成員都收到本次故障停電的資訊。然後進行機房中裝置的檢查,包括:UPS裝置主機、各核心裝置、匯聚裝置、伺服器、語音系統等。檢查是否受影響。同時啟動機房降溫措施(降溫方案:初步為加裝抽排風裝置、增加大風扇排風形成熱量流動降溫)

⑶實時監控裝置及UPS工作情況,包括:電量下降情況,裝置工作正常情況,每15分鐘通報一次電量情況。

2)運維部應急工作流程:

⑴運維應急同事接到故障通告後,第一時間往停電現場趕,到現場配合網管/工維部門進行裝置儀器的檢查、客服語音系統的保障,應急發電的協助。

⑵現場配合進行機房降溫散熱措施實施,實時檢查網路裝置的工作情況。

3)運營質量管理應急工作流程:

⑴排程中心值班人員接到網管監控排程資訊後,第一時間將故障資訊記錄併發故障通告到相關應急成員,並電話通知各應急小組組長是否知悉。

⑵進行客服排程系統的裝置工作執行系統檢查,特別語音系統級坐席電腦,是否有問題,如發現工作系統有異常,及時與運維應急小組成員溝通,進行檢查處理。

⑶實時關注故障工單流程進度登記,配合應急小組進行人員排程通告。

4)工維部應急工作流程:

⑴機房管理員第一時間往停電現場趕,同時進行電話溝通供電公司、物業方等,諮詢停電原因,是屬於計劃性還是突發性停電,預計停電時長,將諮詢清楚的結果反饋到應急小組成員中,電話聯絡物業溝通好需要發電需求申請。

⑵工維應急小組組長接到時間後第一時間往停電現場趕,同時進行發電應急小組成員排程,安排第一時間到場工作開展,並升級通報告知主管領導,對口集團維護中心上報資訊。

⑶工維應急小組成員接到停電時間後第一時間往停電現場趕,要求30分鐘內必須到場(住機房附近的人員往現場去,較遠同事可以進行打車往現場去),先行到處同事配合網管、運維同事啟動做好應急發電前的準備:連線線布放、接續、發電機發電前檢測油/電/水路檢查,確保正常。確保一切就緒後,確認可以進行發電操作後,按照發電操作流程進行發電恢復市電。

⑷網管將監控到停電的相應資訊及級別同步傳送到運營質量管理部排程崗,由排程崗將相應資訊進行工維、運維、網路關聯同事進行資訊告知,同時報工維主管領導知悉。

5)應急機房發電操作流程:

⑴機房用電系統包括四方面:空調製冷、主/備UPS主機、照明系統、客服排程系統。

⑵發電前考慮4方面系統裝置用電功率情況,為保障發電機帶動的正常,不能進行同步供電,要區分優先恢復的步驟實施,確認發電機的工作正常。在發電前將需要供電的“空調製冷、主/備UPS主機、照明系統、客服排程系統”的市電輸入主開關關閉。防止同步啟動時發電機的無法供電保證。

⑶啟動發電機,檢測發電輸出電流通斷,待發電機執行穩定後。

第一步啟動空調製冷系統的市電輸入開關,運維應急小組成員重新啟動空調主機(空調因為市電恢復後需要重新啟動)觀察空調製冷工作是否正常。

第二步啟動主UPS裝置的市電輸入開關,觀察發電機執行穩定情況,主UPS主機工作穩定情況,網路裝置的工作正常與否。

第三步啟動客服系統的市電輸入開關,包括(客服坐席電腦、UPS裝置、空調製冷等),觀察發電機執行穩定情況,裝置恢復工作情況。

第四步啟動備UPS裝置、市電照明的市電輸入開關,觀察發電機執行穩定情況,備UPS主機工作穩定情況,網路裝置的工作正常與否。

⑷發電機啟動,市電輸入正常後,網管將降溫系統的抽排風裝置關閉,與運維同事進行所有裝置的執行進行全面的檢查,確保裝置已經是執行正常。

⑸發電機發起市電正常後,工維應急小組安排專人現場值守,及時關注發電機油量情況,同時與油品供應商確認油品配送要求及時間要求,並實時與供電部門確認市電恢復時間。

6)停電過程中突發事項預防:

⑴網管在停電時進行機房確認執行中的UPS工作組、裝置組工作狀態。主/備UPS工作切換是否正常,在市電中斷時UPS是否已經開始進行供電保護。

⑵值班網管對機房中的所有裝置進行全面檢查,確保所有的裝置已經是有主備供電,市電中斷後UPS已經正常保障裝置工作。同時對機房的溫度進行觀察,溫度是否突然升高。

⑶停電後,UPS處於逆變工作狀態,當班人員要每隔15分鐘觀察一次UPS的蓄電池容量、帶負荷情況、機房環境溫度,儘量使蓄電池容量大於60%,帶負荷小於85%(因為已經有自購發電機應急,儘快要求短時間發起電,減少UPS的放電過度)。

⑷發現機房環境溫度大於26℃。當以上指標不能保證時,要及時向機房管理員彙報,同時上報責任領導知悉,網管預案小組成員經過慎重討論,適時採取關閉不必要網路的網路裝置、加強通風降溫等措施儘量延長關鍵裝置執行時間。

二.核心機房應急發電流程圖及崗位責任

三.應急發電機的油品保障措施

發電機正常啟動後,需要做到油品及時供應,具體保障措施方案為:

1.確認多家供應商進行油品供應,簽署油品供應協議,確保油品的供應充足。

2.油品的供應以應急小組成員通知後開始準備,協議要求是6小時內送貨到場。

3.只要進行發電一小時以上,則必須在停止發電後補充滿油品,確保發電機隨時都是滿配油品保障中。

4.油品的零購是屬於公安部門的監管,所以分公司提前將資料向公安部門報備,在公司因為特殊原因有零購油品需求,在公安部門已經有分公司備案資料下,每次使用零購油品進行公安部門蓋章申請。可以隨時進行購買。

四.恢復交流電後的處理措施

1.開啟電力室和網路機房空調市電開關,並將調節溫度設定為20℃。首先恢復機房製冷系統的正常工作。

2.等供電穩定後(一般在恢復市電10分鐘後),閉合主/備UPS裝置空氣開關,恢復給主/備UPS交流供電。觀察並確認UPS轉換為交流穩壓和浮充狀態。

3.閉合客服系統的主空氣開關,恢復客服系統的交流供電,並觀察裝置工作執行情況。

4.觀察10分鐘後,確保所有網路及裝置、UPS裝置組工作穩定後,將發電機停止發電,並將情況報告給排程及主管領導。

5.應急小組將發電的物資進行收拾整理存放好,並進行記錄發電機的工作時間及油/水/電路的切斷。機房的降溫裝置的關閉確認及物資收拾整理存放好。

6.將處理情況做詳細書面記錄,請相關人員簽字確認並報集團公司資訊化系統管理平臺上填寫相關記錄。

五.發電機的日常維護措施

對於柴油發電機來說,由於它不是日常的主要供電裝置,所以日常的維護保養主要包括以下幾個方面:

1.定期檢查和更換柴油過濾器和機油過濾器;

2.定期清理檢查進氣過濾器,並在固定的週期進行更換(或者根據現場的工況和進氣過濾器的透氣程度進行更換);

3.定期檢查和清理電池組接線柱,保持接線柱清潔;

4.定期檢查電池組的充電狀態,保證良好的充電效果;

5.定期檢查風扇皮帶的狀態,確保無損傷和處於正常的鬆緊度;

6.定期檢查冷卻液的狀態,確保滿足要求;

7.定期檢查或者更換柴油機機油,確保油位正常;

8.冬天寒冷季節要確保機組預熱裝置正常工作,以便在需要啟動發電機時能正常啟動;

來源:鵬博士工程