1. 程式人生 > >創新型資料中心供電系統設計與規劃的探討 ――訪中國科學院計算所高階工程師李成章...

創新型資料中心供電系統設計與規劃的探討 ――訪中國科學院計算所高階工程師李成章...

640?wx_fmt=jpeg

隨著雲端計算、大資料時代的到來,資料中心的資料來源變得無比廣泛,資料裝置接入更加多樣化,資料容量變得更加龐大,資料處理需要更加快速與高效,這一切無疑對資料中心機房提出了更高的要求。資料中心機房一旦出現因供電中斷而誘發的“電氣宕機“或因空調故障而誘發的”熱宕機“問題時,將可能會造成巨大損失或不良負面社會影響,如何打造安全、可靠的資料中心機房供電系統成為業內普遍關心的問題。同時,資料中心巨大的電能消耗也使“綠色、節能”成為貫穿產品、系統設計和應用始終關注的主題。如何使資料中心的供電系統達到高可靠性、高能效性與高可維護性的最佳平衡成為設計院和生產廠商共同追求的目標。小編有幸採訪到了中國科學院計算所高階工程師李成章老師,請他對相關問題予以解答。

01

class

資料中心一旦遇到“供電中斷“將會造成巨大的損失,請問對於資料中心供電系統解決方案您是怎樣考慮的?

在大資料、可信雲端計算時代,資料中心主要承擔四方面的調控任務:資料的處理;資料的儲存;資料的交換;資料的災備。評價一個數據中心設計水平和建設水平的高低,主要有兩個指標:資料的安全可靠;節能環保。

在資料中心執行過程中,最可怕的問題就是“機房癱瘓”。據2015年的調研與統計,在能造成資料中心癱瘓的原因中,UPS供電系統故障佔29%;人為失誤佔24%;空調及水系統故障佔15%;氣候及自然災難(注:由它所誘發的常見市電電網故障是短路或停電故障)佔12%;發電機系統故障佔10%;IT裝置故障佔5%;惡意攻擊與犯罪佔2%;其他原因佔2%。由此可以看出,對於資料中心機房而言,從影響資料的計算和儲存、網路等三大要素是否安全可靠的角度來看:因供電系統故障而誘發的癱瘓故障的機率因空調系統故障而誘發的癱瘓故障的機率因IT系統故障而誘發的癱瘓故障的機率;從影響節能環保的角度來看,因提高IT裝置的效率而降低PUE的功效因提高空調系統的效率而降低PUE的功效因提高UPS系統的效率而降低PUE的功效。

對於資料中心的供電系統解決方案而言,應優先考慮提高它的可利用率。按照TIA-942所推薦的供電系統可利用率的分類標準,可分為Tier-4級、Tier-3級、Tier-2級和Tier-1級。Tier-4級供電系統是由兩路UPS所組成的2N型供電系統來向IT裝置供電,它能確保負載”永不停電”,具備故障容錯功能,其可利用率最高,適用於中大型的高階資料中心。Tier-3級供電系統是由1路市電+1路UPS/HVDC所組成的2N型供電系統來向IT裝置供電,它使負載的供電系統具有可線上維護特性,其可利用率次之,適用於中大型的中端資料中心; Tier-2級供電系統是由N+1臺UPS所組成的冗餘供電系統來向IT裝置供電,適用於中小型資料中心; Tier-1級供電系統是單機系統,其可利用率最低,適用於小型機房。

機房空調系統按照可用性分為A1級、A2級A3級和A4級。A1級空調系統允許溫度波動的範圍為15~32℃,溼度允許波動的範圍為20%~80%;A2級空調系統允許溫度波動的範圍為10~35℃,溼度允許波動的範圍為20%~80%;A3級空調系統允許溫度波動的範圍為5~40℃,溼度允許波動的範圍最高為85%;A4級空調系統允許溫度波動的範圍為5~45℃,溼度允許波動的範圍最高為90%。

近年來的相關執行實踐顯示:在設計資料中心機房的冷凍水空調系統時,應依據機櫃的不同的功率密度來選擇合適的方案。當機櫃功率密度為2~5 kW/機櫃時,空調系統配置方案:推薦以地板下送風為主,列間空調為輔;機櫃功率密度為8~12 kW/機櫃時,空調系統配置方案:推薦採用“1帶多”列間冷凍水空調;機櫃功率密度為20~100 kW/機櫃時,空調系統配置方案:推薦採用水冷機櫃或“2帶1”列間冷凍水空調。

在近幾年、對於資料中心設計有一種觀點認為:某一種供電系統是最佳選擇,某一種型別的UPS產品才是最適合的。然而,相關的統計資料及執行實踐顯示:對於這樣觀點而言,存在有相當的片面性。在實際工作中,資料中心應有的可用性是由使用者所期望的資料安全性和時效性的不同級別、使用者所應承擔的不同社會責任等諸多實際需求來共同決定的,不宜主觀決定的。由於不同使用者的資料中心機房可用性級別不同,需選用不同級別的供電系統解決方案。

對於執行安全、精準、短時延以及連續不斷的資料處理與共享操作為主的資料中心而言,由於它們對”業務執行中斷”的容忍度為零,宜選用Tier-4級的工頻機UPS供電系統,A1級空調系統。典型應用行業為金融、民航、石化和軍用等領域。

對於執行海量儲存、高速資訊查詢的分散式資料處理與共享操作為主的資料中心而言,由於能容忍偶發性或短暫性的業務中斷,並追求利潤最大化,宜選用Tier-3級、Tier-2級為主,Tier-4級為輔的高頻機UPS/HVDC供電系統,A1或A2級空調系統。典型應用行業為BAT、電信及託管企業。

對於執行超高速,超大容量的工程和科學計算的超算中心而言,由於允許執行“間斷性”的運算,為了降低Capex,宜選用 Tier-2級UPS或Tier-0級的市電供電系統,A1級空調系統。

對於既不允許出現“長時間的業務中斷”和追求使用便利化、又面臨維護能力較弱和地處偏遠地區的局面的中、小使用者,宜選用Tier-2級模組化UPS供電系統,A3或A4級空調系統。

02

class

目前,高頻機UPS的應用逐漸增多,請問其與工頻機UPS相比在可用性上有哪些區別?

近年來,由於雲端計算、大資料及網際網路+等市場需求的爆發式增長,在資料中心機房的UPS供電系統中,越來越多地選用高頻機UPS供電系統的設計方案。推動此發展趨勢的動力是:同工頻機UPS產品相比,高頻機UPS產品具有更高的效率(從94%提升到96%~97%),更高的輸入功率因數(0.99),更低的輸入THDI(3% ),更小的佔地面積,更輕的重量,更低的生產成本等優勢。

對於採用升壓型的IGBT整流設計方案的高頻機UPS而言,為了提高它的效率,主要採取的技術措施有:

1)去掉UPS逆變器中的損耗較大的內建輸出隔離變壓器,從而達到提高UPS效率的目的。

2)提高UPS效率的另一技術措施是,對位於UPS的逆變器輸出端的切換開關而言,採用基本“無壓降”的接觸器來取代存在2 V左右“管壓降”的SCR型的靜態開關的方法。

近年來,在各UPS生產廠商的共同努力下,通過不斷地改進高頻機UPS逆變器的SPWM的設計方案,從最初兩電平的脈寬調製到三電平的脈寬調製,再到優化三電平或四電平的脈寬調製以及提高脈寬調製頻率等技術措施,從而達到同時提高UPS的滿載和輕載執行時的效率的目的。

基於上述原因,近年來,提高UPS的效率逐漸變成各生產廠家和使用者主要關注的重點。在此背景下,近年來高頻機UPS效率的“提升速率”明顯加快,成效顯著。在此背景下,在高頻機UPS供電系統設計與選用上容易產生這樣的誤區,即:因過於重視追求高頻機UPS的效率應更高,造價應更低而忽視更加提高產品的可靠性。

對於高頻機UPS的設計和應用而言,還可能存在另外的兩個“誤區”是:

1)各種高頻機UPS都具備大致相同的可靠性。

2)對於“N+1”UPS冗餘供電系統而言,它的總並機數量可不受限制地增加。

與工頻機UPS相比,高頻機UPS其技術弱勢主要表現為:①故障率相對較高;②由於它的輸入功率因數呈現電容性,從而導致發電機的設計容量配比必須增大。

鑑於高頻機UPS相對於工頻機UPS可靠性較差,對於應用於金融、電力、軍用和民航空管等關鍵資料中心機房而言,建議優選工頻機UPS產品。為說明工頻機UPS與高頻機UPS在金融IDC機房中,所呈現出的長期執行的穩定性和可靠性之間的差異,現舉例說明如下。

2014年5月,當給某金融機構供電的10 kV高壓電網出現停電事故時,位於該金融機構資料中心機房內的3×300 kV·A高頻機UPS並機系統中的1臺UPS發生“炸機”故障,並導致並機系統出現“輸出閃斷”事故。相關的執行資料顯示:這套高頻機UPS並機系統僅執行1年多,就發生了災難性的故障。相比之下,位於同一機房中的,由已分別執行16年和12年之久的由兩組3×800 kV·A工頻機UPS並機系統所組成的2N型雙匯流排輸出供電系統卻一直在正常執行。由此案例可以看出,對於因供電系統故障而誘發IDC癱瘓事故,並可能會造成重大損失或重大負面社會影響的關鍵行業的資料中心機房而言,應儘量選用可靠性更高的工頻機UPS供電系統。

03

class

針對高頻機UPS在可靠性方面存在的劣勢,生產廠商近期推出了2.0級高頻機UPS,請您介紹一下2.0級高頻機UPS相比於1.0級高頻機UPS技術優勢體現在哪些方面?

迄今為止,對於絕大數UPS生產廠商而言,因種種原因,尚未找到製備大功率升壓型IGBT整流器的有效技術途徑。在此背景下,為了能製備出大功率的高頻機UPS(功率為300、400和500 kV·A 的UPS),常採用所謂1.0級高頻機UPS的製備技術:採用由多臺三相、小功率的UPS功率模組“並機”的技術途徑來組成,從外觀上看起來似乎是一臺完整的“大功率UPS單機”的設計方案,對於這樣的、由N臺三相UPS功率模組所組成的高頻塔式機UPS和由數量更多的、更小容量的功率模組所構成模組化UPS而言,在它的UPS單機的內部必然存“交流型的環流”。眾所周知:並機的數量越多,這種可能會危害並機系統安全、穩定執行的“環流”也越大、UPS發生故障的機率必然會增高。在此背景下,如果高頻機UPS的內建功率模組的總並機數量過多的話,發生故障的機率就會增大,從而導致UPS供電系統的平均無故障工作時間被大幅度地縮短。

此外,在部分1.0級高頻機UPS中,由於它的電池組帶N線,對於這種高頻機UPS產品而言,當它處於電池放電工作狀態時,還可能因無法保證它的“正電池組”與“負電池組”的端電壓和內阻相等而導致在UPS的N線上出現“直流型的環流”,從而遺留下新的故障隱患。

同單機“多功率模組型”的高頻機UPS和模組化UPS相比,由於在2.0級高頻機UPS中,採用了電池組“不帶N線”和單機“單功率模組型”的新型設計理念,使得它能在確保獲得97%高效率的前提下,還能大幅度地提高UPS冗餘並機供電系統的可利用率、平均無故障工作時間、電池組節數調節範圍的高靈活性和裝置安裝的高適應性。

有關大功率的2.0級高頻機UPS與1.0級高頻機UPS之間的效能對比如表1所示。

640?wx_fmt=jpeg

從表1可見,我們可以通過:在一臺UPS單機內是否存在“交流環流”;電池組是否帶“N線”以及當電池組放電時;在UPS的N線上是否存在“直流偏置電流”等技術指標來判斷:一臺高頻機UPS到底是1.0級產品還是2.0級的產品?

為了更進一步地提高高頻機UPS單機的可靠性,艾默生網路能源公司所推出的,輸出功率分別為300 kV·A、400 kV·A和500 kV·A的Liebert eXL系列的2.0級大功率高頻機UPS採用一體化設計方案,在UPS單機內“無環流”。在這裡,採用了“單相功能模組”設計理念,所有的“功能性部件”均採用易拆卸的,模組化製備工藝,使得其可裝配性和可維護性得到明顯的改善;其逆變器採用更先進的T型三電平拓撲,雙變換工作模式的效率高達97%;採用電池組不帶N線的設計方案後,不僅徹底消除在UPS的N線上出現“直流偏置電流”的故障隱患,而且還可明顯降低電池組電纜的採購成本,有利於降低Capex。

有關Liebert eXL系列2.0級高頻塔式機UPS與1.0級高頻塔式機UPS和1.0級模組化UPS的效能對比如表2所示。

640?wx_fmt=jpeg

同在UPS單機記憶體在“並機環流”的多功率模組型UPS、“1.0級”高頻塔式機UPS和模組化UPS相比,對於採用電池組“不帶N線”+單機“單模組型”的設計理念、所製備的“2.0級”高頻塔式機UPS產品而言,它能在確保獲得97%高效率的前提下,還能獲得在UPS單機內“無環流”,並進而大幅度地提高UPS並機供電系統的可利用率、電池組配置的高靈活性和裝置安裝的高適應性等技術優勢。

04

class

在資料中心機房供電系統中,發電機供電系統也是非常關鍵的環節,請問應如何進行設計與規劃?

首先我們先來分析一個案例。2016年4月22日11:00,當某金融機構的託管機房,在執行新舊“3+1”UPS並機系統的更換升級改造時,在發電機帶載的工況下,人工關閉3#和4#UPS,由1#和2#UPS帶載。在帶載率為90%的情況下,執行50 min後,因UPS過熱,導致UPS冗餘並機系統被切換到交流旁路供電狀態。此後,在發電機組直接驅動後接的IT裝置執行12 min後,首先我們先來分析一個案例。2016年4月22日11:00,當某金融機構的託管機房,在執行新舊“3+1”UPS並機系統的更換升級改造時,在發電機帶載的工況下,人工關閉3#和4#UPS,由1#和2#UPS帶載。在帶載率為90%的情況下,執行50 min後,因UPS過熱,導致UPS冗餘並機系統被切換到交流旁路供電狀態。此後,在發電機組直接驅動後接的IT裝置執行12 min後,由於發電機組因發生“失磁”故障而進入“自動關機”狀態,從而導致UPS輸出停電,並造成部分伺服器被損壞和銀行業務癱瘓7 h 32 min的不良事故。

從這個事故案例,可以得到的經驗和教訓有:①對於金融機構的資料中心而言,理應選擇Tier-4級的2N型UPS雙匯流排輸出供電系統來向它的IT裝置供電。然而,該金融機構的外包負載卻被連線在託管機房Tier-2級的“3+1”UPS冗餘供電系統中;②對於金融機構的資料中心而言,一旦出現故障時,所可能造成的負面影響會很大。因此,應儘可能地將維護及升級改造工作安排在夜間進行。然而,遺憾的是,卻將升級改造工作安排業務交易最繁忙的白天;③當UPS的輸入電源因故從市電供電轉變為發電機供電的條件下,同高頻機UPS的高達0.99的輸入功率因數相比,IT裝置輸入功率因數不僅絕對值更低。而且,還呈現電容性的執行特性。這樣一來,一旦UPS轉交流旁路供電後,發電機所帶負載將會UPS轉變為IT裝置。此時,由於IT裝置輸入功率因數僅為0.93。在此條件下,發電機設計容量配比應為2.45:1,由於設計時未考慮UPS在維修或損壞時,需轉交流旁路的這種執行工況,實際所配的發電機的“容量配比”只到2.33:1,從而導致發電機供電系統出故障。有鑑於,為了避免在今後的工作中,再出現類似情況,有必要花一定的精力來研討發電機的帶載特性。

在設計資料中心機房的發電機供電系統時,應在能確保發電機安全帶載的前提下,儘量地降低發電機的設計容量配比。大量的執行實踐顯示:影響發電機的帶載能力的因素有:①用電裝置的輸入功率因數的絕對值和符號;②用電裝置的輸入THDI;③發電機帶“階躍性負載”的能力;④發電機帶電容性負載的能力。

在設計發電機的容量配比時,我們所面臨的第一個問題是:能否清晰和正確地理解發電機的額定輸出功率(例:100 kV·A/80 kW,2 000 kV·A/1 600 kW等)的物理含義? 我們所常見的發電機的額定輸出功率值[有功輸出功率(kW)/視在輸出功率(kV·A)]是在下述檢測條件下所檢測到的的技術引數:①負載的輸入電流諧波的THDI=0;②負載的相移功率因數cosφ=0.8(電感性);③在後接負載的載入量(δW)很小的條件下,從零逐漸增大到其額定值時所獲得的。

在設計時,首先需要做好發電機的選型工作。目前,可供選擇的發電機品種有:限時執行功率(LTP)型發電機和應急備用功率(ESP)型發電機,由於這兩種發電機均無法滿足持續執行的要求。因此,為確保重要和關鍵資料中心機房的供電安全,一般不推薦選用,宜優選持續功率(COP)型發電機和基本功率(PRP)型的發電機。COP型發電機和PRP型發電機之間的執行特性的差異性是:對於COP型發電機而言,允許長期滿載執行;對於PRP型發電機而言,不允許長期滿載執行,它的平均帶載率應≤70%。

此外,還需要說明的一點是,對於上述發電機來說,它們的帶載容量一般是指在後接負荷慢慢增加的情況下,才能獲得的帶載能力。相反,如果發電機的用電裝置是屬於“突然增大”的階躍性負載時,則發電機的帶載能力將會明顯下降。在這裡,影響發電機帶階躍性負載能力的強弱的技術引數是:柴油發電機中的發動機的平均有效壓力。下面,將以平均有效壓力=2 000 kPa的10 kV 2 000 kV·A/1 600 kW的發電機為例來進行說明。當它的階躍性負載的每次增加量為50 kW時,雅思考試介紹發電機的實際輸出功率可達1 500 kW(93.8%的標稱輸出功率);當它的階躍性負載的每次增加量為200 kW時,發電機的實際輸出功率為1 200 kW(75%的標稱輸出功率);當它的階躍性負載的每次增加量為450 kW時,發電機的實際輸出功率僅為900 kW(56.3%的標稱輸出功率)。由此可見,發電機的實際帶載能力與階躍性負載的每次增加量δW的大小密切相關。

在考慮到發電機的後接負載的相移功率因數cosφ對它的輸出功率大小的影響之後,所推薦的發電機“設計容量配比”為:

1)當用電裝置的輸入THDI<5%,輸入功率因數為電感性(滯後)負載,發電機容量與用電裝置的容量配比為1.3~1.4:1。

2)當用電裝置的輸入功率因數為電容性(超前)負載,用電裝置的輸入THDI為0的情況下,建議按表3來選擇發電機的容量配比。

640?wx_fmt=png

3)推薦的負載輸入電流諧波THDI的修正值。當用電裝置的輸入THDI<5%時,容量配比宜在增加1.04;當用電裝置的輸入THDI<10%時,容量配比宜再增加1.1;當用電裝置的輸入THDI>25%時,容量配比宜再增加1.2~1.3。

為降低發電機設計容量匹比所推薦的發電機供電系統的設計方案有:

1)負載的輸入電流諧波治理:宜將後接負載的輸入THDI控制在≤5%以下。

2)優選輸入功率因數(PF)為電感性的UPS。對於電容性的高頻機UPS而言,宜優選輕載、輸入功率因數高的產品。

3)優選帶電容性負載能力強、帶階躍性負載能力強的發電機。

4)對於大型資料中心機房而言,優選10 KV市電+“N+1”10 KV發電機並機集中供電設計方案。EA

來源:搜狐

640?wx_fmt=png

資料免費送(點選連結下載)

史上最全,資料中心機房標準及規範彙總(下載)

資料中心運維管理 | 資料彙總(2017.7.2版本)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

加入運維管理VIP群(點選連結檢視)

《資料中心運維管理》VIP技術交流群會員招募說明

加入學習群掃描以下二維碼或者新增微信:

wang2017bj

640?wx_fmt=jpeg