1. 程式人生 > 其它 >認識資料中心兩個關鍵指標RTO和RPO

認識資料中心兩個關鍵指標RTO和RPO

RTO和RPO是Business Continuity(BC) and Disaster Recovery(DR)裡面兩個重要的概念, 也是類似產品的Service Level Agreement (SLA)的兩個重要的衡量指標。
Recovery Point Objective (RPO),指的是最多可能丟失的資料的時長。
Recovery Time Objective (RTO) ,指的是從災難發生到整個系統恢復正常所需要的最大時長。
簡單區分的話,RPO是災難發生之前的時間, RTO是災難發生之後的時間。

用來描述和評價資料中心有很多專有引數和指標,通過這些資料可以反映出資料中心的各種執行狀態,其中有兩個關鍵指標必須有所瞭解: RTO和RPO。RTO和RPO是資料中心災難恢復方面的重要參考指標。現在的資料中心對業務的連續性有苛刻要求,但是故障不可避免,一旦發生了故障就需要啟動備份機制,確保業務的連續性,所以現在資料中心都有較為完善的容災機制,RTO和RPO可以很好地反映出資料中心容災效能如何。這兩個引數是資料中心在運維過程中,一定要重點關注的指標。這個指標的好與差,是基於資料中心現有的各種綜合執行情況評估得出的真實結果,反映當前資料中心在災難恢復方面的修復能力。下面讓我們來詳細認識一下這兩個引數的真面目。

RTO

RTO(Recovery Time Objective,復原時間目標)是資料中心可容許服務中斷的時間長度。比如說服務發生後半天內便需要恢復,RTO數值就是十二小時。RTO具體時間長短只是從故障發生後,從資料中心繫統宕機導致應用停頓之刻開始,到資料中心繫統恢復至可以支援各部門運作之時,此兩點之間的時間段。RTO是反映資料中心業務恢復的及時性指標,表示業務從中斷到恢復正常所需的時間,RTO數值越小,代表容災系統的資料恢復能力越強,資料中心可以部署很多容災系統,來獲取最小的RTO,但這意味著投入大量資金。提升RTO的常用技術有:磁帶恢復、人工遷移、應用系統遠端切換,這幾種技術的RTO的表現如表1所示:

部署不同的容災技術將獲得不同的RTO值,從業務連續性角度考慮,肯定希望RTO數值越小越好,尤其是很多網際網路資料中心,中斷幾分鐘都會損失數百萬的成交量,這些資料中心往往不惜一切代價要確保資料中心不中斷執行。應用系統的自動切換涉及到資料中心網路、伺服器、儲存等多方面的技術,不管資料中心任何一個位置出現了故障,這些部分都會啟動軟體系統進行切換,可以是裝置之間的切換,也可能是叢集之間的切換,還可能是異地資料中心切換,通過應用系統自動切換將業務轉移到其它正常的系統中,然後再對故障裝置進行排查。將故障原因找到並排除後,再將業務切回到原有系統中,應用系統切換做得好,這個過程不會引起業務的二次中斷,讓業務無感知切換。

RPO

RPO(Recovery Point Objective,復原點目標)是指資料中心能容忍的最大資料丟失量,是指當業務恢復後,恢復得來的資料所對應時間點,RPO取決於資料中心資料恢復到怎樣的更新程度,這種更新程度可以是上一週的備份資料,也可以是昨天的資料,這和資料備份的頻率有關,為了改進RPO,必然要增加資料備份的頻率才行。RPO是反映資料中心恢復資料完整性的指標。在同步資料複製方式下,RPO等於資料傳輸時延的時間,在非同步資料複製方式下,RPO基本為非同步傳輸資料排隊的時間。提升RPO的常用技術有:磁帶備份、定期資料複製、非同步資料複製、同步資料複製等,這幾種技術的RPO的表現如表2所示:

RPO指標考驗著資料中心資料複製能力,這並不意味單純增加資料複製的頻率即可,因為應用的高峰時段無法進行備份操作,而且備份資料本身所花費的時間也會過長,資料複製頻率增加到一定程度反而會降低RPO時長。現在出現映象技術和快照技術可以有效地改進RPO,往往可以將RPO縮小到秒級。

RTO和RPO指標並不是孤立的,而是從不同角度來反映資料中心的容災能力。我們用下面的圖1說明下RTO和RPO兩個指標在資料中心故障處理過程中的關係:

從圖1不難看出,RPO指標來自於故障發生前,而RTO指標來自故障發生後,兩者的數值越小,就能有效縮短業務正常到業務過渡期的時間間隔,單一地提升RTO或RPO指標也可以縮減業務故障到過渡期的時間,具體從哪個指標上來改善,就要結合資料中心的實際情況分析,提升那個指標代價最小,效果更明顯。當然完美的方案當然是RTO和RPO都為零,這表示當故障發生後,系統立即回覆,而且完全沒有資料丟失,要達到這樣的目標系統設計是及其複雜的,而且造價也是非常昂貴的,也不一定有這個必要。

RTO和RPO指標對於資料中心非常關鍵和重要,RTO主要考驗資料中心發生故障時,業務切換到容災系統或者備份系統的能力,RPO主要考驗資料中心資料備份能力,尤其是當資料中心發生故障時,仍要具備一定的資料備份能力。但資料中心也不能過分地追求RTO和RPO,因為RTO和RPO越小,意味著投資將越大。而總體投入成本越高,投資回報率將越低,從經濟角度考慮,最好的容災解決方案不一定是效益最好的容災方案,容災方案的總體投入和投資回報也是必須要考慮的設計指標,最佳的解決方案必須是在RTO、RPO、運維及價錢多方面,都能夠達到平衡。所以要理性看待RTO和RPO,一方面我們努力設計一些新的容災技術,另一方面還要簡化容災技術的複雜度和造價,不要一再去追求RTO和RPO指標,有時資料中心有些缺陷,也是一種缺陷美。過度追求RTO和RPO指標,甚至做到兩者都是零,反而讓資料中心更加臃腫,運維難度大,耗費資金過多,資料中心要避免陷入單純追求提升兩個指標的怪圈,結合資料中心實際情況,因地制宜地適當提升兩個指標,才是正道。