HBase——Replication（複製）原理

阿新 • • 發佈：2020-09-09

前言

Replication：複製，指的是持續的將同一份資料拷貝到多個地方進行儲存，是各種儲存系統中常見而又重要的一個概念，

可以指資料庫中主庫和從庫的複製，也可以指分散式叢集中多個叢集之間的複製，還可以指分散式系統中多個副本之間的複製。

它的難點在於資料通常是不斷變化的，需要持續的將變化也反映到多個數據拷貝上，並保證這些拷貝是完全一致的。

通常來說，資料複製到多個拷貝上有如下好處：

多個備份提高了資料的可靠性
通過主從資料庫/主備叢集之間的複製，來分離OLTP和OLAP請求
提高可用性，即使在單副本掛掉的情況下，依然可以有其他副本來提供讀寫服務
可擴充套件，通過增加副本來服務更多的讀寫請求
跨地域資料中心之間的複製，Client通過讀寫最近的資料中心來降低請求延遲

HBase中的Replication指的是主備叢集間的複製，用於將主叢集的寫入記錄複製到備叢集。HBase目前共支援3種Replication：

非同步Replication
序列Replication
同步Replication

一、HBase架構

如果想把HBase的Replication搞清楚，首先需要了解下HBase的架構。

HBase叢集是由一組程序組成的，程序按角色分為Master和RegionServer，其中Master負責DDL操作，比如建表、刪表，而RegionServer負責DML操作，比如資料的讀寫操作等。

從資料檢視上講，HBase中的Table會按Range切分為多個Region，然後由不同的RegionServer來負責對外提供服務。

RegionServer的內部則主要有BlockCache，MemStore和WAL等幾部分組成。

需要注意的是每個Region的每個Column Family有自己獨享的MemStore，但是BlockCache和WAL則是多個Region共享的。

WAL(Write-ahead logging)是資料庫中的常用技術，所有的修改在寫入資料庫之前都需要持久化到WAL中，從而確保了在出現故障的時候，可以從WAL中回放出已經成功寫入的資料。

二、非同步Replication

HBase中的Replication也是基於WAL的，其在主叢集的每個RegionServer程序內部起了一個叫做ReplicationSource的執行緒來負責Replication，

同時在備叢集的每個RegionServer內部起了一個ReplicationSink的執行緒來負責接收Replication資料。

ReplicationSource記錄需要同步的WAL佇列，然後不斷讀取WAL中的內容，同時可以根據Replication的配置做一些過濾，比如是否要複製這個表的資料等，

然後通過replicateWALEntry這個Rpc呼叫來發送給備叢集的RegionServer，備叢集的ReplicationSink執行緒則負責將收到的資料轉換為put/delete操作，以batch的形式寫入到備叢集中。

因為是後臺執行緒非同步的讀取WAL並複製到備叢集，所以這種Replication方式叫做非同步Replication，正常情況下備叢集收到最新寫入資料的延遲在秒級別。

三、序列Replication

注意：此功能是HBase 2.1中引入的。增加屬性：SERIAL => true

序列Replication指的是：對於某個Region來說，嚴格按照主叢集的寫入順序複製到備叢集，其是一種特殊的Replication。

同時預設的非同步Replication不是序列的，主要原因是Region是可以移動的，比如HBase在進行負載均衡時移動Region。

假設RegionA首先在RegionServer1上，然後其被移動到了RegionServer2上，由於非同步Replication是存在延遲的，

所以RegionA的最後一部分寫入記錄還沒有完全複製到備叢集上。在Region移動到RegionServer2之後，其開始接收新的寫入請求，並由RegionServer2來複制到備叢集，

所以在這個時候RegionServer1和RegionServer2會同時向備叢集進行復制，而且寫入記錄複製到備叢集的順序是不確定的。

如上圖所示這種極端情況下，還會導致主備叢集資料的不一致。比如RegionServer1上最後一個未同步的寫入操作是Put，

而RegionA被移動到RegionServer2上的第一個寫入操作是Delete，在主叢集上其寫入順序是先Put後Delete，

如果RegionServer2上的Delete操作先被複制到了備叢集，然後備叢集做了一次Major compaction，其會刪除掉這個Delete marker，然後Put操作才被同步到了備叢集，

因為Delete已經被Major compact掉了，這個Put將永遠無法被刪除，所以備叢集的資料將會比主叢集多。

解決這個問題的關鍵在於需要確保RegionServer2上的新寫入操作必須在RegionServer1上的寫入操作複製完成之後再進行復制。

所以序列Replication引入了一個叫做Barrier的概念，每當Region open的時候，就會寫入一個新的Barrier，其值是Region open時讀到的最大SequenceId加1。

SequenceId是HBase中的一個重要概念，每個Region都有一個SequenceId，其隨著資料寫入嚴格遞增，同時SequenceId會隨著每次寫入操作一起寫入到WAL中。

所以當Region移動的時候，Region會在新的RegionServer重新開啟，這時就會寫入一個新的Barrier，Region被移動多次之後，就會寫入多個Barrier，來將Region的寫入操作劃分成為多個區間。

同時每個Region都維護了一個lastPushedSequenceId，其代表這個Region當前推送成功的最後一個寫操作的SequenceId，

這樣就可以根據Barrier列表和lastPushedSequenceId來判斷WAL中的一個寫入操作是否能夠複製到備叢集了。

以上圖為例，Pending的寫入記錄就需要等待lastPushedSequenceId推到Barrier2之後才能開始複製。

由於每個區間之間只會有一個RegionServer來負責複製，所以只有和lastPushedSequenceId在同一個區間內的RegionServer才能進行復制，

並在複製成功後不斷更新lastPushedSequenceId，而在lastPushedSequenceId之後各個區間的RegionServer則需要等待lastPushedSequenceId被推到自己區間的起始Barrier，

然後才能開始複製，從而確保了Region的寫入操作可以嚴格按照主叢集的寫入順序序列的複製到備叢集。

# 串行復制鏈路
add_peer '1', CLUSTER_KEY => "server1.cie.com:2181:/hbase", SERIAL => true

# 設定為false，不可用
set_peer_serial '1',false

# 設定為true，可用
set_peer_serial '1', true

四、同步Replication

同步Replication是和非同步Replication對稱的概念，其指的是主叢集的寫入操作必須被同步的寫入到備叢集中。

非同步Replication的最大問題在於複製是存在延遲的，所以在主叢集整叢集掛掉的情況下，備叢集是沒有已經寫入的完整資料的，

對於一致性要求較高的業務來說，是不能把讀寫完全切到備叢集的，因為在這個時候可能存在部分最近寫入的資料無法從備叢集讀到。

所以同步Replication的核心思路就是在寫入主叢集WAL的同時，在備叢集上寫入一份RemoteWAL，只有同時在主叢集的WAL和備叢集的RemoteWAL寫入成功了，才會返回給Client說寫入成功。

這樣當主叢集掛掉的時候，便可以在備叢集上根據Remote WAL來回放出來主叢集上所有寫入記錄，從而確保備叢集和主叢集資料的一致。

需要注意的是，同步Replication是在非同步Replication的基礎之上的，也就是說非同步Replication的複製鏈路還會繼續保留，同時增加了新的寫Remote WAL的步驟。

對於具體的實現細節來說，首先是增加了一個Sync replication state的概念，其總共有三個狀態, 分別是Active，Downgrade Active和Standby。

這幾個狀態的轉換關係如下圖所示，Standby在提主的時候需要首先提升為Downgrade Active，然後才能提升為Active。但是Active是可以直接降級為Standby的。

目前這個狀態是儲存在ReplicationPeerConfig中的, 其表示一個叢集在這個ReplicationPeer中處於哪個狀態。

然後實現了一個DualAsyncFSWAL來同時寫主叢集的WAL和備份叢集的Remote WAL。寫WAL的操作是對於HDFS的rpc請求，其會有三種結果：成功，失敗或者超時。

當超時的時候，對於HBase來說結果是不確定的，即資料有可能成功寫入到WAL或Remote WAL裡了，也有可能沒有。只有同時寫成功或者同時寫失敗的時候，

主叢集和備叢集才會有一樣的WAL，如果是主叢集寫WAL成功，寫Remote WAL失敗或者超時，這時候主叢集WAL裡的資料就有可能比備叢集的Remote WAL多。

相反如果寫備叢集Remote WAL成功了，而主叢集的WAL寫失敗或者超時了，備叢集的Remote WAL裡的資料就有可能比主叢集多。當兩邊都超時的時候, 就不確定那邊多了。

所以同步複製的關鍵就在於在上述情況下，如何確保主備叢集資料的最終一致。即在切換主備叢集的時候，Client應該始終從主備叢集看到一致的資料。

而且在主備沒有達到一致的中間狀態時，需要一些限制來確保Client沒法讀到這種中間不一致的結果。所以總結一下就是主備叢集最終一致，

但對於Client來說是強一致，即成功寫入的資料無論主備叢集都要一定能讀到。具體的實現細節可以參考HBaseCon Asia 2018：HBase at Xiaomi[1]。

對比非同步複製來看，同步複製主要是影響的寫路徑，從我們的測試結果上來看，大概會有14%的效能下降，後續計劃在HBASE-20422[2]中進行優化。

五、自定義Replication Endpoint

除了上述3種Replication之外，HBase還支援外掛式的Replication Endpoint，可以自定義Replication Endpoint來實現各種各樣的功能。

引用：

http://blog.itpub.net/31559359/viewspace-2648711/

HBase——Replication（複製）原理

前言

一、HBase架構

二、非同步Replication

三、序列Replication

四、同步Replication

五、自定義Replication Endpoint

HBase——Replication（複製）原理

HBase——Replication（複製）實踐

Hbase基礎（六）：Sqoop 簡介與原理、安裝

hbase 學習（十三）叢集間備份原理

HBase 系列（七）——HBase 過濾器詳解

HBase 系列（六）——HBase Java API 的基本使用

HBase 系列（十）—— HBase 的 SQL 中間層 Phoenix

HBase 系列（九）——HBase 容災與備份

HBase 系列（八）——HBase 協處理器

HBase 系列（五）——HBase 常用 Shell 命令

HBase 系列（四）—— HBase 叢集環境配置

HBase 系列（二）—— HBase 系統架構及資料結構

HBase 系列（一）—— HBase 簡介

mysql儲存過程之遊標（DECLARE）原理與用法詳解

感知機（perceptron）原理總結

讀懂作業系統之快表（TLB）原理（七）

Hbase基礎（二）：HBase 快速入門

Hbase基礎（七）：Sqoop 的簡單使用案例

Hbase基礎（十）：Kylin環境搭建

Hbase基礎（十三）：Kylin Cube構建優化

HBase——Replication（複製）原理

前言

一、HBase架構

二、非同步Replication

三、序列Replication

四、同步Replication

五、自定義Replication Endpoint

相關推薦