腦裂是什麼？Zookeeper是如何解決的？

什麼是腦裂

腦裂(split-brain)就是“大腦分裂”，也就是本來一個“大腦”被拆分了兩個或多個“大腦”，我們都知道，如果一個人有多個大腦，並且相互獨立的話，那麼會導致人體“手舞足蹈”，“不聽使喚”。

腦裂通常會出現在叢集環境中，比如ElasticSearch、Zookeeper叢集，而這些叢集環境有一個統一的特點，就是它們有一個大腦，比如ElasticSearch叢集中有Master節點，Zookeeper叢集中有Leader節點。

本篇文章著重來給大家講一下Zookeeper中的腦裂問題，以及是如果解決腦裂問題的。

Zookeeper叢集中的腦裂場景

對於一個叢集，想要提高這個叢集的可用性，通常會採用多機房部署，比如現在有一個由6臺zkServer所組成的一個叢集，部署在了兩個機房：

正常情況下，此叢集只會有一個Leader，那麼如果機房之間的網路斷了之後，兩個機房內的zkServer還是可以相互通訊的，如果不考慮過半機制，那麼就會出現每個機房內部都將選出一個Leader。

這就相當於原本一個叢集，被分成了兩個叢集，出現了兩個“大腦”，這就是腦裂。

對於這種情況，我們也可以看出來，原本應該是統一的一個叢集對外提供服務的，現在變成了兩個叢集同時對外提供服務，如果過了一會，斷了的網路突然聯通了，那麼此時就會出現問題了，兩個叢集剛剛都對外提供服務了，資料該怎麼合併，資料衝突怎麼解決等等問題。

剛剛在說明腦裂場景時，有一個前提條件就是沒有考慮過半機制，所以實際上Zookeeper叢集中是不會出現腦裂問題的，而不會出現的原因就跟過半機制有關。

過半機制

在領導者選舉的過程中，如果某臺zkServer獲得了超過半數的選票，則此zkServer就可以成為Leader了。

過半機制的原始碼實現其實非常簡單：

public class QuorumMaj implements QuorumVerifier {
    private static final Logger LOG = LoggerFactory.getLogger(QuorumMaj.class);
    
    int half;
    
    // n表示叢集中zkServer的個數（準確的說是參與者的個數，參與者不包括觀察者節點）
    public QuorumMaj(int n){
        this.half = n/2;
    }

    // 驗證是否符合過半機制
    public boolean containsQuorum(Set<Long> set){
        // half是在構造方法裡賦值的
        // set.size()表示某臺zkServer獲得的票數
        return (set.size() > half);
    }
    
}

大家仔細看一下上面方法中的註釋，核心程式碼就是下面兩行：

this.half = n/2;
return (set.size() > half);

舉個簡單的例子：
如果現在叢集中有5臺zkServer，那麼half=5/2=2，那麼也就是說，領導者選舉的過程中至少要有三臺zkServer投了同一個zkServer，才會符合過半機制，才能選出來一個Leader。

那麼有一個問題我們想一下，選舉的過程中為什麼一定要有一個過半機制驗證？
因為這樣不需要等待所有zkServer都投了同一個zkServer就可以選舉出來一個Leader了，這樣比較快，所以叫快速領導者選舉演算法唄。

那麼再來想一個問題，過半機制中為什麼是大於，而不是大於等於呢？

這就是更腦裂問題有關係了，比如回到上文出現腦裂問題的場景：

當機房中間的網路斷掉之後，機房1內的三臺伺服器會進行領導者選舉，但是此時過半機制的條件是set.size() > 3，也就是說至少要4臺zkServer才能選出來一個Leader，所以對於機房1來說它不能選出一個Leader，同樣機房2也不能選出一個Leader，這種情況下整個叢集當機房間的網路斷掉後，整個叢集將沒有Leader。

而如果過半機制的條件是set.size() >= 3，那麼機房1和機房2都會選出一個Leader，這樣就出現了腦裂。所以我們就知道了，為什麼過半機制中是大於，而不是大於等於。就是為了防止腦裂。

如果假設我們現在只有5臺機器，也部署在兩個機房：

此時過半機制的條件是set.size() > 2，也就是至少要3臺伺服器才能選出一個Leader，此時機房件的網路斷開了，對於機房1來說是沒有影響的，Leader依然還是Leader，對於機房2來說是選不出來Leader的，此時整個叢集中只有一個Leader。

所以，我們可以總結得出，有了過半機制，對於一個Zookeeper叢集，要麼沒有Leader，要沒只有1個Leader，這樣就避免了腦裂問題。

有痛點才有創新，一個技術肯定都是為了解決某個痛點才出現的。

請幫忙轉發一下，如果想第一時間學習更多的精彩的內容，請關注微信公眾號：1點25

腦裂是什麼？Zookeeper是如何解決的？

什麼是腦裂

Zookeeper叢集中的腦裂場景

過半機制

腦裂是什麼？Zookeeper是如何解決的？

Zookeeper和分散式環境中的假死腦裂問題

Zookeeper已經分散式環境中的假死腦裂

Zookeeper和分散式環境中的假死腦裂問題（轉發）

keepalived中的腦裂

keepalive和腦裂問題

說說Keepalived的腦裂

keepalived腦裂問題查找

rabbitmq 腦裂(網絡分區)

keepalived 功能、原理、腦裂

drbd腦裂處理

Yarn ResourceManager進行主從切換時發生腦裂原因分析

19-05、redis哨兵主備切換的資料丟失問題：非同步複製、叢集腦裂

elasticsearch的腦裂問題

Elasticsearch分片/腦裂/優化

什麼是高可用HA(High Availability)“腦裂"

Zookeeper異常ConnectionLossException解決

keepalived工作原理及裂腦

zookeeper集群查看狀態時報錯Error contacting service. It is probably not running的一些坑以及解決辦法

ZooKeeper應用——解決分布式系統單點故障

腦裂是什麼？Zookeeper是如何解決的？

什麼是腦裂

Zookeeper叢集中的腦裂場景

過半機制

相關推薦