架構師都該懂的 CAP 定理
面對可能出現的網路延遲,不可預估的請求流量等情況,設計一個分散式系統,我們通常圍繞系統高可用,資料一致性的目標去規劃和實現,想要完全實現這個目標,卻並非易事。由此,分散式系統領域誕生了一個基本定理,即 CAP 定理,用於指導分散式系統的設計,從系統高可用,資料一致性,網路容錯三個角度將分散式系統的特性抽成一個分割槽容錯一致性模型。這樣一來,讓系統設計者只需根據業務場景特點,進行權衡設計適合業務場景的分割槽容錯一致性模型即可,很大程度簡化了分散式系統設計的難度。
也因此,CAP 定理是架構師所必須要掌握的內容,它影響著架構師對分散式系統的技術選型,技術決策。既然如此重要,接下來,我們就一起學習下 CAP 定理吧。
什麼是 CAP
CAP 定理最初是由加州大學伯克利分校的電腦科學家埃裡克·布魯爾(Eric Brewer)在 2000 年的 ACM PODC 上提出的一個猜想,也因此被叫做布魯爾定理。後來在 2002 年,麻省理工學院的賽斯·吉爾伯特(Seth Gilbert)和南希·林奇(Nancy Lynch)發表了 CAP 定理的證明,讓它成為分散式系統領域公認的一個定理。
CAP 定理指出了,在一個跨區域網路連線,共享資料的分散式系統中,一致性(Consistency),可用性(Availability)和分割槽容錯性(Partition Tolerance) 這三個約束屬性最終只能同時滿足二個。
下面是關於這三個屬性的簡單描述:
- 一致性:客戶端進行讀操作得到的資料永遠是最近一次寫入的資料,要求了對資料讀寫的強一致性。
- 可用性:客戶端的請求在限定時間內總能從非故障的系統節點得到正常的響應,其中不能有超時,不能出錯如 502之類。
- 分割槽容錯性:就是出現網路分割槽現象,即節點間無法正常通訊,資料同步出現延時等情況時,系統仍能繼續提供服務。
需要注意的是,CAP 描述了一個常規的分散式系統場景:有網路連線,且資料跨節點進行共享。如果在整個系統中,資料只有一份,並且其他節點沒有對應的副本,也不需要進行跨節點的資料共享,這樣分散式系統就不是 CAP 關心的物件了,也談不上結合 CAP 定理去設計和實施。
深入認識 CAP
瞭解 CAP 基本概念之後,我們再來分別對 C,A,P 三個屬性進一步學習下,加深對 CAP 的理解。
C:一致性
這裡的一致性從不同角度有著各自的描述方式,在分散式系統中表現是每個節點的資料是相同;而對於客戶端,表現是讀操作所得到的結果永遠是最新寫入的。其中需要明確的是,對於分散式系統節點來說,是可能出現某個時刻擁有不同的資料的情況:如果在某個節點執行原子性操作時,對於執行過程中的節點資料跟其他節點就並不完全一致,只有原子性操作執行完成後,節點的資料才會繼續保持同步。比如常見的事務操作,只有事務提交後,客戶端才能讀取到事務寫入的資料,失敗則回滾為舊的資料,不會出現讀取事務中間寫入資料的情況。
一致性要求了在分散式環境下的操作要就像在單機上完成的一樣,當客戶端發起寫請求時,收到寫請求的節點會及時響應,並將更新的資料同步到另一個節點,保證資料一致性。具體的工作流程,如下所示:
- 客戶端向節點 1 傳送寫操作,將資料 X 更新為 1 ,
- 更新操作成功,系統將更新的資料從節點 1 同步到節點 2,將節點 2 的舊資料 X 也更新為 1。
- 客戶端再向節點 2 傳送讀操作獲取資料 X 時,就會得到 X 最新的值:1。
一致性強調了資料的強一致,這一點要求對於一些系統可以說是十分重要的。比如電商系統的庫存扣減,金融系統的轉賬扣款等場景,任何出現一致性的問題,都可能會造成很嚴重的後果。
A:可用性
介紹完一致性,再來看下可用性,雖然可用性概念相對簡單,但重要程度跟一致性一樣。要讓系統滿足可用性,就是要保證無論除了所有節點出現故障的情況外,系統都能返回有效的響應,允許響應給客戶端是舊的資料,但不能出現響應失敗,超時的情況。
可用性強調的是服務可用,但不保證資料的正確性。用一個簡單的例子來描述分散式系統的可用性如下:允許客戶端向節點 1 或者節點 2 發起讀操作,當其中某一個節點故障了,不管節點間資料是否一致,只要有節點服務能收到請求,就響應 X 的值,這樣就說明這兩個節點服務是滿足可用性。
在可用性的描述,還值得一提的是關於什麼算有效的響應。要返回有效的響應,不能超時,也不能出錯,結果不一定是正確的,比如返回了舊資料,但是客戶端接收到後是能進行正常業務處理的。
P:分割槽容錯性
講完 C 和 A 之後,最後再講一下 P: 分割槽容錯性。由於分散式系統多個節點往往部署在多個網路環境下進行相互通訊,就難免出現一些網路故障,如網路丟包,網路訊息延遲,網路中斷等情況,會導致節點間的通訊出現問題,資料同步操作無法完成,分割槽容錯性就要求了系統即使在網路分割槽出現的情況下,能仍繼續對客戶端提供服務。
因為分散式系統與單機不同,它涉及到了多節點間的通訊和資料互動,避免不了網路問題,如果沒有分割槽容錯性,就意味著系統不允許出現節點間的通訊出現任何錯誤,錯誤就意味著系統不可用,這在絕大數系統中無法接受的。因此對節點間的分割槽故障容錯是必須要考慮的,也是 CAP 定理中分割槽容錯性通常首先要保證的原因。
如何應用 CAP 定理
瞭解完 CAP 定理的一致性(C),可用性(A)和分割槽容錯性(P)之後,我們再來看下如何使用這個定理。CAP 定理指明瞭 C,A,P三個屬性無法同時滿足,而在必有網路互動和資料同步的情況下,就一定會有延遲和資料丟失的情況,對於這種情況我們又必須接受且保證系統不能掛掉。所以分割槽容錯性是必須要保證的,剩下的就是在一致性 (C)和可用性(A)之間做選擇了。選擇了一致性,保證資料正確性,但也意味系統可能存在不可用的情況;而選擇可用性,保證服務的高可用,但也意味資料可能出現不一致性的情況。接下來就探討下應用採用 CP 架構,AP 架構所各自的特點,以及如何根據不同的分散式場景選擇適合的架構策略。
CP
對於 CP 架構的分散式系統來說,為了保證一致性,當出現網路分割槽後,如果節點 1 上資料 X 已經更新為 2,但由於節點 間資料同步的通道已經中斷,節點 1 資料無法同步到節點 2,節點 2 上的資料 X 還是 1。此時如果客戶端訪問節點 2 的資料 X,節點 2 就需要返回錯誤,提示系統發生了錯誤,直到節點間的資料保持同步。當然這樣的處理方式明顯違背了可用性的要求,因此在 CAP 定理只能滿足 CP。
如果一個分散式場景需要很強的一致性,或者能容忍系統長時間無響應但是資料要保持一致的情況,就比較適合使用 CP 架構設計對應的分散式系統。這樣的系統一旦發生網路分割槽會導致資料無法同步情況,就要犧牲系統的可用性,直到節點資料達到一致後再響應。在開源社群中採用 CP 架構的應用不少,比如 Redis,HBase,MongoDB,ZooKeeper,Etcd,Consul 等都是放棄了一定可用性而選擇 CP 屬性。
AP
如果採用 AP 架構設計的分散式系統,為了保證可用性,當網路分割槽發生後,同樣節點 1 上資料 X 已經更新為 2,但由於節點間資料同步的通道已經中斷,節點 1 資料無法同步到節點 2,節點 2 上的資料 X 還是 1。這是客戶端訪問節點 2 獲取資料 X 時,收到是正常的響應,舊資料 X = 1,而實際上當前最新的資料 X 已經是 2 了,這裡就不滿足一致性的要求了,因此在 CAP 定理只能滿足 AP。
同樣適合 AP 的場景有很多,比如一些查詢系統,電商系統的商品查詢等,大多數為了保證系統的可用性,而犧牲一定的資料一致性,這樣也保證了使用者體驗,在開源界中採用 AP 模型的典型應用有 Eurka,Cassandra。
必須三選二嗎
提到了 CAP 定理,大多數人都認為無論什麼情況,分散式系統只能在 C 和 A 中選擇一個。但這裡的前提是系統發生了網路分割槽情況,如果系統沒有發生網路分割槽的情況,也就是說 P 不存在的時候,我們就沒有必要放棄 C 或者 A,因此進行架構設計時也應該考慮沒有分割槽情況下如何保證 CA。除此之外,一個分散式系統不一定只能從 AP 與 CP 中做選擇,內部不同模組所應對的場景也不同,完全有可能是一個模組採用 AP 架構,另一個模組採用 CP 架構。作為優秀的架構師,不應該受到大多數人對 CAP 定理所認識的侷限,設計出符合自身業務場景的分散式系統才是重中之重。
總結
本文主要了解和認識 CAP 定理,以及每個 C,A,P 的含義,以及 CAP 定理的應用。掌握 CAP 定理,對架構師來說非常重要。因為對於分散式系統來說,網路故障在所難免,如何在出現網路故障的時候,維持系統按照正常的行為邏輯執行就顯得尤為重要。一個合格的架構師需要是能結合實際的業務場景和具體需求,基於 CAP 定理來進行權衡和設計可用且穩定的分散式系統。
參考資料
CAP theorem - Wikipedia
https://en.wikipedia.org/wiki/CAP_theorem想成為架構師,你必須知道CAP理論
https://time.geekbang.org/column/article/9302CAP定理:三選二,架構師必須學會的取捨
https://time.geekbang.org/column/article/93044
本文由部落格一文多發平臺 OpenWrite 釋出!