1. 程式人生 > 其它 >Kafka架構看這篇就夠了

Kafka架構看這篇就夠了

kafka主要作用

  • Kafka 為實時日誌流而生,要處理的併發和資料量非常大。可見,Kafka 本身就是一個高併發系統,它必然會遇到高併發場景下典型的三高挑戰:!!#ff0000 高效能、高可用和高擴充套件。!!
  • 為了簡化實現的複雜度,Kafka 最終採用了很巧妙的訊息模型:它將所有訊息進行了持久化儲存,讓消費者自己各取所需,想取哪個訊息,想什麼時候取都行,只需要傳遞一個訊息的 offset 進行拉取即可。

最終 Kafka 將自己退化成了一個!!#ff0000 「儲存系統」!!。因此,海量訊息的儲存問題就是 Kafka 架構設計中的最大技術難點。

Kafka 究竟是如何解決儲存問題的

一條訊息的流轉路徑就如下圖所示,先走主題路由,然後走分割槽路由,最終決定這條訊息該發往哪個分割槽:

其中分割槽路由可以簡單理解成一個 Hash 函式,生產者在傳送訊息時,完全可以自定義這個函式來決定分割槽規則。如果分割槽規則設定合理,所有訊息將均勻地分配到不同的分割槽中。

通過這樣兩層關係,最終在 Topic 之下,就有了一個新的劃分單位:Partition。先通過 Topic 對訊息進行邏輯分類,然後通過 Partition 進一步做物理分片,最終多個 Partition 又會均勻地分佈在叢集中的每臺機器上,從而很好地解決了儲存的擴充套件性問題。

因此,Partition 是 Kafka 最基本的部署單元。

消費組的概念引出

假設現在有兩個 Topic,每個 Topic 都設定了兩個 Partition,如果 Kafka 叢集是兩臺機器,部署架構將會是下面這樣:

可以看到:同一個 Topic 的兩個 Partition 分佈在不同的訊息伺服器上,能做到訊息的分散式儲存了。但是對於 Kafka 這個高併發系統來說,僅儲存可擴充套件還不夠,訊息的拉取也必須並行才行,否則會遇到極大的效能瓶頸。

  • 廣播消費能力:同一個 Topic 可以被多個消費者訂閱,一條訊息能夠被消費多次。
  • 叢集消費能力:當消費者本身也是叢集時,每一條訊息只能分發給叢集中的一個消費者進行處理。

為了滿足這兩點要求,Kafka 引出了!!#ff0000 消費組!!的概念

做一個假設,假設主題 A 共有 4 個分割槽,消費組 2 只有兩個消費者,最終這兩個消費組將平分整個負載,各自消費兩個分割槽的訊息。Kafka 還限定了:!!#ff0000 每個 Partition 只能由消費組中的一個消費者進行消費!!

Kafka叢集
假設 Kafka 叢集中有 4 臺伺服器,主題 A 和主題 B 都有兩個 Partition,且每個 Partition 各有兩個副本,那最終的多副本架構將如下圖所示:

這樣任何一個叢集宕機了,也不影響Kafka的可用性

kafka整體的架構

1、Producer:生產者,負責建立訊息,然後投遞到 Kafka 叢集中,投遞時需要指定訊息所屬的 Topic,同時確定好發往哪個 Partition。
2、Consumer:消費者,會根據它所訂閱的 Topic 以及所屬的消費組,決定從哪些 Partition 中拉取訊息。
3、Broker:訊息伺服器,可水平擴充套件,負責分割槽管理、訊息的持久化、故障自動轉移等。
4、Zookeeper:負責叢集的元資料管理等功能,比如叢集中有哪些 broker 節點以及 Topic,每個 Topic 又有哪些 Partition 等。