1. 程式人生 > 其它 >zk在kafka中的作用

zk在kafka中的作用

kafka與zookeeper的關係


kafka叢集只得就是Broker叢集,producer和consumer 對kafka來說都是客戶端。

zk在kafka中的作用:

zk只管理broker、consumer,他們在zk上都真實的存了具體資料;Producer端直接連線broker,不在zk上存任何資料,只註冊監聽,監聽broker和topic資訊。

只有在zk的節點上存了資料才算被zk管理,只註冊監聽不算被zk管理。




1)Producer端直接連線broker.list列表,從列表中返回TopicMetadataResponse,該Metadata包含Topic下每個partition leader建立socket連線併發送訊息.

2)Broker端使用zookeeper用來註冊broker和topic資訊,以及監控partition leader存活性.

3)Consumer端使用zookeeper用來註冊consumer資訊,其中包括consumer消費的partition列表、消費者的offset等,同時也用來監聽 broker列表,並和partition leader建立socket連線,並獲取訊息。



Zookeeper作用:管理broker、consumer

建立Broker後,向zookeeper註冊新的broker資訊,實現在伺服器正常執行下的水平拓展。具體的,通過註冊watcher,獲取partition的資訊。

Topic的註冊,zookeeper會維護topic與broker的關係,通/brokers/topics/topic.name節點來記錄。

Producer向zookeeper中註冊watcher,瞭解topic的partition的訊息,以動態瞭解執行情況,實現負載均衡。Zookeepr不管理producer,只是能夠提供當前broker的相關資訊。

Consumer可以使用group形式消費kafka中的資料。所有的group將以輪詢的方式消費broker中的資料,具體的按照啟動的順序。Zookeeper會給每個consumer group一個ID,即同一份資料可以被不同的使用者ID多次消費。因此這就是單播與多播的實現。以單個消費者還是以組別的方式去消費資料,由使用者自己去定義。Zookeeper管理consumer的offset跟蹤當前消費的offset。

kafka使用ZooKeeper用於管理、協調代理。每個Kafka代理通過Zookeeper協調其他Kafka代理。
當Kafka系統中新增了代理或某個代理失效時,Zookeeper服務將通知生產者和消費者。生產者與消費者據此開始與其他代理協調工作。

Zookeeper在Kakfa中扮演的角色:Kafka將元資料資訊儲存在Zookeeper中,但是傳送給Topic本身的資料是不會發到Zk上的

kafka使用zookeeper來實現動態的叢集擴充套件,不需要更改客戶端(producer和consumer)的配置。broker會在zookeeper註冊並保持相關的元資料(topic,partition資訊等)更新。
而客戶端會在zookeeper上註冊相關的watcher。一旦zookeeper發生變化,客戶端能及時感知並作出相應調整。這樣就保證了新增或去除broker時,各broker間仍能自動實現負載均衡。這裡的客戶端指的是Kafka的訊息生產端(Producer)和訊息消費端(Consumer)

Broker端使用zookeeper來註冊broker資訊,以及監測partitionleader存活性.
Consumer端使用zookeeper用來註冊consumer資訊,其中包括consumer消費的partition列表等,同時也用來發現broker列表,並和partitionleader建立socket連線,並獲取訊息.

Zookeer和Producer沒有建立關係,只和Brokers、Consumers建立關係以實現負載均衡,即同一個ConsumerGroup中的Consumers可以實現負載均衡(因為Producer是瞬態的,可以傳送後關閉,無需直接等待)

1、Broker註冊
Broker是分散式部署並且相互之間相互獨立,但是需要有一個註冊系統能夠將整個叢集中的Broker管理起來,此時就使用到了Zookeeper。在Zookeeper上會有一個專門用來進行Broker伺服器列表記錄的節點:

/brokers/ids

每個Broker在啟動時,都會到Zookeeper上進行註冊,即到/brokers/ids下建立屬於自己的節點,如/brokers/ids/[0...N]。

Kafka使用了全域性唯一的數字來指代每個Broker伺服器,不同的Broker必須使用不同的Broker ID進行註冊,建立完節點後,每個Broker就會將自己的IP地址和埠資訊記錄到該節點中去。其中,Broker建立的節點型別是臨時節點,一旦Broker宕機,則對應的臨時節點也會被自動刪除。

2、Topic註冊
在Kafka中,同一個Topic的訊息會被分成多個分割槽並將其分佈在多個Broker上,這些分割槽資訊及與Broker的對應關係也都是由Zookeeper在維護,由專門的節點來記錄,如:

/borkers/topics

Kafka中每個Topic都會以/brokers/topics/[topic]的形式被記錄,如/brokers/topics/login和/brokers/topics/search等。Broker伺服器啟動後,會到對應Topic節點(/brokers/topics)上註冊自己的Broker ID並寫入針對該Topic的分割槽總數,如/brokers/topics/login/3->2,這個節點表示Broker ID為3的一個Broker伺服器,對於"login"這個Topic的訊息,提供了2個分割槽進行訊息儲存,同樣,這個分割槽節點也是臨時節點。

3、生產者負載均衡
由於同一個Topic訊息會被分割槽並將其分佈在多個Broker上,因此,生產者需要將訊息合理地傳送到這些分散式的Broker上,那麼如何實現生產者的負載均衡,Kafka支援傳統的四層負載均衡,也支援Zookeeper方式實現負載均衡。

(1) 四層負載均衡,根據生產者的IP地址和埠來為其確定一個相關聯的Broker。通常,一個生產者只會對應單個Broker,然後該生產者產生的訊息都發往該Broker。這種方式邏輯簡單,每個生產者不需要同其他系統建立額外的TCP連線,只需要和Broker維護單個TCP連線即可。但是,其無法做到真正的負載均衡,因為實際系統中的每個生產者產生的訊息量及每個Broker的訊息儲存量都是不一樣的,如果有些生產者產生的訊息遠多於其他生產者的話,那麼會導致不同的Broker接收到的訊息總數差異巨大,同時,生產者也無法實時感知到Broker的新增和刪除。

(2) 使用Zookeeper進行負載均衡,由於每個Broker啟動時,都會完成Broker註冊過程,生產者會通過該節點的變化來動態地感知到Broker伺服器列表的變更,這樣就可以實現動態的負載均衡機制。

4、消費者負載均衡
與生產者類似,Kafka中的消費者同樣需要進行負載均衡來實現多個消費者合理地從對應的Broker伺服器上接收訊息,每個消費者分組包含若干消費者,每條訊息都只會傳送給分組中的一個消費者,不同的消費者分組消費自己特定的Topic下面的訊息,互不干擾。

5、分割槽 與 消費者 的關係
消費組 (Consumer Group):
consumer group 下有多個 Consumer(消費者)。
對於每個消費者組 (Consumer Group),Kafka都會為其分配一個全域性唯一的Group ID,Group 內部的所有消費者共享該 ID。訂閱的topic下的每個分割槽只能分配給某個 group 下的一個consumer(當然該分割槽還可以被分配給其他group)。
同時,Kafka為每個消費者分配一個Consumer ID,通常採用"Hostname:UUID"形式表示。

在Kafka中,規定了每個訊息分割槽 只能被同組的一個消費者進行消費,因此,需要在 Zookeeper 上記錄 訊息分割槽 與 Consumer 之間的關係,每個消費者一旦確定了對一個訊息分割槽的消費權力,需要將其Consumer ID 寫入到 Zookeeper 對應訊息分割槽的臨時節點上,例如:

/consumers/[group_id]/owners/[topic]/[broker_id-partition_id]

其中,[broker_id-partition_id]就是一個 訊息分割槽 的標識,節點內容就是該 訊息分割槽 上 消費者的Consumer ID。

6、訊息 消費進度Offset 記錄
在消費者對指定訊息分割槽進行訊息消費的過程中,需要定時地將分割槽訊息的消費進度Offset記錄到Zookeeper上,以便在該消費者進行重啟或者其他消費者重新接管該訊息分割槽的訊息消費後,能夠從之前的進度開始繼續進行訊息消費。Offset在Zookeeper中由一個專門節點進行記錄,其節點路徑為:

/consumers/[group_id]/offsets/[topic]/[broker_id-partition_id]

節點內容就是Offset的值。

7、消費者註冊
消費者伺服器在初始化啟動時加入消費者分組的步驟如下

註冊到消費者分組。每個消費者伺服器啟動時,都會到Zookeeper的指定節點下建立一個屬於自己的消費者節點,例如/consumers/[group_id]/ids/[consumer_id],完成節點建立後,消費者就會將自己訂閱的Topic資訊寫入該臨時節點。

對 消費者分組 中的 消費者 的變化註冊監聽。每個 消費者 都需要關注所屬 消費者分組 中其他消費者伺服器的變化情況,即對/consumers/[group_id]/ids節點註冊子節點變化的Watcher監聽,一旦發現消費者新增或減少,就觸發消費者的負載均衡。

對Broker伺服器變化註冊監聽。消費者需要對/broker/ids/[0-N]中的節點進行監聽,如果發現Broker伺服器列表發生變化,那麼就根據具體情況來決定是否需要進行消費者負載均衡。

進行消費者負載均衡。為了讓同一個Topic下不同分割槽的訊息儘量均衡地被多個 消費者 消費而進行 消費者 與 訊息 分割槽分配的過程,通常,對於一個消費者分組,如果組內的消費者伺服器發生變更或Broker伺服器發生變更,會發出消費者負載均衡。