Kafka叢集部署與shell命令列操作

阿新 • • 發佈：2019-02-06

1、kafka簡介
在流式計算中，Kafka一般用來快取資料，Storm通過消費Kafka的資料進行計算。

KAFKA + STORM +REDIS

1、Apache Kafka是一個開源訊息系統，由Scala寫成。是由Apache軟體基金會開發的一個開源訊息系統專案。
2、Kafka最初是由LinkedIn開發，並於2011年初開源。2012年10月從Apache Incubator畢業。該專案的目標是為處理實時資料提供一個統一、高通量、低等待的平臺。
3、Kafka是一個分散式訊息佇列：生產者、消費者的功能。它提供了類似於JMS的特性，但是在設計實現上完全不同，此外它並不是JMS規範的實現。
4、Kafka對訊息儲存時根據Topic進行歸類，傳送訊息者稱為Producer,訊息接受者稱為Consumer,此外kafka叢集有多個kafka例項組成，每個例項(server)稱為broker。
5、無論是kafka叢集，還是producer和consumer都依賴於zookeeper叢集儲存一些meta資訊，來保證系統可用性
注：類JMS訊息佇列，結合JMS中的兩種模式，可以有多個消費者主動拉取資料，在JMS中只有點對點模式才有消費者主動拉取資料。
2、kafka叢集部署

kafka叢集跟storm叢集類似，分為：下載安裝包、解壓安裝包、修改配置檔案、分發安裝包（之後需要在各個機器上再次修改配置檔案）、啟動叢集。

準備工作
這裡使用三臺機器進行叢集:mini1,mini2,mini3
關閉防火牆，各機器的hosts檔案如下

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6 localhost.jinbm 

192.168.25.127 mini1
192.168.25.129 mini2
192.168.25.130 mini3

1、下載安裝包並上傳到mini1機器上，這裡下載的是 kafka_2.11-0.8.2.0.tgz；
2、解壓安裝包導指定目錄，我這臺機器的apps目錄下安裝了很多大資料相關的軟體，所以解壓到該目錄了，並且重新命名。

[root@mini1 ~]# tar -zxvf kafka_2.11-0.8.2.0.tgz -C apps/
[root@mini1 ~]# cd apps/
[root@mini1 apps]# ll
總用量 28
drwxr-xr-x.  8 root   root   4096 
 10月 19 15:15 apache-flume-1.6.0-bin
drwxrwxr-x. 10 hadoop hadoop 4096 9月  30 22:04 hadoop-2.6.4
drwxr-xr-x.  7 root   root   4096 10月 30 00:20 hbase
drwxr-xr-x.  8 root   root   4096 10月 17 12:38 hive
drwxr-xr-x.  5 root   root   4096 1月  29 2015 kafka_2.11-0.8.2.0
drwxr-xr-x. 10 root   root   4096 10月 30 15:34 storm
drwxr-xr-x. 10 root   root   4096 10月 29 23:21 zookeeper-3.4.6
[root@mini1 apps]# mv kafka_2.11-0.8.2.0/ kafka
[root@mini1 apps]# ll
總用量 28
drwxr-xr-x.  8 root   root   4096 10月 19 15:15 apache-flume-1.6.0-bin
drwxrwxr-x. 10 hadoop hadoop 4096 9月  30 22:04 hadoop-2.6.4
drwxr-xr-x.  7 root   root   4096 10月 30 00:20 hbase
drwxr-xr-x.  8 root   root   4096 10月 17 12:38 hive
drwxr-xr-x.  5 root   root   4096 1月  29 2015 kafka
drwxr-xr-x. 10 root   root   4096 10月 30 15:34 storm
drwxr-xr-x. 10 root   root   4096 10月 29 23:21 zookeeper-3.4.6

3、修改配置檔案，進入kafka的config目錄下，可以檢視到各類配置檔案，這裡修改server.properties 。

[[email protected] config]# ll
總用量 32
-rw-r--r--. 1 root root 1199 1月  29 2015 consumer.properties
-rw-r--r--. 1 root root 3846 1月  29 2015 log4j.properties
-rw-r--r--. 1 root root 2228 1月  29 2015 producer.properties
-rw-r--r--. 1 root root 5559 1月  29 2015 server.properties
-rw-r--r--. 1 root root 3325 1月  29 2015 test-log4j.properties
-rw-r--r--. 1 root root  993 1月  29 2015 tools-log4j.properties
-rw-r--r--. 1 root root 1023 1月  29 2015 zookeeper.properties
[[email protected] config]# vi server.properties 
#broker的全域性唯一編號，不能重複
broker.id=0

#用來監聽連結的埠，producer或consumer將在此埠建立連線
port=9092

#處理網路請求的執行緒數量
num.network.threads=3

#用來處理磁碟IO的執行緒數量
num.io.threads=8

#傳送套接字的緩衝區大小
socket.send.buffer.bytes=102400

#接受套接字的緩衝區大小
socket.receive.buffer.bytes=102400

#請求套接字的緩衝區大小
socket.request.max.bytes=104857600

#kafka執行日誌存放的路徑
log.dirs=/root/apps/kafka

#topic在當前broker上的分片個數
num.partitions=2

#用來恢復和清理data下資料的執行緒數量
num.recovery.threads.per.data.dir=1

#segment檔案保留的最長時間，超時將被刪除
log.retention.hours=168

#滾動生成新的segment檔案的最大時間
log.roll.hours=168

#日誌檔案中每個segment的大小，預設為1G
log.segment.bytes=1073741824

#週期性檢查檔案大小的時間
log.retention.check.interval.ms=300000

#日誌清理是否開啟
log.cleaner.enable=true

#broker需要使用zookeeper儲存meta資料
zookeeper.connect=mini1:2181,mini2:2181,mini3:2181

#zookeeper連結超時時間
zookeeper.connection.timeout.ms=6000

#partion buffer中，訊息的條數達到閾值，將觸發flush到磁碟
log.flush.interval.messages=10000

#訊息buffer的時間，達到閾值，將觸發flush到磁碟
log.flush.interval.ms=3000

#刪除topic需要server.properties中設定delete.topic.enable=true否則只是標記刪除
delete.topic.enable=true

#此處的host.name為本機IP(重要),如果不改,則客戶端會丟擲:Producer connection to localhost:9092 unsuccessful 錯誤!
host.name=mini1

4、將mini1上的kafka分發到mini2和mini3上

[root@mini1 ~]# scp -r apps/kafka/ mini2:/root/apps/
[root@mini1 ~]# scp -r apps/kafka/ mini3:/root/apps/

5、再次修改mini2和mini3上的配置檔案server.properties，修改兩處，一個是broker編號一個是主機名
mini2上如下

#broker的全域性唯一編號，不能重複
broker.id=1
#此處的host.name為本機IP(重要),如果不改,則客戶端會丟擲:Producer connection to localhost:9092 unsuccessful 錯誤!
host.name=mini2

mini3上如下

#broker的全域性唯一編號，不能重複
broker.id=2
#此處的host.name為本機IP(重要),如果不改,則客戶端會丟擲:Producer connection to localhost:9092 unsuccessful 錯誤!
host.name=mini3

6、到這裡配置完了，但是為了不進入kafka的bin目錄下就能執行命令列操作，所以需要修改環境變數。三臺機器上修改均如下(新增最後兩行)

[[email protected] ~]# vi /etc/profile
...
JAVA_HOME=/heima32/jdk1.7.0_55/
HADOOP_HOME=/root/apps/hadoop-2.6.4
export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HBASE_HOME=/root/apps/hbase
export PATH=$PATH:$HBASE_HOME/bin
export STORM_HOME=/root/apps/storm
export PATH=$PATH:$STORM_HOME/bin
export KAFKA_HOME=/root/apps/kafka
export PATH=$PATH:$KAFKA_HOME/bin

7、啟動叢集
依次啟動mini1，mini2和mini3上的kafka（進入kafka安裝目錄執行以下命令）

[root@mini1 kafka]# bin/kafka-server-start.sh config/server.properties

3、kafka命令列操作
1、建立topic（注：因為修改了環境變數，所以不管有沒有進入bin目錄都能執行相應命令列操作）
引數表示：指定副本數，使用幾個partition（分片），topic名稱

[[email protected] bin]# ./kafka-topics.sh --create --zookeeper mini1:2181 --replication-factor 2 --partitions 3 --topic orderMq
Created topic "orderMq".
[[email protected] kafka]# kafka-topics.sh --create --zookeeper mini1:2181 --replication-factor 2 --partitions 3 --topic test
Created topic "test".

2、檢視當前存在哪些topic

[[email protected] kafka]# kafka-topics.sh --list --zookeeper mini1:2181
orderMq
test

3、刪除指定topic

[root@mini1 kafka]# kafka-topics.sh --delete --zookeeper mini1:2181 --topic test
Topic test is marked for deletion.
Note: This will have no impact if delete.topic.enable is not set to true.
[root@mini1 kafka]# kafka-topics.sh --list --zookeeper mini1:2181
orderMq

4、通過shell命令列傳送message(訊息)

[[email protected] bin]# kafka-console-producer.sh --broker-list mini1:9092 --topic orderMq
hello tom
hi jerry
spring ^H
hhaah
xixi
nini

5、通過shell命令列消費訊息

[[email protected] bin]# kafka-console-consumer.sh --zookeeper mini1:2181 -from-beginning --topic orderMq
hello tom
hi jerry
spring 
hhaah
xixi
nini

注：這裡的生成和消費是同順序的，但有時候是不會順序一致的，只能保證消費一個partition裡面的訊息時是一致，消費多個partition（上面指定了訊息被髮送到了4個partition）裡面的是不能保證順序完全一致。

6、檢視某個topic的詳情
orderMq這個topic有用了三個partition（自己建立的時候指定的），各自有2個副本（也是自己建立的時候指定的）以及對於的leader（用處後面講）。

[[email protected] bin]# ./kafka-topics.sh --topic orderMq --describe --zookeeper mini1:2181
Topic:orderMq   PartitionCount:3        ReplicationFactor:2     Configs:
        Topic: orderMq  Partition: 0    Leader: 2       Replicas: 2,0   Isr: 0,2
        Topic: orderMq  Partition: 1    Leader: 0       Replicas: 0,1   Isr: 0,1
        Topic: orderMq  Partition: 2    Leader: 1       Replicas: 1,2   Isr: 1,2

接下來再建立個topic並且檢視詳情（使用4個partition，兩個副本），並且進入執行日誌存放的路徑檢視

[[email protected] bin]# kafka-topics.sh --create --zookeeper mini1:2181 --replication-factor 2 --partitions 4 --topic payment
Created topic "payment".
[[email protected] bin]# kafka-topics.sh --topic payment --describe --zookeeper mini1:2181
Topic:payment   PartitionCount:4        ReplicationFactor:2     Configs:
        Topic: payment  Partition: 0    Leader: 2       Replicas: 2,1   Isr: 2,1
        Topic: payment  Partition: 1    Leader: 0       Replicas: 0,2   Isr: 0,2
        Topic: payment  Partition: 2    Leader: 1       Replicas: 1,0   Isr: 1,0
        Topic: payment  Partition: 3    Leader: 2       Replicas: 2,0   Isr: 2,0

[root@mini1 kafka]# cd kafka-logs/
[root@mini1 kafka-logs]# ll
總用量 32
-rw-r--r--. 1 root root    4 11月 21 22:34 cleaner-offset-checkpoint
drwxr-xr-x. 2 root root 4096 11月 21 22:25 orderMq-0
drwxr-xr-x. 2 root root 4096 11月 21 22:25 orderMq-1
drwxr-xr-x. 2 root root 4096 11月 21 23:13 payment-1
drwxr-xr-x. 2 root root 4096 11月 21 23:13 payment-2
drwxr-xr-x. 2 root root 4096 11月 21 23:13 payment-3
-rw-r--r--. 1 root root   64 11月 22 03:38 recovery-point-offset-checkpoint
-rw-r--r--. 1 root root   64 11月 22 03:39 replication-offset-checkpoint
[root@mini1 kafka-logs]# cd orderMq-1
[root@mini1 orderMq-1]# ll
總用量 4
-rw-r--r--. 1 root root 10485760 11月 21 22:31 00000000000000000000.index
-rw-r--r--. 1 root root      194 11月 21 22:39 00000000000000000000.log
#00000000000000000000.log裡面是傳送的訊息內容，亂碼就沒貼出來了。

Kafka叢集部署與shell命令列操作

Kafka叢集部署與shell命令列操作

kafka shell 命令列操作

MongoDB之——基於Shell命令列操作記錄

Shell命令列操作

kafka叢集部署與配置手冊

Spark單機與叢集安裝與簡單命令列使用

Kafka（二）： Kafka 叢集部署與使用

Kafka叢集部署及命令列操作

shell 從檔案中讀取批量檔名並做命令列操作

HDFS基本命令列操作與簡單API使用

大資料之hbase（一） --- HBase介紹，特性，安裝部署，shell命令，client端與hbase的互動過程，程式設計API訪問hbase實現百萬寫入

storm概述、叢集安裝和簡單的命令列操作

linux的命令列操作和shell的區別

kafka的命令列操作

maven專案的建立與配置、maven命令列操作、引數說明、依賴管理

有關HDFS程式設計：HDFS Shell命令列常見操作

shell命令列之檔案操作

HDFS的shell(命令列客戶端操作)

大資料（三十）：zookeeper叢集與kafka叢集部署

[非命令列操作]GitHub中的merge與conflict

Kafka叢集部署與shell命令列操作

相關推薦