Python呼叫Kafka傳送資料

阿新 • • 發佈：2020-10-16

來源於 https://www.cnblogs.com/FG123/p/10091478.html

Kafka是一種分散式的基於釋出/訂閱的訊息系統，它的高吞吐量、靈活的offset是其它訊息系統所沒有的。

Kafka傳送訊息主要有三種方式：

1.傳送並忘記 2.同步傳送 3.非同步傳送+回撥函式

下面以單節點的方式分別用三種方法傳送1w條訊息測試：

方式一：傳送並忘記(不關心訊息是否正常到達，對返回結果不做任何判斷處理)

傳送並忘記的方式本質上也是一種非同步的方式，只是它不會獲取訊息傳送的返回結果，這種方式的吞吐量是最高的，但是無法保證訊息的可靠性：

 1 import pickle
 2 import time
 3 from kafka import KafkaProducer
 4 
 5 producer = KafkaProducer(bootstrap_servers=['192.168.33.11:9092'],
 6                          key_serializer=lambda k: pickle.dumps(k),
 7                          value_serializer=lambda v: pickle.dumps(v))
 8 
 9 start_time = time.time()
10 for i in range(0, 10000):
11     print('------{}---------'.format(i))
12     future = producer.send('test_topic', key='num', value=i, partition=0)
13 
14 # 將緩衝區的全部訊息push到broker當中
15 producer.flush()
16 producer.close()
17 
18 end_time = time.time()
19 time_counts = end_time - start_time
20 print(time_counts)

測試結果：1.88s

方式二：同步傳送(通過get方法等待Kafka的響應，判斷訊息是否傳送成功)

以同步的方式傳送訊息時，一條一條的傳送，對每條訊息返回的結果判斷，可以明確地知道每條訊息的傳送情況，但是由於同步的方式會阻塞，只有當訊息通過get返回future物件時，才會繼續下一條訊息的傳送：

 1 import pickle
 2 import time
 3 from kafka import KafkaProducer
 4 from kafka.errors import kafka_errors
 5 
 6 producer = KafkaProducer(
 7     bootstrap_servers=['192.168.33.11:9092'],
 8     key_serializer=lambda k: pickle.dumps(k),
 9     value_serializer=lambda v: pickle.dumps(v)
10 )
11 
12 start_time = time.time()
13 for i in range(0, 10000):
14     print('------{}---------'.format(i))
15     future = producer.send(topic="test_topic", key="num", value=i)
16     # 同步阻塞,通過呼叫get()方法進而保證一定程式是有序的.
17     try:
18         record_metadata = future.get(timeout=10)
19         # print(record_metadata.topic)
20         # print(record_metadata.partition)
21         # print(record_metadata.offset)
22     except kafka_errors as e:
23         print(str(e))
24 
25 end_time = time.time()
26 time_counts = end_time - start_time
27 print(time_counts)

測試結果：16s

方式三：非同步傳送+回撥函式(訊息以非同步的方式傳送，通過回撥函式返回訊息傳送成功/失敗)

在呼叫send方法傳送訊息的同時，指定一個回撥函式，伺服器在返回響應時會呼叫該回調函式，通過回撥函式能夠對異常情況進行處理，當呼叫了回撥函式時，只有回撥函式執行完畢生產者才會結束，否則一直會阻塞：

 1 import pickle
 2 import time
 3 from kafka import KafkaProducer
 4 
 5 producer = KafkaProducer(
 6     bootstrap_servers=['192.168.33.11:9092'],
 7     key_serializer=lambda k: pickle.dumps(k),
 8     value_serializer=lambda v: pickle.dumps(v)
 9 )
10 
11 
12 def on_send_success(*args, **kwargs):
13     """
14     傳送成功的回撥函式
15     :param args:
16     :param kwargs:
17     :return:
18     """
19     return args
20 
21 
22 def on_send_error(*args, **kwargs):
23     """
24     傳送失敗的回撥函式
25     :param args:
26     :param kwargs:
27     :return:
28     """
29 
30     return args
31 
32 
33 start_time = time.time()
34 for i in range(0, 10000):
35     print('------{}---------'.format(i))
36     # 如果成功,傳進record_metadata,如果失敗,傳進Exception.
37     producer.send(
38         topic="test_topic", key="num", value=i
39     ).add_callback(on_send_success).add_errback(on_send_error)
40 
41 producer.flush()
42 producer.close()
43 
44 end_time = time.time()
45 time_counts = end_time - start_time
46 print(time_counts)

測試結果：2.15s

三種方式雖然在時間上有所差別，但並不是說時間越快的越好，具體要看業務的應用場景：

場景1：如果業務要求訊息必須是按順序傳送的，那麼可以使用同步的方式，並且只能在一個partation上，結合引數設定retries的值讓傳送失敗時重試，設定max_in_flight_requests_per_connection=1，可以控制生產者在收到伺服器晌應之前只能傳送1個訊息，從而控制訊息順序傳送；

場景2：如果業務只關心訊息的吞吐量，容許少量訊息傳送失敗，也不關注訊息的傳送順序，那麼可以使用傳送並忘記的方式，並配合引數acks=0，這樣生產者不需要等待伺服器的響應，以網路能支援的最大速度傳送訊息；

場景3：如果業務需要知道訊息傳送是否成功，並且對訊息的順序不關心，那麼可以用非同步+回撥的方式來發送訊息，配合引數retries=0，並將傳送失敗的訊息記錄到日誌檔案中；

Python呼叫Kafka傳送資料

Python呼叫Kafka傳送資料

python呼叫outlook傳送郵件示例

python 消費 kafka 資料教程

python使用 request 傳送表單資料操作示例

python呼叫HEG工具批量處理MODIS資料的方法及注意事項

Kafka 入門（一）--安裝配置和 kafka-python 呼叫

呼叫python介面實現傳送郵件

python+sparkStreaming+kafka之大資料實時流

python 呼叫API介面獲取和解析 Json資料

基於python模擬TCP3次握手連線及傳送資料

Python呼叫飛書傳送訊息的示例

python通過UDP/TCP方式傳送資料

Kafka使用詳解-Producer API（同步傳送資料）

Python 呼叫 C 語言（使用 C 函式處理 NumPy 資料）

python 呼叫widows 微信快捷鍵，進行自動傳送微信訊息

WebRTC SFU中傳送資料包丟失反饋

python3實現從kafka獲取資料,並解析為json格式,寫入到mysql中

Python實現讀取SQLServer資料並插入到MongoDB資料庫的方法示例

用python簡單實現mysql資料同步到ElasticSearch的教程

Python實現生成隨機資料插入mysql資料庫的方法

Python呼叫Kafka傳送資料

相關推薦