1. 程式人生 > >Python通過SSH隧道鏈接Kafka

Python通過SSH隧道鏈接Kafka

available nobrokers kafka

Python通過SSH隧道鏈接Kafka

最近有一個需求需要連接Kafka,但是它只允許內網鏈接,但是有些服務跑在服務器上總沒有在我本機調試起來爽,畢竟很多開發工具還是在客戶端機器上用的熟練。於是我想到了通過SSH連接Kafka,至於怎麽連接可以通過XShellProxifier等等,由於個人還是覺得自己寫更靈活,所以我是用Python裏的sshtunnel寫的(有需要後面我也可以分享下),個人喜好啊,你們自行選擇。

由於筆者這裏的Kafka環境使用Zookeeper做分布式部署,有多個brokerIP地址,不過這樣難不倒,大不了映射多幾個端口,一切都似乎很順利,SSH隧道建立起來,端口都配置好。

from kafka import KafkaProducer
import logging
 
logging.basicConfig(level=logging.INFO)
 
# 已經配置好的ssh隧道
kafka_host = [
    ‘127.0.0.1:19091‘,
    ‘127.0.0.1:19092‘,
    ‘127.0.0.1:19093‘,
]
producer = KafkaProducer(bootstrap_servers=kafka_host)
producer.send(‘test‘, b‘some_message_bytes‘)

開始啟動腳本發現問題來了,報錯:

Traceback (most recent call last):
  File "<stdin>", line 12, in <module>
  File "c:\python27\lib\site-packages\kafka\producer\kafka.py", line 347, in __init__
    **self.config)
  File "c:\python27\lib\site-packages\kafka\client_async.py", line 220, in __init__
    if self.config[‘api_version‘] is None:
  File "c:\python27\lib\site-packages\kafka\client_async.py", line 861, in check_version
    except Errors.NodeNotReadyError:
NoBrokersAvailable: NoBrokersAvailable
NoBrokersAvailable

沒找到可連接的Brokers,在服務器上相同的代碼卻可以直接連接上去了...

於是開始排查,發現Kafka連接時即使使用IP地址配置,但依舊會使用主機名解析IP地址,那麽就配置hosts把服務器主機名都指向本地地址(127.0.0.1)不就行了,按道理是可以的,不過發現連接是沒問題了,可是消息並沒有發送成功。

仔細查看日誌,發現:

INFO:kafka.conn:<BrokerConnection node_id=258 host=kafka-04/127.0.0.1 port=9092>: connecting to 127.0.0.1:9092

確實是把對應的主機名解析到本地地址,但是端口卻並沒有做相應的改變

...

筆者並不是一個輕易放棄的人,於是開始讀pykafka的源代碼,實際也不是很難,立刻定位到問題了。基本就是pykafka會通過配置好的地址去連接Kafka服務器,並且獲取一個可用的地址(這裏返回了Kafka的主機名),然後端口會使用默認的Port(如果沒有修改的話),所以即使使用hostsIP解析到本地,但是端口並沒有使用配置好的端口。
===============================================================

解決方案:

終於到解決方案了,不啰嗦,直接上。

找到pykafka目錄,筆者這裏是:

C:\Python27\Lib\site-packages\kafka

增加一個自定義的配置文件self_config.py(自行修改,這裏都是舉例)

self_design = {
    "kafka-04": 19094,
    "kafka-03": 19093,
    "kafka-02": 19092,
    "kafka-01": 19091,
}

分別對client_async.pyconn.py導入配置文件

from .self_config import self_design

並且定位到源代碼中get_ip_port_afi方法處(該方法將host處理返回ipportafi

# ----------------------------------------

client_async.py

host, port, afi = get_ip_port_afi(broker.host)
# ==================================
# Self Addon
conn_port = port if broker.host in self_design else broker.port
# ==================================

並且把以下broker.port修改為conn_port

conn = BrokerConnection(host, conn_port, afi,  # broker.port
                        state_change_callback=cb,
                        node_id=node_id,
                        **self.config)

# ----------------------------------------

conn.py

if ‘:‘ not in host_and_port_str:
    # ==================================
    # Self Addon
    if host_and_port_str in self_design:
        af = _address_family(host_and_port_str)
        return u‘127.0.0.1‘, self_design[host_and_port_str], af
    # ==================================
    af = _address_family(host_and_port_str)
    return host_and_port_str, DEFAULT_KAFKA_PORT, af

# Self Addon 處為自己添加的代碼

再次連接,成功解決問題


本文出自 “雲驛站 -Leyex學習筆記” 博客,請務必保留此出處http://leyex.blog.51cto.com/4230949/1958453

Python通過SSH隧道鏈接Kafka