python環境下運用kafka對資料實時傳輸

阿新 • • 發佈：2019-01-09

背景：

為了滿足各個平臺間資料的傳輸，以及能確保歷史性和實時性。先選用kafka作為不同平臺數據傳輸的中轉站，來滿足我們對跨平臺資料傳送與接收的需要。

kafka簡介：

Kafka is a distributed,partitioned,replicated commit logservice。它提供了類似於JMS的特性，但是在設計實現上完全不同，此外它並不是JMS規範的實現。kafka對訊息儲存時根據Topic進行歸類，傳送訊息者成為Producer,訊息接受者成為Consumer,此外kafka叢集有多個kafka例項組成，每個例項(server)成為broker。無論是kafka叢集，還是producer和consumer都依賴於zookeeper來保證系統可用性叢集儲存一些meta資訊。

總之：kafka做為中轉站有以下功能：1.生產者（產生資料或者說是從外部接收資料）2.消費著（將接收到的資料轉花為自己所需用的格式）

環境：

1.python3.5.x

2.kafka1.4.3

3.pandas

準備開始：

1.kafka的安裝

pip install kafka-python

2.檢驗kafka是否安裝成功

3.pandas的安裝

pip install pandas

4.kafka資料的傳輸

直接擼程式碼：

# -*- coding: utf-8 -*-
'''
@author: 真夢行路
@file: kafka.py
@time: 2018/9/3 10:20
'''
import sys
import json
import pandas as pd
import os
from kafka import KafkaProducer
from kafka import KafkaConsumer
from kafka.errors import KafkaError

KAFAKA_HOST = "xxx.xxx.x.xxx"  #伺服器埠地址
KAFAKA_PORT = 9092             #埠號
KAFAKA_TOPIC = "topic0"        #topic

data=pd.read_csv(os.getcwd()+'\\data\\1.csv')
key_value=data.to_json()
class Kafka_producer():
    '''
    生產模組：根據不同的key，區分訊息
    '''

    def __init__(self, kafkahost, kafkaport, kafkatopic, key):
        self.kafkaHost = kafkahost
        self.kafkaPort = kafkaport
        self.kafkatopic = kafkatopic
        self.key = key
        self.producer = KafkaProducer(bootstrap_servers='{kafka_host}:{kafka_port}'.format(
            kafka_host=self.kafkaHost,
            kafka_port=self.kafkaPort)
        )

    def sendjsondata(self, params):
        try:
            parmas_message = params      #注意dumps
            producer = self.producer
            producer.send(self.kafkatopic, key=self.key, value=parmas_message.encode('utf-8'))
            producer.flush()
        except KafkaError as e:
            print(e)


class Kafka_consumer():


    def __init__(self, kafkahost, kafkaport, kafkatopic, groupid,key):
        self.kafkaHost = kafkahost
        self.kafkaPort = kafkaport
        self.kafkatopic = kafkatopic
        self.groupid = groupid
        self.key = key
        self.consumer = KafkaConsumer(self.kafkatopic, group_id=self.groupid,
                                      bootstrap_servers='{kafka_host}:{kafka_port}'.format(
                                          kafka_host=self.kafkaHost,
                                          kafka_port=self.kafkaPort)
                                      )

    def consume_data(self):
        try:
            for message in self.consumer:
                yield message
        except KeyboardInterrupt as e:
            print(e)

def sortedDictValues(adict):
    items = adict.items()
    items=sorted(items,reverse=False)
    return [value for key, value in items]

def main(xtype, group, key):
    '''
    測試consumer和producer
    '''
    if xtype == "p":
        # 生產模組
        producer = Kafka_producer(KAFAKA_HOST, KAFAKA_PORT, KAFAKA_TOPIC, key)
        print("===========> producer:", producer)
        params =key_value
        producer.sendjsondata(params)


    if xtype == 'c':
        # 消費模組
        consumer = Kafka_consumer(KAFAKA_HOST, KAFAKA_PORT, KAFAKA_TOPIC, group,key)
        print("===========> consumer:", consumer)

        message = consumer.consume_data()
        for msg in message:
            msg=msg.value.decode('utf-8')
            python_data=json.loads(msg)   ##這是一個字典
            key_list=list(python_data)
            test_data=pd.DataFrame()
            for index in key_list:
                print(index)
                if index=='Month':
                    a1=python_data[index]
                    data1 = sortedDictValues(a1)
                    test_data[index]=data1
                else:
                    a2 = python_data[index]
                    data2 = sortedDictValues(a2)
                    test_data[index] = data2
                    print(test_data)



            # print('value---------------->', python_data)
            # print('msg---------------->', msg)
            # print('key---------------->', msg.kry)
            # print('offset---------------->', msg.offset)



if __name__ == '__main__':
    main(xtype='p',group='py_test',key=None)
    main(xtype='c',group='py_test',key=None)

資料1.csv如下所示：

幾點注意：

1.一定要有一個伺服器的埠地址，不要用本機的ip或者亂寫一個ip不然程式會報錯。（我開始就是拿本機ip懟了半天，總是報錯）

2.注意資料的傳輸格式以及編碼問題(二進位制傳輸)，資料先轉成json資料格式傳輸，然後將json格式轉為需要格式。（不是json格式的注意dumps）

例中,dataframe->json->dataframe

3.例中dict轉dataframe,也可以用簡單方法直接轉。

eg: type(data) ==>dict,data=pd.Dateframe(data)

參考文獻：

python環境下運用kafka對資料實時傳輸

背景：為了滿足各個平臺間資料的傳輸，以及能確保歷史性和實時性。先選用kafka作為不同平臺數據傳輸的中轉站，來滿足我們對跨平臺資料傳送與接收的需要。 kafka簡介： Kafka is a distributed,partitioned,replicated comm

Python環境下使用OpenStreetMap下載的.osm資料

引言最近在專案中需要使用地理空間資訊來輔助進行聚類工作，除了常規的經緯度資訊之外，還需要更重要的地理層級資訊，如對於“都江堰”來進行查詢，期望獲得“都江堰，成都，中國”這樣一個完整的地理層級關係。因此，在這兩天筆者便研究了一下如何獲得這樣的資訊。使用geopy包來實現工程中

[ZZ] 如何在多版本anaconda python環境下轉換spyder

過程 pda 名稱 -- idt anaconda rip gin div https://www.zhihu.com/people/alexwhu/answers 使用anaconda的話，可以參考以下步驟： 1、打開anaconda navigator

多python環境下使用pip安裝包

pip筆記本上安裝了2.7和3.5兩個版本的python，在使用3.5版本的pip安裝keras時出現了failed to create process錯誤。解決方法如下：1.由於我在環境變量中同時配置了2.7和3.5的路徑，所以我可以直接在命令行下執行python3來啟動3.5版本的python；2.通過p

python 環境下安裝 gdal

.cn ram 剛才 strac bst org 方框疑惑 AC 起因：需要做一個城市擴張的東西，然後再GitHub上下載了一段代碼，不過作者沒怎麽說清楚要怎麽用，早上琢磨半天，歸結到我需要先下載python的gdal模塊。關於：搜索下來，發現gdal(Geospati

python環境下實現OrangePi Zero寄存器訪問及GPIO控制

adc map函數操作 pack 模式更改 truct 不可共享　　最近入手OrangePi Zero一塊，程序上需要使用板子上自帶的LED燈，在網上一查，不得不說OPi的支持跟樹莓派無法相比。自己摸索了一下，實現簡單的GPIO控制方法，作者的Zero安裝的是Arm

python環境下使用mysql數據及數據結構和二叉樹算法（圖）

結點 sel 連續編號 binary 樹搜索 pass 技術分享種類 python環境下使用mysql數據及數據結構和二叉樹算法（圖）：1 python環境下使用mysql2使用的是 pymysql庫3 開始-->創建connection-->獲取curso

關於python環境下的opencv安裝

吐槽: 　　這一天我終於記起了這個部落格。今天搞python環境下的opencv，又弄了一天，很煩躁。之前配置VS的opencv也是花了好久的時間，然後突然發現之前記錄在電腦上的文件都找不到了，於是決定還是寫寫部落格吧，之後應該會把之前做過的一些東西也發上來，以作儲存。這篇興致所作，寫的就隨意些了。環境

Python環境下安裝GDAL

1.在https://www.lfd.uci.edu/~gohlke/pythonlibs/#gdal下載GDAL安裝包，拷貝至相應的環境中，開啟shell 輸入以下程式碼安裝GDAL pip install GDAL‑2.3.2‑cp35‑cp35m‑win_amd64.whl 2.在An

python環境下的記憶體分析

1.記憶體分析 python原始碼[字尾名為.py的文字檔案] 執行在直譯器中，得到運算結果問題：怎麼執行的？計算機執行一個程式程式/軟體的執行[核心機制] 原始碼程式[語義化的定義了資料、流程

Spark Streaming效能優化: 如何在生產環境下動態應對流資料峰值

1、為什麼引入Backpressure 預設情況下，Spark Streaming通過Receiver以生產者生產資料的速率接收資料，計算過程中會出現batch processing time > batch interval的情況，其中batch

CentOS環境下部署kafka叢集

CentOS下部署kakfa叢集 zookeeper版本：zookeeper-3.4.13 kakfa版本：kafka_2.11-2.0.0 1 環境準備在已有zookeeper叢集上，部署kakfa叢集。 zookeeper叢集主機資訊如下：

Python 爬下的必勝客資料背後，藏著什麼樣的資訊？

筆者從大學開始就接觸 Python，起初是好奇為什麼 Python 不需要瀏覽器就能抓取網站資料。深感奇妙之餘，也想親身體驗這種抓取資料的樂趣，所以寫了很多爬蟲程式。後隨著知識面的拓展，開始瞭解到資料分析這一領域，方知道爬取到的資料背後原來還隱藏著一些資訊。自己也是在學習這

Python環境下安裝pip 及常見問題

可能的原因1：安裝的不是對應python版本的庫，下載的庫名中cp27代表python2.7,我這裡下的是跟我電腦安裝的python的版本相對應的cp36,即python3.6版本的。可能的原因2：個別情況　　我下載到的pygame-1.9.3-cp36-cp36m-win_amd64.whl庫檔

python 環境下gensim中的word2vec的使用筆記

centos 7, python2.7, gensim (0.13.1) 語料：程式： # -*- coding: utf-8 -*- ''' Created on 2016年8月29日測試gensim使用 @author: root ''

WebSocket和kafka實現資料實時推送到前端

一. 需求背景最近新接觸一個需求，需要將kafka中的資料實時推送到前端展示。最開始想到的是前端輪詢介面資料，但是無法保證輪詢的頻率和消費的頻率完全一致，或造成資料缺失等問題。最終確定用利用WebSocket實現資料的實時推送。二. websocket簡介網上已經有好

如何在多版本anaconda python環境下轉換spyder？

1、開啟anaconda navigator，選擇左側的環境選單 Environments，在中間會列出當前已經配置好的各種環境名稱，如root、tensorflow等 2、在中間環境列表框下邊，選擇建立 Create，建立新的環境和對應配置，在這裡，你可以命名自己的環境名稱，選擇python的版本等，然後

4.8 Sublime Text3 中配置 Python環境 --下之下載安裝Sublime與配置Python環境

main 代碼 col 編程 als 數據 -- print 安裝返回總目錄目錄： 1.沒有配置之前 2.安裝Package Control插件 3.安裝其他庫： 4.配置其他操作：（一）沒有配置之前：我們試著運行以下，會效果怎麽樣？ 1.首先選擇Python作

解決pip安裝的包無法在anaconda 的python 環境下使用的問題

由於一不小心使用sudo pip install keras 安裝了keras後進入python （由於之前安裝了anaconda）此時進入的python 是anaconda 環境下的python>>import keras報錯　no module named k

python專案篇-Django中對資料查詢結果進行排序的方法

在Django 應用中，根據某欄位的值對檢索結果排序，比如說，按字母順序。那麼，使用 order_by() 這個方法就可以搞定了。 >>> Publisher.objects.order_by("name") [<Publisher: Apress>,

python環境下運用kafka對資料實時傳輸

背景：

環境：

幾點注意：

相關推薦