kafka+spark streaming程式碼例項(pyspark+python)

阿新 • • 發佈：2019-01-07

一、系統準備

1.啟動zookeeper：bin/zkServer.cmd start

2.啟動kafka：bin/kafka-server-start.sh -daemon config/server.properties

3.啟動spark：sbin/start-all.sh

資料來源：http://files.grouplens.org/datasets/movielens/ml-100k.zip

流程：kafka讀取user資料集並生產資料流——spark streaming 計算每個職業人數——計算結果存入MySQL

二、kafka讀取user資料集並生產資料流，1秒生產1條記錄。

先建立topic：

bin/kafka-topics.sh

--create --zookeeper 192.168.26.247:2181 --replication-factor2 --partitions 1 --topic txt

驗證topic：bin/kafka-topics.sh --list --zookeeper 192.168.26.247:2181

bin/kafka-topics.sh --describe --zookeeper192.168.26.247:2181 --topic txt

from kafka import KafkaProducer  
from kafka import KafkaConsumer  
from kafka.errors import KafkaError  
import time  
def main():  
    ##生產模組  
    producer = KafkaProducer(bootstrap_servers=['192.168.26.247:9092'])  
    with open('/home/hadoop/ml-100k/u.user','r') as f:  
        for line in f.readlines():  
            time.sleep(1)  
            producer.send("txt",line)  
            print line  
           #producer.flush()  
  
if __name__ == '__main__':  
    main()

儲存txt.py執行結果如下：

spark streaming 消費並計算資料，並將結果存入資料庫。

from pyspark import SparkContext  
from pyspark import SparkConf  
from pyspark.streaming import StreamingContext  
from pyspark.streaming.kafka import KafkaUtils,TopicAndPartition  
import MySQLdb  
def start():  
    sconf=SparkConf()  
    sconf.set('spark.cores.max',3)  
    sc=SparkContext(appName='txt',conf=sconf)  
    ssc=StreamingContext(sc,5)  
    brokers ="192.168.26.247:9092,192.168.26.246:9092"  
    topic='txt'  
    start = 70000  
    partition=0  
    user_data = KafkaUtils.createDirectStream(ssc,[topic],kafkaParams={"metadata.broker.list":brokers})  
    #fromOffsets 設定從起始偏移量消費  
    #user_data = KafkaUtils.createDirectStream(ssc,[topic],kafkaParams={"metadata.broker.list":brokers},fromOffsets={TopicAndPartition(topic,partition):long(start)})  
    user_fields = user_data.map(lambda line: line[1].split('|'))  
    gender_users = user_fields.map(lambda fields: fields[3]).map(lambda gender: (gender,1)).reduceByKey(lambda a,b: a+b)  
    user_data.foreachRDD(offset)#儲存offset資訊  
    gender_users.pprint()  
    gender_users.foreachRDD(lambda rdd: rdd.foreach(echo))#返回元組    
    ssc.start()  
    ssc.awaitTermination()  
offsetRanges = []  
def offset(rdd):  
    global offsetRanges  
    offsetRanges = rdd.offsetRanges()  
def echo(rdd):  
    zhiye = rdd[0]  
    num = rdd[1]  
    for o in offsetRanges:  
        topic = o.topic   
        partition = o.partition  
        fromoffset = o.fromOffset  
        untiloffset = o.untilOffset  
    #結果插入MySQL  
    conn = MySQLdb.connect(user="root",passwd="******",host="192.168.26.245",db="test",charset="utf8")  
    cursor = conn.cursor()  
    sql = "insert into zhiye(id,zhiye,num,topic,partitions,fromoffset,untiloffset) \  
                       values (NULL,'%s','%d','%s','%d','%d','%d')" % (zhiye,num,topic,partition,fromoffset,untiloffset)  
    cursor.execute(sql)  
    conn.commit()  
    conn.close()   
   
if __name__ == '__main__':  
    start()

三、向叢集submit

bin/spark-submit --master spark://192.168.26.245:7077 --jars jars/spark-streaming-kafka-0-8-assembly_2.11-2.0.2.jar python/txt.py

執行結果

資料庫部分資料：

WEB顯示資料：

kafka+spark streaming程式碼例項(pyspark+python)

一、系統準備1.啟動zookeeper：bin/zkServer.cmd start2.啟動kafka：bin/kafka-server-start.sh -daemon config/server.properties3.啟動spark：sbin/start-all.sh資

整合Kafka到Spark Streaming——程式碼示例和挑戰

作者Michael G. Noll是瑞士的一位工程師和研究員，效力於Verisign，是Verisign實驗室的大規模資料分析基礎設施（基礎Hadoop）的技術主管。本文，Michael詳細的演示瞭如何將Kafka整合到Spark Streaming中。期間， Mich

基於Flume+Kafka+Spark Streaming打造實時流處理項目實戰課程

大數據本課程從實時數據產生和流向的各個環節出發，通過集成主流的分布式日誌收集框架Flume、分布式消息隊列Kafka、分布式列式數據庫HBase、及當前最火爆的Spark Streaming打造實時流處理項目實戰，讓你掌握實時處理的整套處理流程，達到大數據中級研發工程師的水平！下載地址:百度網盤下載

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（三）安裝spark2.2.1

node word clas 執行選擇 dir clust 用戶名 uil 如何配置centos虛擬機請參考《Kafka：ZK+Kafka+Spark Streaming集群環境搭建（一）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。》如

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（九）安裝kafka_2.11-1.1.0

itl CA blog tor line cat pre PE atan 如何搭建配置centos虛擬機請參考《Kafka：ZK+Kafka+Spark Streaming集群環境搭建（一）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。》如

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。

centos 失敗 sco pan html top n 而且 div href Centos7出現異常：Failed to start LSB: Bring up/down networking. 按照《Kafka：ZK+Kafka+Spark Streaming集群環

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十三）定義一個avro schema使用comsumer發送avro字符流，producer接受avro字符流並解析

finall ges records ring ack i++ 一個 lan cde 參考《在Kafka中使用Avro編碼消息：Consumer篇》、《在Kafka中使用Avro編碼消息：Producter篇》 pom.xml <depende

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十七）待整理

lan post -a 客戶端客戶 struct bsp www get redis按照正則批量刪除key redis客戶端--jedis 在Spark結構化流readStream、writeStream 輸入輸出，及過程ETL Spark Structur

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十九）待整理

set dstream 搭建 details 編程指南 .com .cn csdn read redis按照正則批量刪除key redis客戶端--jedis 在Spark結構化流readStream、writeStream 輸入輸出，及過程ETL Spark St

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十三）Structured Streaming遇到問題：Set(TopicName-0) are gone. Some data may have been missed

ack loss set div top 過程 pan check use 事情經過：之前該topic(M_A)已經存在，而且正常消費了一段時間，後來刪除了topic(M_A)，重新創建了topic（M-B），程序使用新創建的topic（M-B）進行實時統計操作，執行過程中

kafka+spark streaming程式碼例項(pyspark+python)

kafka+spark streaming程式碼例項(pyspark+python)

整合Kafka到Spark Streaming——程式碼示例和挑戰

基於Flume+Kafka+Spark Streaming打造實時流處理項目實戰課程

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（三）安裝spark2.2.1

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（九）安裝kafka_2.11-1.1.0

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十三）定義一個avro schema使用comsumer發送avro字符流，producer接受avro字符流並解析

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十七）待整理

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十九）待整理

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十三）Structured Streaming遇到問題：Set(TopicName-0) are gone. Some data may have been missed

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十五）Structured Streaming：同一個topic中包含一組數據的多個部分，按照key它們拼接為一條記錄（以及遇到的問題）。

計算成交量例子，kafka/spark streaming/zk

學習筆記 --- Kafka Spark Streaming獲取Kafka資料 Receiver與Direct的區別

今天為大家整理了十張動圖GIFS，有助於認識迴圈、遞迴、二分檢索等概念的具體執行情況。程式碼例項以Python語言編寫。

大資料求索(9): log4j + flume + kafka + spark streaming實時日誌流處理實戰

flume+zookeeper+kafka+spark streaming

基於 Flume+Kafka+Spark Streaming 實現實時監控輸出日誌的報警系統

flume+kafka+spark streaming(持續更新)

Flume+Kafka+Spark Streaming實現大資料實時流式資料採集

Kafka+Spark Streaming+Redis實時系統實踐

kafka+spark streaming程式碼例項(pyspark+python)

相關推薦