sparkStreaming 讀kafka的數據

阿新 • • 發佈：2017-09-13

bsp 正常 jar包信息 .sh 功能 sleep next await

目標：sparkStreaming每2s中讀取一次kafka中的數據，進行單詞計數。

topic:topic1

broker list:192.168.1.126:9092,192.168.1.127:9092,192.168.1.128:9092

1、首先往一個topic中實時生產數據。

　　代碼如下：代碼功能：每秒向topic1發送一條消息，一條消息裏包含4個單詞，單詞之間用空格隔開。

 1 package kafkaProducer
 2 
 3 import java.util.HashMap
 4 
 5 import org.apache.kafka.clients.producer._
 
 6 
 7 
 8 object KafkaProducer {
 9 def main(args: Array[String]) {
10   val topic="topic1"
11   val brokers="192.168.1.126:9092,192.168.1.127:9092,192.168.1.128:9092"
12   val messagesPerSec=1 //每秒發送幾條信息  
13   val wordsPerMessage =4 //一條信息包括多少個單詞  
14   // Zookeeper connection properties  
15     val props = new 
 HashMap[String, Object]()  
16     props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers)  
17     props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,  
18       "org.apache.kafka.common.serialization.StringSerializer")  
19     props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,  
20       "org.apache.kafka.common.serialization.StringSerializer")  
 
21     val producer = new KafkaProducer[String, String](props) 
22     // Send some messages  
23      while(true) {  
24       (1 to messagesPerSec.toInt).foreach { messageNum =>  
25         val str = (1 to wordsPerMessage.toInt).map(x => scala.util.Random.nextInt(10).toString)  
26           .mkString(" ")  
27         val message = new ProducerRecord[String, String](topic, null, str)  
28         producer.send(message)  
29         println(message)  
30       }  
31       Thread.sleep(1000)  
32     }  
33   }  
34 }

打包運行命令：hadoop jar jar包（註意jar包是可運行的jar包）

消費者消費命令： ./kafka-console-consumer.sh --zookeeper zk01:2181,zk02:2181 --topic topic1 --from-beginning

技術分享

可以正常消費。

2、編寫SparkStreaming代碼讀kafka中的數據，每2s讀一次

　　代碼如下：

 1 package kafkaSparkStream
 2 
 3 import org.apache.spark.SparkConf
 4 import org.apache.spark.streaming.StreamingContext
 5 import org.apache.spark.streaming.Seconds
 6 import org.apache.spark.streaming.kafka.KafkaUtils
 7 import kafka.serializer.StringDecoder
 8 /**
 9  * sparkStreaming讀取kafka中topic的數據
10  */
11 object KafkaToSpark {
12 def main(args: Array[String]) {
13   if (args.length<2) {
14   System.err.println("Usage: <brokers> <topics>");
15   System.exit(1)
16   }
17   val Array(brokers,topics)=args
18   //2s從kafka中讀取一次
19   val conf=new SparkConf().setAppName("KafkaToSpark");
20   val scc=new StreamingContext(conf,Seconds(2))
21   // Create direct kafka stream with brokers and topics  
22   val topicSet=topics.split(",").toSet
23   val kafkaParams=Map[String,String]("metadata.broker.list"->brokers)
24   //獲取信息
25   val messages=KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
26       scc,kafkaParams,topicSet)
27   // Get the lines, split them into words, count the words and print 
28  val lines= messages.map(_._2)
29  val words=lines.flatMap(_.split(" "))
30  val wordCouts=words.map(x =>(x,1L)).reduceByKey(_+_)
31  wordCouts.print
32  //開啟計算
33  scc.start()
34  scc.awaitTermination()
35 }
36 
37 }

打包運行命令：./spark-submit --class kafkaSparkStream.KafkaToSpark --master yarn-client /home/hadoop/sparkJar/kafkaToSpark.jar 192.168.1.126:9092,192.168.1.127:9092,192.168.1.128:9092 topic1

技術分享

運行成功！

sparkStreaming 讀kafka的數據

SparkStreaming消費kafka數據

字符串 targe val offset 1.0 error .org 依賴 oot 概要：本例子為SparkStreaming消費kafka消息的例子，實現的功能是將數據實時的進行抽取、過濾、轉換，然後存儲到HDFS中。實例代碼 package com.fwmagic.

SparkStreaming消費Kafka數據限速問題

使用 font cor 計算 ont 消息易用 per stream SparkStreaming消費Kafka數據的時候，當有大量初始化數據時會拖累整個streaming程序的運行，問有什麽辦法？總體來說這個問題大概有兩種解決思路： 1.在Spark端設置限速；2

sparkStreaming 讀kafka的數據

bsp 正常 jar包信息 .sh 功能 sleep next await 目標：sparkStreaming每2s中讀取一次kafka中的數據，進行單詞計數。 topic:topic1 broker list:192.168.1.126:9092,192.168.1.1

csv讀入數據，用julia/matplotlib/pyplot 畫矢量圖導入word中

one -m github pos 環境 end mat text lin 這是是用julia來實現畫圖。julia有三個畫圖庫：Winston、Gadfly、PyPlot 這裏用的是pyplot，事實上他是基於matplotlib的 1、首先在juno裏安裝兩個庫 j

用C語言讀寫數據

cor 數據 and main () term int blog abi //1-5題 #include "stdio.h" typedef struct { char name[10];//姓名 int subject1,subject2,subject3

Kafka數據輔助和Failover

ssa over 會有更新操作 namo 多個版本兩個數據輔助與Failover CAP理論（它具有一致性、可用性、分區容忍性） CAP理論：分布式系統中，一致性、可用性、分區容忍性最多只可同時滿足兩個。一般分區容忍性都要求有保障，因此很多時候在可用

使用帶緩沖的字節流讀寫數據

ati exceptio cnblogs color 緩沖區性能 exc div ack 首先不使用帶緩沖的字節流： package com.yunqing; import java.io.FileInputStream; import java.io.Fi

spark streaming從指定offset處消費Kafka數據

tpc asi 4.2 nes 配置 sof 我們 erl examples spark streaming從指定offset處消費Kafka數據 2017-06-13 15:19 770人閱讀評論(2) 收藏舉報分類： spark（5）原文地址:htt

C#基礎視頻教程6.3 如何簡單讀寫數據庫

一點犯錯 .html ack ble 數字擴展你知道定義在繼續往下做之前，我們需要把之前的代碼盡可能的精簡（會對後面很有好處，而且讀者也應該仔細比對這一部分的代碼和上一部分哪裏真正得到了優化，從而提高編程水平）。首先數據庫的操作類有哪些是可以做的更加普遍，變量

Python 讀Excel數據

exc spa work nbsp 返回 light 需要 pat ace 一、讀取Excel數據的步驟及方式： 1、打開Excel文件 data = xlrd.open_workbook(r‘D:\Interface_test\test_data\測試用例.xlsx‘

flume 讀取kafka 數據

any from 原來 string strac span value ive erro 本文介紹flume讀取kafka數據的方法代碼： /*********

物理讀之數據泵備份

SQL ordered by ReadSQL ordered by Reads 去磁盤取數據，單位是次，如果太大，IO會導致整個數據庫慢，是RAC的環境，可能會導致數據庫重啟。 BEGIN SYS.KUPW$WORKER.MAIN(‘SYS_EXPORT_SCHEMA_01‘, ‘SYS‘, 0); EN

IIC AT24C02讀寫數據的一點小體會

ddr delay cuc div src timer amp focus har 一、寫數據 unsigned char I2CWriteByte(unsigned int mem_addr,unsigned char*DDATAp,unsigned int cou

kafka數據禍福和failover

ilo 讀取數據 img ado 動態 slave 比較 comm 強一致性 k CAP帽子理論。 consistency：一致性 Availability：可用性 partition tolerance：分區容忍型 CA ：mysql oracle（拋棄

.net環境下跨進程、高頻率讀寫數據

rom ppi MF page 系統架構 return log 針對 gid 一、需求背景 1、最近項目要求高頻次地讀寫數據，數據量也不是很大，多表總共加起來在百萬條上下。單表最大的也在25萬左右，歷史數據表因為不涉及所以不用考慮，難點在於這個規模的熱點數據，變化

一張圖讀懂數據庫備份

數據存儲摘要：數據庫備份DBS已於5月17日正式商業化，DBS旨在提供高性價比的數據庫實時備份服務，更多詳情查看：https://promotion.aliyun.com/ntms/act/dbs.html原文鏈接一張圖讀懂數據庫備份

關於HBase讀寫數據的方法

cep tin return ces n) .get eof tab exceptio 目前我這邊有兩種方案讀寫HBase數據 1.將對象直接序列化然後存儲到HBase;2.將對象利用反射，一個Field對應一個列進行存儲第一種方法 private Connection

8.spark core之讀寫數據

鍵值對逗號 .data air lines man inf return ear spark支持多種數據源，從總體來分分為兩大部分：文件系統和數據庫。文件系統 ??文件系統主要有本地文件系統、Amazon S3、HDFS等。 ??文件系統中存儲的文件有多種存儲格式。sp

12.spark sql之讀寫數據

rcfile serializa fig jdbc連接 nco .sh nat 字段 jdb 簡介 ??Spark SQL支持多種結構化數據源，輕松從各種數據源中讀取Row對象。這些數據源包括Parquet、JSON、Hive表及關系型數據庫等。 ??當只使用一部分字段時，

挑戰3：挑戰：工資計算器讀寫數據文件------split()和strip（）

ima 文件 -- 指正 inf 錯誤換行符 *** http 挑戰3內容較多，先選兩點記錄一下。 1.key, value = line.split(‘=‘) split()通過指定分隔符對字符串進行切片，如果參數num有指定值，則僅分割num個子字符串

sparkStreaming 讀kafka的數據

相關推薦