spark實時計算kafka訊息佇列中的wordcount

阿新 • • 發佈：2019-02-06

package sparkTestJava;

import java.util.Arrays;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;

import kafka.serializer.StringDecoder;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaPairInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka.KafkaUtils;

import scala.Tuple2;

public class KafkaDirectWordCount {

	public static void main(String[] args) {
		SparkConf conf = new SparkConf().setAppName("wordcount").setMaster("local[2]");
		JavaStreamingContext jssc = new JavaStreamingContext(conf,Durations.seconds(5));
		
		// 首先要建立一份kafka引數map
		Map<String, String> kafkaParams = new HashMap<String, String>();
		// 我們這裡是不需要zookeeper節點的啊,所以我們這裡放broker.list
		kafkaParams.put("metadata.broker.list", 
				"192.168.*.*:9092,192.168.*.*:9092,192.168.*.*:9092");
		
		// 然後建立一個set,裡面放入你要讀取的Topic,這個就是我們所說的,它給你做的很好,可以並行讀取多個topic
		Set<String> topics = new HashSet<String>();
		topics.add("wordcount20170605");
		
		JavaPairInputDStream<String,String> lines = KafkaUtils.createDirectStream(
				jssc, 
				String.class, // key型別
				String.class, // value型別
				StringDecoder.class, // 解碼器
				StringDecoder.class,
				kafkaParams, 
				topics);
		
		JavaDStream<String> words = lines.flatMap(new FlatMapFunction<Tuple2<String,String>, String>(){

			private static final long serialVersionUID = 1L;

			@Override
			public Iterable<String> call(Tuple2<String,String> tuple) throws Exception {
			 	return Arrays.asList(tuple._2.split(" "));
			}
			
		});
		
		JavaPairDStream<String, Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>(){

			private static final long serialVersionUID = 1L;

			@Override
			public Tuple2<String, Integer> call(String word) throws Exception {
				return new Tuple2<String, Integer>(word, 1);
			}
			
		});
		
		JavaPairDStream<String, Integer> wordcounts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>(){

			private static final long serialVersionUID = 1L;

			@Override
			public Integer call(Integer v1, Integer v2) throws Exception {
				return v1 + v2;
			}
			
		});
		
		wordcounts.print();
		
		jssc.start();
		jssc.awaitTermination();
		jssc.close();
	}
}

首先在執行程式之前得在kafka中建立一個名為wordcount20170605的topic

接著利用hadoop：9092，hadoop1:9092，hadoop2:9092埠來向topic中產生資料，然後程式收集這些資料之後並進行實時的計算

執行截圖：

spark實時計算kafka訊息佇列中的wordcount

package sparkTestJava; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Map; import java.ut

Kafka- 訊息佇列中【點對點】與【釋出訂閱】區別

1.JMS中定義 JMS規範目前支援兩種訊息模型：點對點（point to point， queue）和釋出/訂閱（publish/subscribe，topic）。點對點：訊息生產者生產訊息傳送到queue中，然後訊息消費者從queue中取出並且消費訊息。這裡要注意：訊息被消費以

linux ELK（filebeat）環境搭建中加入kafka訊息佇列的詳細介紹（菜鳥新手級別）

本文所使用的軟體版本如下filebeat 5.4.0，elasticsearch 5.4.0，kibana 5.4.0，最近公司需要做實時日誌分析系統，在網上查了很多資料，發現ELK是最適合的，而且是開源，官方文件還算詳細。儘管ELK環

KOA + egg.js 整合 kafka 訊息佇列

Egg.js ：基於KOA2的企業級框架 Kafka：高吞吐量的分散式釋出訂閱訊息系統本文章將整合egg + kafka + mysql 的日誌系統例子系統要求：日誌記錄，通過kafka進行訊息佇列控制思路圖：這裡消費者和生產者都由日誌系統提供 λ.1 環境準備 ①Ka

RabbitMQ如何在命令列下清除訊息佇列中的所有資料

最近在研究 RabbitMQ 訊息佇列，安裝好進行測試的時候發覺在一個名為 MyRabbitMQ 的訊息佇列中已經插入了大量的資料。最後不得不找方法清除。首先定位到 rabbitMQ 安裝目錄的sbin 目錄下。然後shift+右鍵。調出右鍵選單。選擇在此處開啟

Kafka訊息佇列介紹、環境搭建及應用：C#實現消費者-生產者訂閱

一：kafka介紹 kafka（官網地址：http://kafka.apache.org）是一種高吞吐量的分散式釋出訂閱的訊息佇列系統，具有高效能和高吞吐率。 1.1 術語介紹 Broker Kafka叢集包含一個或多個伺服器，這種伺服器被稱為broker

使用kafka訊息佇列解決分散式事務(可靠訊息最終一致性方案-本地訊息服務)

微服務框架Spring Cloud介紹 Part1: 使用事件和訊息佇列實現分散式事務本文轉自：http://skaka.me/blog/2016/04/21/springcloud1/ 不同於單一架構應用(Monolith), 分散式環境下, 進行事務操作將變得困難,

【圖文詳細】Kafka訊息佇列——Kafka 的各種 Shell 操作

1、啟動叢集每個節點的程序： 2、建立 topic 3、檢視已經建立的所有 kafka topic 4、檢視某個指定的 kafka topic 的詳細資訊： 4、開啟生產者模擬生成資料：

【圖文詳細】Kafka訊息佇列——Kafka 的各種 API 操作

7.1、Kafka 的 API 分類 1、The Producer API 允許一個應用程式釋出一串流式的資料到一個或者多個 Kafka Topic。 2、The Consumer API 允許一個應用程式訂閱一個或多個 Topi

【圖文詳細】Kafka訊息佇列——kafka 叢集部署

5.1、Kafka 初體驗單機 Kafka 試玩官網網址：http://kafka.apache.org/quickstart 中文官網：http://kafka.apachecn.org/quickstart.html 5.2、叢集部署的基本流程總結&n

【圖文詳細】Kafka訊息佇列——Kafka的核心元件

4.1、kafka的核心元件概述 Kafka 是 LinkedIn 用於日誌處理的分散式訊息佇列，同時支援離線和線上日誌處理。 Kafka 對訊息儲存時根據 Topic 進行歸類：傳送訊息者就是 Producer，訊息的釋出描述為 Producer

【圖文詳細】Kafka訊息佇列——Kafka的應用場景

3.1、訊息系統 Kafka 很好地替代了傳統的 message broker（訊息代理）。Message Brokers 可用於各種場合（如將資料生成器與資料處理解耦，緩衝未處理的訊息等）。與大多數訊息系統相比，Kafka 擁有更好的吞吐量、內建分割槽、具有複製和容錯的功能，這使它成為

【圖文詳細】Kafka訊息佇列——Kafka的優點

2、Kafka的優點 1、解耦：在專案啟動之初來預測將來專案會碰到什麼需求，是極其困難的。訊息系統在處理過程中間插入了一個隱含的、基於資料的介面層，兩邊的處理過程都要實現這一介面。這允許你獨立的擴充套件或修改兩邊的處理過程，只要確保它們遵守同樣的介面約束。 2、冗餘：有些

【圖文詳細】Kafka訊息佇列——Kafka是什麼

1.1、Kafka的概述在流式計算中，Kafka一般用於資料的快取，Storm通過消費Kafka的資料進行計算。經典架構：Flume + Kafka + Storm/SparkStreaming + Redis Apache Kafka最初由LinkedIn開發的基於

訊息佇列中的7個連環炮

訊息佇列7連擊（1）第一問，你知道不知道你們系統裡為什麼要用訊息佇列這個東西？答： ①首先是解耦作用我們先看如果沒有用mq會是什麼情況呢？接下來，我們需要用mq來改進上面的問題 ②然後mq還有非同步化的作用（減少各系統之間呼叫的時間消耗）下面先來看

ELK日誌分析平臺加入Kafka訊息佇列

在之前的搭建elk環境中，日誌的處理流程為：filebeat --> logstash --> elasticsearch,隨著業務量的增長，需要對架構做進一步的擴充套件，引入kafka叢集。日誌的處理流程變為：filebeat --> kaf

無等待地從一個訊息佇列中取得訊息, OSQAccept()

如果試圖從訊息佇列中取出一條訊息，而此時訊息佇列又為空時，也可以不讓呼叫任務等待而直接返回呼叫函式。這個操作可以呼叫OSQAccept()函式來完成。程式清單 L6.25是該函式的原始碼。OSQAccept()函式首先檢視pevent指向的事件控制塊是否是由OSQCreate()函式建立的[L6.25(1)]

Message訊息佇列中多個數據傳遞（Bundle）

MyHandler handler = new MyHandler(handlerThread.getLooper()); Message msg = handler.obtainMessage(); /** * 將Mes

修改單個訊息佇列中訊息的最大個數

front:~ # cat /proc/sys/fs/mqueue/msg_max 10 front:~ # cat /proc/sys/fs/mqueue/msg_max 10 front:~ # v

flume實時接收kafka訊息並儲存至HDFS

#-------agent------ # 定義sources agent.sources = kafkaSource # 定義channels agent.channels = memoryChannel # 定義sinks agent.sinks = hdfsSink

spark實時計算kafka訊息佇列中的wordcount

相關推薦