sparkStreaming：實時流計算Java案例

阿新 • • 發佈：2018-12-16

現在，網上基於spark的程式碼基本上都是Scala，很多書上也都是基於Scala，沒辦法，誰叫spark是Scala寫出來的了，但是我現在還沒系統的學習Scala，所以只能用java寫spark程式了，spark支援java，而且Scala也基於JVM,不說了，直接上程式碼

這是官網上給出的例子，大資料學習中經典案例單詞計數在linux下一個終端輸入 $ nc -lk 9999

然後執行下面的程式碼

package com.tg.spark.stream;

import java.util.Arrays;

import org.apache.spark.*;
import org.apache.spark.api.java.function.*;
import org.apache.spark.streaming.*;
import org.apache.spark.streaming.api.java.*;
import scala.Tuple2;
/**
 * 
 * @author 湯高
 *
 */
public class SparkStream {
    public static void main(String[] args) {

        // Create a local StreamingContext with two working thread and batch
        // interval of 1 second
        SparkConf conf = new SparkConf().setMaster("local[4]").setAppName("NetworkWordCount").set("spark.testing.memory",
                "2147480000");
        JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1));
        System.out.println(jssc);

        // Create a DStream that will connect to hostname:port, like
        // localhost:9999
        JavaReceiverInputDStream<String> lines = jssc.socketTextStream("master", 9999);
        //JavaDStream<String> lines = jssc.textFileStream("hdfs://master:9000/stream");

        // Split each line into words
        JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public Iterable<String> call(String x) {
                System.out.println(Arrays.asList(x.split(" ")).get(0));
                return Arrays.asList(x.split(" "));
            }
        });


        // Count each word in each batch
        JavaPairDStream<String, Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) {
                return new Tuple2<String, Integer>(s, 1);
            }
        });
        System.out.println(pairs);
        JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer i1, Integer i2) {
                return i1 + i2;
            }
        });

        // Print the first ten elements of each RDD generated in this DStream to
        // the console

        wordCounts.print();
        //wordCounts.saveAsHadoopFiles("hdfs://master:9000/testFile/", "spark", new Text(), new IntWritable(), JavaPairDStream<Text,IntWritable>());
        wordCounts.dstream().saveAsTextFiles("hdfs://master:9000/testFile/", "spark");
        //wordCounts.saveAsHadoopFiles("hdfs://master:9000/testFile/", "spark",Text,IntWritable);
        //System.out.println(wordCounts.count());
        jssc.start(); 
        //System.out.println(wordCounts.count());// Start the computation
        jssc.awaitTermination();   // Wait for the computation to terminate
    }

}

然後再剛剛的終端輸入 hello world

# TERMINAL 1: # Running Netcat

$ nc -lk 9999

hello world

就可以通過控制檯看到

------------------------------------------- Time: 1357008430000 ms ------------------------------------------- (hello,1) (world,1) ... 並且hdfs上也可以看到通過計算生成的實時檔案

第二個案例是，不是通過socketTextStream套接字，而是直接通過hdfs上的某個檔案目錄來作為輸入資料來源

package com.tg.spark.stream;

import java.util.Arrays;

import org.apache.spark.*;
import org.apache.spark.api.java.function.*;
import org.apache.spark.streaming.*;
import org.apache.spark.streaming.api.java.*;
import scala.Tuple2;
/**
 * 
 * @author 湯高
 *
 */
public class SparkStream2 {
    public static void main(String[] args) {

        // Create a local StreamingContext with two working thread and batch
        // interval of 1 second
        SparkConf conf = new SparkConf().setMaster("local[4]").setAppName("NetworkWordCount").set("spark.testing.memory",
                "2147480000");
        JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1));
        System.out.println(jssc);

        // Create a DStream that will connect to hostname:port, like
        // localhost:9999
        //JavaReceiverInputDStream<String> lines = jssc.socketTextStream("master", 9999);
        JavaDStream<String> lines = jssc.textFileStream("hdfs://master:9000/stream");

        // Split each line into words
        JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public Iterable<String> call(String x) {
                System.out.println(Arrays.asList(x.split(" ")).get(0));
                return Arrays.asList(x.split(" "));
            }
        });


        // Count each word in each batch
        JavaPairDStream<String, Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) {
                return new Tuple2<String, Integer>(s, 1);
            }
        });
        System.out.println(pairs);
        JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer i1, Integer i2) {
                return i1 + i2;
            }
        });

        // Print the first ten elements of each RDD generated in this DStream to
        // the console

        wordCounts.print();
        //wordCounts.saveAsHadoopFiles("hdfs://master:9000/testFile/", "spark", new Text(), new IntWritable(), JavaPairDStream<Text,IntWritable>());
        wordCounts.dstream().saveAsTextFiles("hdfs://master:9000/testFile/", "spark");
        //wordCounts.saveAsHadoopFiles("hdfs://master:9000/testFile/", "spark",Text,IntWritable);
        //System.out.println(wordCounts.count());
        jssc.start(); 
        //System.out.println(wordCounts.count());// Start the computation
        jssc.awaitTermination();   // Wait for the computation to terminate
    }

}

這樣就存在埠一直在監控你的那個目錄，只要它有檔案生成，就會馬上讀取到它裡面的內容，你可以先執行程式，然後手動新增一個檔案到剛剛的目錄，就可以看到輸出結果了

sparkStreaming：實時流計算Java案例

Spark實時流計算Java案例

現在，網上基於spark的程式碼基本上都是Scala，很多書上也都是基於Scala，沒辦法，誰叫spark是Scala寫出來的了，但是我現在還沒系統的學習Scala，所以只能用java寫spark程式了，spark支援java，而且Scala也基於JVM,不說了

Spark整合Kafka實時流計算Java案例

package com.test; import java.util.*; import org.apache.spark.SparkConf; import org.apache.spark.TaskContext; import org.apache.spark.api

實時流計算、Spark Streaming、Kafka、Redis、Exactly-once、實時去重

http://lxw1234.com/archives/2018/02/901.htm在實時流式計算中，最重要的是在任何情況下，訊息不重複、不丟失，即Exactly-once。本文以Kafka–>Spark Streaming–>Redis為例，一方面說明一下如何

Storm實時流計算原理概述與最佳入門實踐

隨著網際網路的發展，資訊量爆炸式的增長，人們越來越需要實時獲取一些計算資訊，離線計算已經不能滿足了人們的需求，這時Storm、Flink、Spark Streaming等實時計算框架日益發展起來。本篇文章主要講述Storm原理架構概述以及入門實踐案例的編寫

基於Spark機器學習和實時流計算的智慧推薦系統

原文連結：http://blog.csdn.net/qq1010885678/article/details/46675501 概要：隨著電子商務的高速發展和普及應用，個性化推薦的推薦系統已成為一個重要研究領域。個性化推薦演算法是推薦系統中最核心的技術，在很大程

Spark入門實戰系列--7.Spark Streaming（上）--實時流計算Spark Streaming原理介紹

【注】該系列文章以及使用到安裝包/測試資料可以在《》獲取 1、Spark Streaming簡介 1.1 概述 Spark Streaming 是Spark核心API的一個擴充套件，可以實現高吞吐量的、具備容錯機制的實時流資料的處理。支援從多種資料來源獲取資料，包括Kafk、Flume、Twitt

如何設計一個實時流計算系統

實時流計算的場景歸納起來多半是：業務系統根據實時的操作，不斷生成事件（訊息/呼叫），然後引起一系列的處理分析，這個過程是分散在多臺計算機上並行完成的，看上去就像事件連續不斷的流經多個計算節點處理，形成一個實時流計算系統。市場上流計算產品有很多，主要是通過訊息中樞結合工人模式實現，大致過程如下： 1、開

基於Kafka+SparkStreaming+HBase實時點選流案例

背景Kafka實時記錄從資料採集工具Flume或業務系統實時介面收集資料，並作為訊息緩衝元件為上游實時計算框架提供可靠資料支撐，Spark 1.3版本後支援兩種整合Kafka機制（Receiver-based Approach 和 Direct Approach），具體細節請參考文章最後官方文件連結，資料儲存

大資料開發：實時資料平臺和流計算

大資料開發 1、實時資料平臺整體架構　　　　　　　　實時資料平臺的支撐技術主要包含四個方面：實時資料採集（如Flume）,訊息中介軟體（如Kafka）, 流計算框架（如Storm, Spark, Flink和Beam），以及資料實時儲存（如列

Storm簡介——實時流式計算介紹

大數據 bsp 要求角度 size 計算 spa 流量使用場景概念實時流式計算：大數據環境下，流式數據將作為一種新型的數據類型，這種數據具有連續性、無限性和瞬時性。是實時數據處理所面向的數據類型，對這種流式數據的實時計算就是實時流式計算。特

基於Hadoop生態SparkStreaming的大數據實時流處理平臺的搭建

perm cati permsize receive jdk1 處理方式行數據 con GC 隨著公司業務發展，對大數據的獲取和實時處理的要求就會越來越高，日誌處理、用戶行為分析、場景業務分析等等，傳統的寫日誌方式根本滿足不了業務的實時處理需求，所以本人準備開始著手改造

狼廠項目實踐：通用檢索框架準實時流的設計與實現

機制 oop 定期函數時也維護次數業務需求一是背景檢索對實時性的要求很高，不僅是對索引建立、結果召回、策略幹擾等核心部分，也包括數據錄入的部分。檢索的數據流主要包括全量數據與增量數據，其中全量數據是在運行前就已經生成好的，在檢索進程運行開始時就直接解析加載了

Java大數據實戰 Stom構建實時流處理

描述 kafka ont -exec 重點工程師 hadoop中 2-2 作業第1章課程導學介紹課程相關背景，學習建議等等1-1 01-導學_1-2 -OOTB環境使用演示1-3 -授課習慣與學習建議第2章初識實時流處理StormStorm作為近幾年Hadoop生

Java筆記：IO流

IO概述資料的傳輸，可以看作一種資料的流動，按照流動的放心，以記憶體為基準，分為輸入input和輸出output，即流向記憶體是輸入流，流出記憶體是輸出流 java中I/O操作，主要是指使用java.io包下的內容，進行輸入輸出操作，輸入也被叫做讀取資料，輸出也被叫做寫出資料

MVC案例之查詢學習：HTTP狀態500 - java.lang.NullPointerException

這幾天都在看servlet和jsp的視訊，早上看完MVC案例的查詢，沒想到一個小小的錯誤搞了我差不多一個下午，還是得多點記錄總結，以後絕不再犯同樣的錯誤！這個查詢主要是通過點選 test.jsp 頁面的超連結來檢視資料庫裡面的資料資訊。 1.首先有一個 test.jsp 用來顯示連結並

java輸入輸出10：IO流（IO流概述及其分類）

1 概念 1、IO流用來處理裝置之間的資料傳輸。 2、Java對資料的操作時通過流的方式。 3、Java用於操作流的類都在IO包中。 4、流按流向分為兩種：輸入流，輸出流。 5、流按照操作型別分為兩種：（1）位元組流：位元組流可以操作任何資料，因為在計算機中任何資料都是以位元

java流：列印流，序列流，資料流，記憶體流

列印流：位元組列印流PrintStream package com.qianfeng.test; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; im

java流：轉換流，裝置之間資料的傳輸，更換輸入源、輸出源

轉換流InputStreamReader、OutputStreamWriter package com.qianfeng.test; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io

Java：位元組流、字元流

1、IO概述- IO流概述及分類 1）、IO流： I：Input（輸入）：資料從外部流向程式中。（外部：檔案） O：Ouput（輸出）：資料從程式流向外部。流：線性的，有方向的 2）、作用：可以“讀”，“寫”檔案的內容，File類只能獲取檔案/目

sparkStreaming：實時流計算Java案例

相關推薦