java8實現spark streaming的wordcount

阿新 • • 發佈：2018-10-31

概念這裡就不說了，從案例開始，慣例，hellowrod，哦不，wordcount。
要計算從一個監聽 TCP socket 的資料伺服器接收到的文字資料（text data）中的字數。
主體程式碼部分跟spark相差不大，畢竟DStream是RDD產生的模板（或者說類）。

1.匯入了 Spark Streaming 類

 <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming_2.11</artifactId>
        <version>2.0.0</version>
    </dependency>

2.程式碼示例

//注意本地除錯，master必須為local[n],n>1,表示一個執行緒接收資料，n-1個執行緒處理資料
SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("streaming word count");
JavaSparkContext sc = new JavaSparkContext(conf);
//設定日誌執行級別
sc.setLogLevel("WARN");
JavaStreamingContext ssc = new JavaStreamingContext(sc, Durations.seconds(1));
//建立一個將要連線到hostname:port 的離散流
JavaReceiverInputDStream<String> lines = 
ssc.socketTextStream("master1", 9999);
JavaPairDStream<String, Integer> counts = 
        lines.flatMap(x->Arrays.asList(x.split(" ")).iterator())
        .mapToPair(x -> new Tuple2<String, Integer>(x, 1))
        .reduceByKey((x, y) -> x + y);

// 在控制檯打印出在這個離散流（DStream）中生成的每個 RDD 的前十個元素
counts.print();
// 啟動計算
ssc.start();
ssc.awaitTermination();

3.建立服務端

找臺linux伺服器，執行netcat小工具：
nc -lk 9999
也就是上面程式碼裡socketTextStream的引數.

4.執行測試
本地啟動java程式碼後，控制檯會迴圈列印時間戳。
在nc那邊隨意輸入，本地即可實時看到統計結果。
這裡寫圖片描述

java8實現spark streaming的wordcount

概念這裡就不說了，從案例開始，慣例，hellowrod，哦不，wordcount。要計算從一個監聽 TCP socket 的資料伺服器接收到的文字資料（text data）中的字數。主體程式碼部分跟spark相差不大，畢竟DStream是RDD產生的模板（或者說類）。

java8實現spark wordcount並且按照value排序輸出

最近在學習spark，本來應該是使用scala程式設計，但是無奈scala沒接觸過，還得學，就先使用java的spark api練練手，其實發現java8的函數語言程式設計跟scala很多地方異曲同工啊

java8實現各種List操作

spa 實現 max groupby 處理 present 最小 erl IV 利用java8新特性，可以用簡潔高效的代碼來實現一些數據處理。定義1個Apple對象： public class Apple { private Integer id; pri

java8下spark-streaming結合kafka程式設計（spark 2.3 kafka 0.10）

前面有說道spark-streaming的簡單demo，也有說到kafka成功跑通的例子，這裡就結合二者，也是常用的使用之一。 1.相關元件版本首先確認版本，因為跟之前的版本有些不一樣，所以才有必要記錄下，另外仍然沒有使用scala,使用java8,spark 2.0.0,kafk

用java8實現6行程式碼搞定遞迴刪除多級非空目錄

在review 程式碼的時候，看到同事寫的程式碼刪除多級非空目錄,寫的很長一串，太複雜，就自己寫了一個,分享給大家: package com.test.java8; import java.io.File; import java.util.Arrays; import java.uti

Java8 實現計算兩個日期之間的天數

這幾天給專案組同事做程式碼評審，剛好看到一段求兩個日期之間的天數，看完後覺得寫的太複雜（採用獲取兩個日期的毫秒數，相減後再除以一天的毫秒數得到天數），剛好專案用的是java8，就想到用java8 新的Java日期/時間API 實現一個更加簡潔的方法 package test;

java實現spark運算元combineByKey

/** * createCombiner: combineByKey() 會遍歷分割槽中的所有元素，因此每個元素的鍵要麼還沒有遇到過，要麼就和之前的某個元素的鍵相同。如果這是一個新的元素， combineByKey() 會使用一個叫作 createCombiner() 的函式來建立

實現 spark DataSourceV2 的幾個環節

繼承 DataSourceV2 class SimpleWritableDataSource extends DataSourceV2 with ReadSupport with WriteSupport { override def createReader（） overrid

Java8 實現計算兩個日期之間的相隔多少周

查了很多資料，沒有直接獲取兩個日期之間相隔多少周。迂迴戰術：獲取兩個日期之間的天數。除以7等於相隔多少周。參考連結：https://blog.csdn.net/kevin_mails/article/details/78440696 package com.test; impo

java8實現列表去重，java8的stream 和lambda的使用例項

不管我們做安卓開發還是javaweb開發，有時候我們會對列表進行去重操作，所謂的列表資料重複，通常體現在列表集合資料中的id屬性相同。當然我們通過普通的方式也可以達到去重的效果。但是藉助java8新特性可以很方便的實現列表去重，下面就寫個小demo簡單的演示一下。

java8 實現map以value值排序

import java.util.Collections; import java.util.HashMap; import java.util.Map; import java.util.stream.Collector; import java.util.stream.C

寫出java8實現對List<User>中的username欄位過濾出不等於張三的資料

寫出java8實現對List<User>中的username欄位過濾出不等於張三的資料。。。對。。。這個是一道面試題。當時沒有看過java8的新特性。。。所以有點懵。看完之後感覺真。。好用~好簡單那~ package xcTest3; import java.ut

Java8實現Map/List/Set排序

Java8之前如果想對一個集合排序，那麼集合元素要麼實現了Comparable介面，要麼另外定義一個繼承於Comparator的比較器並實現compare方法，使用起來是非常麻煩的。在我之前的文章中也介紹了一種Guava的排序實現方案，也是非常簡單的，有興趣的同學可以去了解一

基於Java實現Spark統計身高的例項

a. 案例描述本案例假設我們需要對某個省的人口 (10萬) 性別還有身高進行統計，需要計算出男女人數，男性中的最高和最低身高，以及女性中的最高和最低身高。本案例中用到的原始檔有以下格式, 三列分別是 ID，性別，身高 (cm)，格式如下： b.人口

java實現spark streaming與kafka整合進行流式計算

背景：網上關於spark streaming的文章還是比較多的，可是大多數用scala實現，因我們的電商實時推薦專案以java為主，就踩了些坑，寫了java版的實現，程式碼比較意識流，輕噴，歡迎討論。流程：spark streaming從kafka讀使用者實時點選資料，過濾資

java8下spark-streaming結合kafka程式設計（spark 2.0 & kafka 0.10）

1.相關元件版本首先確認版本，因為跟之前的版本有些不一樣，所以才有必要記錄下，另外仍然沒有使用scala,使用java8,spark 2.0.0,kafka 0.10。 2.引入maven包網上找了一些結合的例子，但是跟我當前版本不一樣，所以根本就

基於Jupyter平臺通過python實現Spark的應用程式之wordCount

1、啟動spark平臺，介面如下： 2、啟動Jupyter，介面如下圖所示：如果你對以上啟動存在疑問的話，請看我的上一篇部落格，關於Jupyter配置Spark的。 3、功能分析 - 我們要實現的一個功能是統計詞頻 - 我們需要把統計的檔

使用 java8 實現List到Array的轉換

開發中需要呼叫第三方的庫，有些 API 的入參要求是 double[] 陣列，程式根據使用者在頁面的輸入，計算出一個 double[] 作為返回值的結果，然後呼叫這個 API。往往無法預先知道這個 double[] 陣列的大小，就不能直接定義一個 double[] 的變數

如何使用 Java8 實現觀察者模式？（下）

【編者按】本文作者是 BAE 系統公司的軟體工程師 Justin Albano。在本篇文章中，作者通過在 Java8 環境下實現觀察者模式的例項，進一步介紹了什麼是觀察者模式、專業化及其命名規則，供大家參考學習。本文系國內 ITOM 管理平臺 OneAPM 工程

三種方法實現Spark計算WordCount

package cn.itcast.hadoop.mr; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache

java8實現spark streaming的wordcount

相關推薦