Java lambda表示式實現Flink WordCount過程解析

阿新 • • 發佈：2020-02-05

這篇文章主要介紹了Java lambda表示式實現Flink WordCount過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

本篇我們將使用Java語言來實現Flink的單詞統計。

程式碼開發

環境準備

匯入Flink 1.9 pom依賴

<dependencies>
    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-java</artifactId>
      <version>1.9.0</version>
    </dependency>
    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-streaming-java_2.11</artifactId>
      <version>1.9.0</version>
    </dependency>
    <dependency>
      <groupId>org.apache.commons</groupId>
      <artifactId>commons-lang3</artifactId>
      <version>3.7</version>
    </dependency>
  </dependencies>

構建Flink流處理環境

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

自定義source

每秒生成一行文字

DataStreamSource<String> wordLineDS = env.addSource(new RichSourceFunction<String>() {
      private boolean isCanal = false;
      private String[] words = {
          "important oracle jdk license update","the oracle jdk license has changed for releases starting april 16 2019","the new oracle technology network license agreement for oracle java se is substantially different from prior oracle jdk licenses the new license permits certain uses such as ","personal use and development use at no cost but other uses authorized under prior oracle jdk licenses may no longer be available please review the terms carefully before ","downloading and using this product an faq is available here ","commercial license and support is available with a low cost java se subscription","oracle also provides the latest openjdk release under the open source gpl license at jdk java net"
      };

      @Override
      public void run(SourceContext<String> ctx) throws Exception {
        // 每秒傳送一行文字
        while (!isCanal) {
          int randomIndex = RandomUtils.nextInt(0,words.length);
          ctx.collect(words[randomIndex]);
          Thread.sleep(1000);
        }
      }

      @Override
      public void cancel() {
        isCanal = true;
      }
    });

單詞計算

// 3. 單詞統計
    // 3.1 將文字行切分成一個個的單詞
    SingleOutputStreamOperator<String> wordsDS = wordLineDS.flatMap((String line,Collector<String> ctx) -> {
      // 切分單詞
      Arrays.stream(line.split(" ")).forEach(word -> {
        ctx.collect(word);
      });
    }).returns(Types.STRING);

    //3.2 將單詞轉換為一個個的元組
    SingleOutputStreamOperator<Tuple2<String,Integer>> tupleDS = wordsDS
        .map(word -> Tuple2.of(word,1))
        .returns(Types.TUPLE(Types.STRING,Types.INT));

    // 3.3 按照單詞進行分組
    KeyedStream<Tuple2<String,Integer>,String> keyedDS = tupleDS.keyBy(tuple -> tuple.f0);

    // 3.4 對每組單詞數量進行累加
    SingleOutputStreamOperator<Tuple2<String,Integer>> resultDS = keyedDS
        .timeWindow(Time.seconds(3))
        .reduce((t1,t2) -> Tuple2.of(t1.f0,t1.f1 + t2.f1));

    resultDS.print();

參考程式碼

public class WordCount {
  public static void main(String[] args) throws Exception {
    // 1. 構建Flink流式初始化環境
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

    // 2. 自定義source - 每秒傳送一行文字
    DataStreamSource<String> wordLineDS = env.addSource(new RichSourceFunction<String>() {
      private boolean isCanal = false;
      private String[] words = {
          "important oracle jdk license update",words.length);
          ctx.collect(words[randomIndex]);
          Thread.sleep(1000);
        }
      }

      @Override
      public void cancel() {
        isCanal = true;
      }
    });

    // 3. 單詞統計
    // 3.1 將文字行切分成一個個的單詞
    SingleOutputStreamOperator<String> wordsDS = wordLineDS.flatMap((String line,t1.f1 + t2.f1));

    resultDS.print();

    env.execute("app");
  }
}

Flink對Java Lambda表示式支援情況

Flink支援Java API所有操作符使用Lambda表示式。但是，但Lambda表示式使用Java泛型時，就需要宣告型別資訊。

我們來看下上述的這段程式碼：

SingleOutputStreamOperator<String> wordsDS = wordLineDS.flatMap((String line,Collector<String> ctx) -> {
      // 切分單詞
      Arrays.stream(line.split(" ")).forEach(word -> {
        ctx.collect(word);
      });
    }).returns(Types.STRING);

之所以這裡將所有的型別資訊，因為Flink無法正確自動推斷出來Collector中帶的泛型。我們來看一下FlatMapFuntion的原始碼

@Public
@FunctionalInterface
public interface FlatMapFunction<T,O> extends Function,Serializable {

  /**
  * The core method of the FlatMapFunction. Takes an element from the input data set and transforms
  * it into zero,one,or more elements.
  *
  * @param value The input value.
  * @param out The collector for returning result values.
  *
  * @throws Exception This method may throw exceptions. Throwing an exception will cause the operation
  *          to fail and may trigger recovery.
  */
  void flatMap(T value,Collector<O> out) throws Exception;
}

我們發現 flatMap的第二個引數是Collector<O>，是一個帶引數的泛型。Java編譯器編譯該程式碼時會進行引數型別擦除，所以Java編譯器會變成成：

void flatMap(T value,Collector out)

這種情況，Flink將無法自動推斷型別資訊。如果我們沒有顯示地提供型別資訊，將會出現以下錯誤：

org.apache.flink.api.common.functions.InvalidTypesException: The generic type parameters of 'Collector' are missing.
  In many cases lambda methods don't provide enough information for automatic type extraction when Java generics are involved.
  An easy workaround is to use an (anonymous) class instead that implements the 'org.apache.flink.api.common.functions.FlatMapFunction' interface.
  Otherwise the type has to be specified explicitly using type information.

這種情況下，必須要顯示指定型別資訊，否則輸出將返回值視為Object型別，這將導致Flink無法正確序列化。

所以，我們需要顯示地指定Lambda表示式的引數型別資訊，並通過returns方法顯示指定輸出的型別資訊

我們再看一段程式碼：

SingleOutputStreamOperator<Tuple2<String,Types.INT));

為什麼map後面也需要指定型別呢？

因為此處map返回的是Tuple2型別，Tuple2是帶有泛型引數，在編譯的時候同樣會被查出泛型引數資訊，導致Flink無法正確推斷。

更多關於對Java Lambda表示式的支援請參考官網：https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/java_lambdas.html

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Java lambda表示式實現Flink WordCount過程解析

Java自定義實現equals()方法過程解析

這篇文章主要介紹了Java自定義實現equals()方法過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

通過Java實現bash命令過程解析

這篇文章主要介紹了通過Java實現bash命令過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

如何通過Java實現時間軸過程解析

這篇文章主要介紹瞭如何通過Java實現時間軸過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Java Netty實現心跳機制過程解析

netty心跳機制示例，使用Netty實現心跳機制，使用netty4，IdleStateHandler 實現。Netty心跳機制，netty心跳檢測，netty,心跳

Java基於自定義類載入器實現熱部署過程解析

熱部署：熱部署就是在不重啟應用的情況下，當類的定義即位元組碼檔案修改後，能夠替換該Class建立的物件。一般情況下，類的載入都是由系統自帶的類載入器完成，且對於同一個全限定名的java類，只能被載入一次，而且

Java基於rest assured實現介面測試過程解析

背景 java程式設計師一般寫的是後端服務是JavaWeb型別的專案，主要包括Http介面和dubbo介面，Http介面一般採用的rest風格，那麼如何快速的對rest介面在第三方的測試框架上進行測試呢？

Java Lambda表示式原理及多執行緒實現

1、使用Lambda表示式實現多執行緒 public static void main(String[] args) { //使用匿名內部類的方式，實現多執行緒

基於java流實現壓縮圖片過程解析

整理文件，搜刮出一個Java做圖片壓縮的程式碼，稍微整理精簡一下做下分享。

Java學習-080-多執行緒13：利用Lambda表示式實現執行緒類的定義

用較小的程式碼量可以實現的執行緒定義，可以通過 Lambda 表示式進行執行緒類的實現。

SpringBoot基於資料庫實現定時任務過程解析

這篇文章主要介紹了SpringBoot基於資料庫實現定時任務過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Java super關鍵字呼叫父類過程解析

這篇文章主要介紹了Java super關鍵字呼叫父類過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Java跳出多重巢狀迴圈過程解析

這篇文章主要介紹了Java跳出多重巢狀迴圈過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

spring boot基於DRUID實現資料來源監控過程解析

這篇文章主要介紹了spring boot基於DRUID實現資料來源監控過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

java阻塞佇列實現原理及例項解析

這篇文章主要介紹了java阻塞佇列實現原理及例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

spring專案實現單元測試過程解析

後臺開發過程中，寫單元測試是非常重要的，對於我們開發人員除錯、排查問題是很方便的，

java lambda表示式用法總結

這篇文章主要介紹了java lamda表示式用法總結,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

java Scanner輸入數字、字串過程解析

Scanner類簡介 Java 5添加了java.util.Scanner類，這是一個用於掃描輸入文字的新的實用程式。它是以前的StringTokenizer和Matcher類之間的某種結合。由於任何資料都必須通過同一模式的捕獲組檢索或通過使用一個索引

Python實現word2Vec model過程解析

這篇文章主要介紹了Python實現word2Vec model過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

基於Python實現簽到指令碼過程解析

無聊刷日劇，看到簽到斷了好久，簡單寫了個指令碼，通過模擬抓包的方式實現

Java lambda表示式實現Flink WordCount過程解析

相關推薦