Flink入門程式WordCount 和 SQL實現

阿新 • • 發佈：2020-09-22

Flink入門程式WordCount 和 SQL實現

一、WordCount

1、首先建立好專案，然後新增相關依賴

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-java</artifactId>
<version>${flink.version}</version>
<!--<scope>provided</scope>-->
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-streaming-java_${scala.binary.version}</artifactId>
<version>${flink.version}</version>
<!--<scope>provided</scope>-->
</dependency>

2、DataSet WordCount

wordcount程式是大資料處理框架的入門程式，統計一段檔案每個單詞出現次數。該程式主要分為兩個部分：一部分是將文字拆分成單詞；另一部分是將單詞進行分組計數不能給列印輸出結果。
整體程式碼如下：

publicstaticvoidmain(String[]args)throwsException{

//建立Flink執行的上下文環境
finalExecutionEnvironmentenv=ExecutionEnvironment.getExecutionEnvironment();

//建立DataSet，這裡我們的輸入是一行一行的文字
DataSet<String>text=env.fromElements(
"FlinkSparkStorm",
"FlinkFlinkFlink",
"SparkSparkSpark",
"StormStormStorm"
);
//通過Flink內建的轉換函式進行計算
DataSet<Tuple2<String,Integer>>counts=
text.flatMap(newLineSplitter())
.groupBy(0)
.sum(1);
//結果列印
counts.printToErr();

}

publicstaticfinalclassLineSplitterimplementsFlatMapFunction<String,Tuple2<String,Integer>>{

@Override
publicvoidflatMap(Stringvalue,Collector<Tuple2<String,Integer>>out){
//將文字分割
String[]tokens=value.toLowerCase().split("\\W+");

for(Stringtoken:tokens){
if(token.length()>0){
out.collect(newTuple2<String,Integer>(token,1));
}
}
}
}

實現的整個過程中分為一下幾個步驟。
（1）我們需要建立Flink的上下文執行環境：

ExecutionEnvironmentenv=ExecutionEnvironment.getExecutionEnvironment();

（2）使用fromElements函式建立一個DataSet物件，該物件中包含了我們的輸入，使用FlatMap、GroupBy、Sum函式進行轉換
（3）直接執行解僱

3、DataStream WordCount

為了模仿一個流式計算環境，我們選擇監聽一個本地的socket埠，並且使用Flink中的滾動視窗，每5s列印一次計算結果，程式碼如下：

publicclassStreamingJob{

publicstaticvoidmain(String[]args)throwsException{

//建立Flink的流式計算環境
finalStreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();

//監聽本地9000埠
DataStream<String>text=env.socketTextStream("127.0.0.1",9000,"\n");

//將接收的資料進行拆分，分組，視窗計算並且進行聚合輸出
DataStream<WordWithCount>windowCounts=text
.flatMap(newFlatMapFunction<String,WordWithCount>(){
@Override
publicvoidflatMap(Stringvalue,Collector<WordWithCount>out){
for(Stringword:value.split("\\s")){
out.collect(newWordWithCount(word,1L));
}
}
})
.keyBy("word")
.timeWindow(Time.seconds(5),Time.seconds(1))
.reduce(newReduceFunction<WordWithCount>(){
@Override
publicWordWithCountreduce(WordWithCounta,WordWithCountb){
returnnewWordWithCount(a.word,a.count+b.count);
}
});

//列印結果
windowCounts.print().setParallelism(1);

env.execute("SocketWindowWordCount");
}

//Datatypeforwordswithcount
publicstaticclassWordWithCount{

publicStringword;
publiclongcount;

publicWordWithCount(){}

publicWordWithCount(Stringword,longcount){
this.word=word;
this.count=count;
}

@Override
publicStringtoString(){
returnword+":"+count;
}
}
}

整個流式計算的過程分為以下幾步：
（1）首先建立一個流式計算環境：

StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();

（2）進行本地9000埠監聽，將接受的資料進行拆分、分組、視窗計算並且進行聚合輸出，程式碼中使用了Flink的視窗函式，後面會進行詳解。
（3）在本地使用netcat命令啟動一個視窗：

nc-lk9000

（4）執行程式，得到結果

輸入：

$nc-lk9000
FlinkFlinkFlink
FlinkSparkStorm

結果：

Flink:4
Spark:1
Storm:1

4、Flink Table & SQL WordCount

Flink SQL 是Flink實時計算為簡化計算模型，降低使用者使用實時計算的門檻而設計的一套符合標準SQL語義的開發語言。
一個完整的Flink SQL便攜的程式包括以下三個部分：

Source Operator：是對外部資料來源的抽象，目前Flink內建了很多常用的資料來源實現，如MySQL、Kafka等
Transformation Operator：運算元操作主要完成比如查詢、聚合操作等。目前Flink SQL支援Union、join、Projection、Difference、intersection及window等操作
Sink Operator：是對外結果表的抽象，內建了比如MySQL、Kafka等

（1）首先在pom中增加依賴

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-java</artifactId>
<version>1.10.0</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-streaming-java_2.11
<version>1.10.0</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-api-java-bridge_2.11</artifactId>
<version>1.10.0</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-planner-blink_2.11</artifactId>
<version>1.10.0</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-planner_2.11</artifactId>
<version>1.10.0</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-api-scala-bridge_2.11</artifactId>
<version>1.10.0</version>
</dependency>

（2）建立上下文環境

ExecutionEnvironmentfbEnv=ExecutionEnvironment.getExecutionEnvironment();
BatchTableEnvironmentfbTableEnv=BatchTableEnvironment.create(fbEnv);

（3）讀取一行資料作為輸入

Stringwords="helloflinkhellolagou";
String[]split=words.split("\\W+");
ArrayList<WC>list=newArrayList<>();

for(Stringword:split){
WCwc=newWC(word,1);
list.add(wc);
}
DataSet<WC>input=fbEnv.fromCollection(list);

（4）註冊成表，執行SQL，然後輸出

//DataSet轉sql,指定欄位名
Tabletable=fbTableEnv.fromDataSet(input,"word,frequency");
table.printSchema();

//註冊為一個表
fbTableEnv.createTemporaryView("WordCount",table);

Tabletable02=fbTableEnv.sqlQuery("selectwordasword,sum(frequency)asfrequencyfromWordCountGROUPBYword");

//將錶轉換DataSet
DataSet<WC>ds3=fbTableEnv.toDataSet(table02,WC.class);
ds3.printToErr();

整體程式碼如下：

publicclassWordCountSQL{

publicstaticvoidmain(String[]args)throwsException{

//獲取執行環境
ExecutionEnvironmentfbEnv=ExecutionEnvironment.getExecutionEnvironment();
//建立一個tableEnvironment
BatchTableEnvironmentfbTableEnv=BatchTableEnvironment.create(fbEnv);

Stringwords="helloflinkhellolagou";

String[]split=words.split("\\W+");
ArrayList<WC>list=newArrayList<>();

for(Stringword:split){
WCwc=newWC(word,1);
list.add(wc);
}
DataSet<WC>input=fbEnv.fromCollection(list);

//DataSet轉sql,指定欄位名
Tabletable=fbTableEnv.fromDataSet(input,"word,frequency");
table.printSchema();

//註冊為一個表
fbTableEnv.createTemporaryView("WordCount",table);

Tabletable02=fbTableEnv.sqlQuery("selectwordasword,sum(frequency)asfrequencyfromWordCountGROUPBYword");

//將錶轉換DataSet
DataSet<WC>ds3=fbTableEnv.toDataSet(table02,WC.class);
ds3.printToErr();
}

publicstaticclassWC{
publicStringword;
publiclongfrequency;

publicWC(){}

publicWC(Stringword,longfrequency){
this.word=word;
this.frequency=frequency;
}

@Override
publicStringtoString(){
returnword+","+frequency;
}
}
}

5、總結

這篇文章主要以wordcount場景用Flink來演示，讓大家體驗Flink SQL的強大之處，為後續內容打好基礎。

Flink入門程式WordCount 和 SQL實現

Flink入門程式WordCount 和 SQL實現一、WordCount 1、首先建立好專案，然後新增相關依賴

flink入門程式-＞WordCount

技術標籤：Flinkflink大資料 flink入門程式->WordCount 1、Flink程式設計模型Flink提供了不同級別的程式設計抽象，通過呼叫抽象的資料集呼叫運算元構建DataFlow就可以實現對分散式的資料進行流式計算和離線計

如何用程式碼實現tablewidget的表頭_ELF檔案程式表頭和程式碼實現ELF檔案載入

技術標籤：如何用程式碼實現tablewidget的表頭前面章節我們瞭解了ELF檔案的頭部結構，這次我們深入瞭解另一個非常重要的資料結構，那就是程式表頭。作業系統嚴重依賴該結構來載入ELF檔案或是實現動態連結。程

入門Flink的第一個程式——WordCount

一、從WordCount開始 1.1 Maven依賴 <?xml version=\"1.0\" encoding=\"UTF-8\"?> <project xmlns=\"http://maven.apache.org/POM/4.0.0\"

python如何解析複雜sql,實現資料庫和表的提取的例項剖析

需求：公司的資料分析師，提交一個sql,一般都三四百行。由於資料安全的需要，不能開放所有的資料庫和資料表給資料分析師查詢，所以需要解析sql中的資料庫和表，與許可權管理系統中記錄的資料庫和表許可權資訊比對，

NetCore控制檯程式-使用HostService和HttpClient實現簡單的定時爬蟲

.NetCore承載系統 .NetCore的承載系統, 可以將長時間執行的服務承載於託管程序中, AspNetCore應用其實就是一個長時間執行的服務, 啟動AspNetCore應用後, 它就會監聽網路請求, 也就是開啟了一個監聽器, 監聽器會將網路

SQLServer -------- 跨庫修改（程式和sql 語句兩種方式）

1、直接在資料庫中使用sql 語句使用SQLServer 資料庫時候注意庫名.dbo.表名.列名

Flink之TableAPI和SQL（3）：通過TableAPI和SQL表的一些操作（包括查詢，過濾，聚集等）

具體實現如下程式碼所示： // 1、建立執行環境 val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

用VSCode終端實現重定向比較程式輸出和正確輸出

在刷 OJ 題目或者進行程式設計考試或比賽時，經常需要對編寫好的程式進行測試，即執行編寫好的程式，輸入樣例輸入或者自己編寫的輸入資料，檢視程式輸出結果和樣例輸出或者正確輸出是否一致。這種方法有很多弊端，當

Flink：Table Api 和 Flink SQL

簡介 Flink 對批處理和流處理，提供了統一的上層 API Table API 是一套內嵌在 Java 和 Scala 語言中的查詢API，它允許以非常直觀的方式組合來自一些關係運算符的查詢

2-HC32F460(華大)+Air724UG(4G GPRS)基本控制篇(自建物聯網平臺)-整體執行測試-微信小程式掃碼繫結Air724,並通過MQTT和微控制器實現遠端通訊控制

python小程式-表中查詢一個欄位，該欄位是個sql1，需要迴圈驗證表1中的每一個sql1執行是否報錯，報錯則打印表中的序號和sql

1、需求表中查詢一個欄位，該欄位是個sql1，需要迴圈驗證表1中的每一個sql1執行是否報錯，報錯則打印表中的序號和sql

Sql Server引數化查詢之where in和like實現詳解

GPS平臺、網站建設、軟體開發、系統運維，找森大網路科技！https://cnsendnet.taobao.com來自森大科技官方部落格http://www.cnsendblog.com/index.php/?p=2046

0-STM32+ESP8266+Air302基本控制篇(自建物聯網平臺)-整體執行測試-微信小程式使用APUConfig配網繫結ESP8266,並通過MQTT和ESP8266實現遠端通訊控制

【Spark研究】極簡 Spark 入門筆記——安裝和第一個迴歸程式

現在的各種資料處理技術更新換代太快，新的名詞和工具層出不窮，像是 Hadoop 和 Spark 這些，最近幾年著實火了一把，但自己一直沒精力和時間去嘗試和學習。特別是聽說這些工具配置起來比較複雜，就更懶得去折騰。在這

PL/SQL 程式設計（三）程式包和包體，觸發器，檢視，索引

一、程式包和包體程式包（package）：儲存在資料庫中的一組子程式、變數定義。在包中的子程式可以被其它程式包或子程式呼叫。但如果宣告的是區域性子程式，則只能在定義該區域性子程式的塊中呼叫該區域性子程式。

大資料Hadoop之——Flink Table API 和 SQL（單機Kafka）

目錄一、Table API 和 Flink SQL 是什麼二、配置Table依賴（scala）三、兩種 planner（old & blink）的區別

EF使用LINQ和Lamda實現SQL查詢的內連線（INNER JOIN）和左連線（LEFT JOIN）

摘自：https://www.freesion.com/article/7263358177/ 背景介紹：1.OperateLogInfo：日誌表2.SystemUserInfo：使用者表需求：查詢日誌表，要根據日誌表的建立人id查詢出建立人姓名（日誌表連線使用者表）

基於Moya、RxSwift和ObjectMapper實現REST API請求

在Android開發中有非常強大的 Retrofit 請求，結合RxJava可以非常方便實現 RESTful API 網路請求。在 iOS開發中也有非常強大的網路請求庫 Moya ，Moya是一個基於 Alamofire 開發的,輕量級的Swift網路層。Moya的可擴充

咱們從頭到尾講一次 Flink 網路流控和反壓剖析

作者：張俊整理：張友亮（Apache Flink 社群志願者）本文共 4745字，預計閱讀時間 15min。

Flink入門程式WordCount 和 SQL實現