Apache Beam入門及Java SDK開發初體驗

阿新 • • 發佈：2021-10-17

1 什麼是Apache Beam

Apache Beam是一個開源的統一的大資料程式設計模型，它本身並不提供執行引擎，而是支援各種平臺如GCP Dataflow、Spark、Flink等。通過Apache Beam來定義批處理或流處理，就可以放在各種執行引擎上運行了。

目前支援的SDK語言也很豐富，有Java、Python、Go等。

1.1 一些基礎概念

PCollection：可理解為資料包，資料處理就是在對各種PCollection進行轉換和處理。
PTransform：代表資料處理，用來定義資料是怎麼被處理的，用來處理PCollection。
Pipeline：流水線，是由PTransform和PCollection組成的集合，可以理解為它定義了資料處理從源到目標的整個過程。
Runner：資料處理引擎。

一個最簡單的Pipeline例子如下：

從資料庫讀資料為PCollection，經過轉化成為另一個PCollection，然後寫回到資料庫中去。

可以有多個PTransform處理同一個PCollection：

一個PTransform也可以生成多個PCollection：

2 Java開發初體驗

我們通過使用Java SDK來開發一個WordCount感受一下。

先引入必要的依賴，版本為2.32.0：

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>${beam.version}</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-direct-java</artifactId>
  <version>${beam.version}</version>
</dependency>

寫Java主程式如下：

public class WordCountDirect {
    public static void main(String[] args) {
        PipelineOptions options = PipelineOptionsFactory.create();
        Pipeline pipeline = Pipeline.create(options);
        PCollection<String> lines = pipeline.apply("read from file",
                TextIO.read().from("pkslow.txt"));

        PCollection<List<String>> wordList = lines.apply(MapElements.via(new SimpleFunction<String, List<String>>() {
            @Override
            public List<String> apply(String input) {
                List<String> result = new ArrayList<>();
               char[] chars = input.toCharArray();

                for (char c:chars) {
                    result.add(String.valueOf(c));
                }

              return result;
            }
        }));

        PCollection<String> words = wordList.apply(Flatten.iterables());

        PCollection<KV<String, Long>> wordCount = words.apply(Count.perElement());

        wordCount.apply(MapElements.via(new SimpleFunction<KV<String, Long>, String>() {
            @Override
            public String apply(KV<String, Long> count) {
                return String.format("%s : %s", count.getKey(), count.getValue());
            }
        })).apply(TextIO.write().to("word-count-result"));

        pipeline.run().waitUntilFinish();
    }
}

直接執行，預設是通過DirectRunner來執行的，即在本地即可執行，不用搭建。非常方便開發和測試Pipeline。

整個程式大概流程是：

從pkslow.txt檔案裡讀取所有行，然後將每一行拆分為多個字元，計算每個字元出現的次數，輸出到檔案中word-count-result。

pkslow.txt檔案內容如下：

執行後的結果檔案如下所示：

3 總結

簡單體驗了一下，基於Beam的模型開發還是很簡單，很好理解的。但它在各種平臺上的執行效率如何，就還需要深挖了。

程式碼請檢視：https://github.com/LarryDpk/pkslow-samples

Apache Beam入門及Java SDK開發初體驗

1 什麼是Apache Beam Apache Beam是一個開源的統一的大資料程式設計模型，它本身並不提供執行引擎，而是支援各種平臺如GCP Dataflow、Spark、Flink等。通過Apache Beam來定義批處理或流處理，就可以放在各種執行引擎

鴻蒙真的是套殼嗎？HarmonyOS應用開發初體驗，Java原生和JavaScript的mvvm開發

初探尋鴻蒙os的應用開發本期視訊已釋出到bilibili 注意是應用開發，沒錯碼農（應用開發）一般關注這個就行了

Java 吉軟初體驗

2019獨角獸企業重金招聘Python工程師標準>>> public class czx{ public static void main (String[] args) { String name="陳政旭"; String class1="R1752"; String profe

華為鴻蒙系統開發初體驗

前言各位同學大家好有段時間沒有給大家更新文章了，昨天12月16 日華為釋出了鴻蒙os2.0 bate 版本 ,所以就趁著有時間給大家分享一下鴻蒙開發的體驗

Java的io初體驗

技術標籤：Java的IOjava Java IO初體驗，今天學了java.io的內容，我總結了以下的知識： 1.我們輸入指的是外存檔案上的內容輸入到記憶體中，稱為輸入input 或者寫入read 2.我們輸出指的是將記憶體中的資料內容

flutter-開發初體驗之Android Studio環境的搭建和配置

現在在自學flutter，萬事先把裝備準備好，首先來把常用的編輯器安裝好，走著~

java資料庫開發之JDBC基礎使用方法及例項詳解

1.什麼是JDBC JDBC是一種用於執行SQL語句的Java API，可以為多種關係資料庫提供統一訪問，它由一組用Java語言編寫的類和介面組成。JDBC提供了一種基準，據此可以構建更高階的工具和介面，使資料庫開發人員能夠編寫資

102 01 Android 零基礎入門 02 Java面向物件 03 綜合案例（學生資訊管理） 02 案例分析及實現 06 通過方法實現學生類與專業類關聯——方案三

102 01 Android 零基礎入門02 Java面向物件 03 綜合案例（學生資訊管理） 02 案例分析及實現 06 通過方法實現學生類與專業類關聯——方案三

106 01 Android 零基礎入門 02 Java面向物件 03 綜合案例（學生資訊管理） 03 新增功能及實現 02 新增屬性完成學生資訊儲存

106 01 Android 零基礎入門02 Java面向物件 03 綜合案例（學生資訊管理） 03 新增功能及實現 02 新增屬性完成學生資訊儲存

p5.js初入門及理解

p5.js初入門及理解學習p5.js的初衷p5.js是什麼p5.js和processing的區別p5.js的學習環境搭建p5.js如何在react，vue等環境中使用後續p5研究方向，感興趣的可以一起交流

Azure IoT Edge入門（8）邊緣裝置到雲的訊息及在本地開發除錯 debug Edge Module

本文介紹： 1. 利用Module Client 傳送Module 到雲的訊息； 2. 如何在本地VS code中除錯 Azure IoT Edge Module；

Java軟體開發面試題！原始碼解讀及如何保證執行緒安全

Java軟體開發面試題！原始碼解讀及如何保證執行緒安全零基礎該如何學Java？

Java技術開發專題系列之【Guava RateLimiter】針對於限流器的入門到精通（針對於原始碼分析介紹）

Guava包中限流實現分析 RateLimiter 之前的文章中已經介紹了常用的限流演算法，而google在Java領域中使用Guava包中的限流工具進行服務限流。

java 處理 http 請求之Apache httpClient 入門教程

說明本文示例程式碼基於 4.5.13 版本轉載請註明出處：https://www.cnblogs.com/qnlcy/p/15378446.html

Java入門及基本環境搭建

Java入門及基本環境搭建 1.Java特性和優勢 (1)簡單性 (2)面向物件 (3)可移植性 (4)高效能

Apache Thrift 安裝及快速入門

Apache Thrift是什麼？ The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work eff

新手入門怎麼選嵌入式開發板？ARM開發板推薦及學習方法

STM32MP157開發板--微控制器開發板與Linux開發板特點：iTOP-STM32MP157開發板採用ST推出的雙核cortex-A7+單核cortex-M4異構處理器，既可用Linux、又可以用於STM32微控制器開發。

Java分散式開發不得不知的Dubbo技術詳細介紹

1 dubbox簡介隨著網際網路的發展，網站應用的規模不斷擴大，常規的垂直應用架構已無法應對，分散式服務架構以及流動計算架構勢在必行，亟需一個治理系統確保架構有條不紊的演進。

網易技術乾貨 | 雲信跨平臺C++ SDK開發實戰

1. 序言 2018年，Flutter Release正式釋出，將移動端跨平臺開發技術再一次推上風口浪尖。2019年5月，Flutter 1.5正式支援Web開發，而預告中正在開發的Flutter for Desktop以及對於嵌入式的支援，使得Flutter最終目標

Java基礎開發之JDBC操作資料庫增刪改查，分頁查詢例項詳解

對資料庫的操作無非就是增刪改查，其中數查詢操作最為複雜，所以將查詢單獨講解，我這裡用的Mysql資料庫

Apache Beam入門及Java SDK開發初體驗

1 什麼是Apache Beam

1.1 一些基礎概念

2 Java開發初體驗

3 總結

相關推薦