Apache Hudi與Apache Flink整合

阿新 • • 發佈：2020-10-13

> 感謝王祥虎@wangxianghu 投稿 Apache Hudi是由Uber開發並開源的資料湖框架，它於2019年1月進入Apache孵化器孵化，次年5月份順利畢業晉升為Apache頂級專案。是當前最為熱門的資料湖框架之一。 ## 1. 為何要解耦 Hudi自誕生至今一直使用Spark作為其資料處理引擎。如果使用者想使用Hudi作為其資料湖框架，就必須在其平臺技術棧中引入Spark。放在幾年前，使用Spark作為大資料處理引擎可以說是很平常甚至是理所當然的事。因為Spark既可以進行批處理也可以使用微批模擬流，流批一體，一套引擎解決流、批問題。然而，近年來，隨著大資料技術的發展，同為大資料處理引擎的Flink逐漸進入人們的視野，並在計算引擎領域獲佔據了一定的市場，大資料處理引擎不再是一家獨大。在大資料技術社群、論壇等領地，Hudi是否支援使用flink計算引擎的的聲音開始逐漸出現，並日漸頻繁。所以使Hudi支援Flink引擎是個有價值的事情，而整合Flink引擎的前提是Hudi與Spark解耦。同時，縱觀大資料領域成熟、活躍、有生命力的框架，無一不是設計優雅，能與其他框架相互融合，彼此借力，各專所長。因此將Hudi與Spark解耦，將其變成一個引擎無關的資料湖框架，無疑是給Hudi與其他元件的融合創造了更多的可能，使得Hudi能更好的融入大資料生態圈。 ## 2. 解耦難點 Hudi內部使用Spark API像我們平時開發使用List一樣稀鬆平常。自從資料來源讀取資料，到最終寫出資料到表，無處不是使用Spark RDD作為主要資料結構，甚至連普通的工具類，都使用Spark API實現，可以說Hudi就是用Spark實現的一個通用資料湖框架，它與Spark的繫結可謂是深入骨髓。此外，此次解耦後集成的首要引擎是Flink。而Flink與Spark在核心抽象上差異很大。Spark認為資料是有界的，其核心抽象是一個有限的資料集合。而Flink則認為資料的本質是流，其核心抽象DataStream中包含的是各種對資料的操作。同時，Hudi內部還存在多處同時操作多個RDD,以及將一個RDD的處理結果與另一個RDD聯合處理的情況，這種抽象上的區別以及實現時對於中間結果的複用，使得Hudi在解耦抽象上難以使用統一的API同時操作RDD和DataStream。 ## 3. 解耦思路理論上,Hudi使用Spark作為其計算引擎無非是為了使用Spark的分散式計算能力以及RDD豐富的運算元能力。拋開分散式計算能力外，Hudi更多是把 RDD作為一個數據結構抽象，而RDD本質上又是一個有界資料集，因此，把RDD換成List,在理論上完全可行(當然，可能會犧牲些效能)。為了儘可能保證Hudi Spark版本的效能和穩定性。我們可以保留將有界資料集作為基本操作單位的設定，Hudi主要操作API不變，將RDD抽取為一個泛型， Spark引擎實現仍舊使用RDD,其他引擎則根據實際情況使用List或者其他有界資料集。解耦原則： 1）統一泛型。Spark API用到的`JavakRDD`,`JavaRDD`,`JavaRDD`統一使用泛型`I,K,O`代替； 2）去Spark化。抽象層所有API必須與Spark無關。涉及到具體操作難以在抽象層實現的，改寫為抽象方法，引入Spark子類實現。例如：Hudi內部多處使用到了`JavaSparkContext#map()`方法，去Spark化，則需要將`JavaSparkContext`隱藏，針對該問題我們引入了`HoodieEngineContext#map()`方法，該方法會遮蔽`map`的具體實現細節，從而在抽象成實現去Spark化。 3）抽象層儘量減少改動，保證hudi原版功能和效能； 4）使用`HoodieEngineContext`抽象類替換`JavaSparkContext`，提供執行環境上下文。 ## 4.Flink整合設計 Hudi的寫操作在本質上是批處理，`DeltaStreamer`的連續模式是通過迴圈進行批處理實現的。為使用統一API，Hudi整合flink時選擇攢一批資料後再進行處理，最後統一進行提交(這裡flink我們使用List來攢批資料)。攢批操作最容易想到的是通過使用時間視窗來實現，然而，使用視窗，在某個視窗沒有資料流入時，將沒有輸出資料，Sink端難以判斷同一批資料是否已經處理完。因此我們使用flink的檢查點機制來攢批，每兩個barrier之間的資料為一個批次，當某個子任務中沒有資料時，mock結果資料湊數。這樣在Sink端，當每個子任務都有結果資料下發時即可認為一批資料已經處理完成，可以執行commit。 DAG如下： ![avatar](https://cwiki.apache.org/confluence/download/attachments/141724520/image2020-10-8_22-3-56.png?version=1&modificationDate=1602165838000&api=v2) - source 接收kafka資料，轉換成`List`; - InstantGeneratorOperator 生成全域性唯一的instant.當上一個instant未完成或者當前批次無資料時，不建立新的instant； - KeyBy partitionPath 根據 `partitionPath`分割槽，避免多個子任務寫同一個分割槽； - WriteProcessOperator 執行寫操作，噹噹前分割槽無資料時，向下遊傳送空的結果資料湊數； - CommitSink 接收上游任務的計算結果，當收到 `parallelism`個結果時，認為上游子任務全部執行完成，執行commit. 注： `InstantGeneratorOperator`和`WriteProcessOperator` 均為自定義的Flink運算元，`InstantGeneratorOperator`會在其內部阻塞檢查上一個instant的狀態，保證全域性只有一個inflight（或requested）狀態的instant.`WriteProcessOperator`是實際執行寫操作的地方，其寫操作在checkpoint時觸發。 ## 5. 實現示例 ### 1) HoodieTable ``` /** * Abstract implementation of a HoodieTable. * * @param Sub type of HoodieRecordPayload * @param Type of inputs * @param Type of keys * @param Type of outputs */ public abstract class HoodieTable implements Serializable { protected final HoodieWriteConfig config; protected final HoodieTableMetaClient metaClient; protected final HoodieIndex index; public abstract HoodieWriteMetadata upsert(HoodieEngineContext context, String instantTime, I records); public abstract HoodieWriteMetadata insert(HoodieEngineContext context, String instantTime, I records); public abstract HoodieWriteMetadata bulkInsert(HoodieEngineContext context, String instantTime, I records, Option> bulkInsertPartitioner); ...... } ``` `HoodieTable` 是 hudi的核心抽象之一，其中定義了表支援的`insert`,`upsert`,`bulkInsert`等操作。以 `upsert` 為例，輸入資料由原先的 `JavaRDD inputRdds` 換成了 `I records`, 執行時 `JavaSparkContext jsc` 換成了 `HoodieEngineContext context`. 從類註釋可以看到 `T,I,K,O`分別代表了hudi操作的負載資料型別、輸入資料型別、主鍵型別以及輸出資料型別。這些泛型將貫穿整個抽象層。 ### 2) HoodieEngineContext ``` /** * Base class contains the context information needed by the engine at runtime. It will be extended by different * engine implementation if needed. */ public abstract class HoodieEngineContext { public abstract List map(List data, SerializableFunction func, int parallelism); public abstract List flatMap(List data, SerializableFunction> func, int parallelism); public abstract void foreach(List data, SerializableConsumer consumer, int parallelism); ...... } ``` `HoodieEngineContext` 扮演了 `JavaSparkContext` 的角色，它不僅能提供所有 `JavaSparkContext`能提供的資訊，還封裝了 `map`,`flatMap`,`foreach`等諸多方法，隱藏了`JavaSparkContext#map()`,`JavaSparkContext#flatMap()`,`JavaSparkContext#foreach()`等方法的具體實現。以`map`方法為例，在Spark的實現類 `HoodieSparkEngineContext`中，`map`方法如下： ``` @Override public List map(List data, SerializableFunction func, int parallelism) { return javaSparkContext.parallelize(data, parallelism).map(func::apply).collect(); } ``` 在操作List的引擎中其實現可以為（不同方法需注意執行緒安全問題，慎用`parallel()`）： ``` @Override public List map(List data, SerializableFunction func, int parallelism) { return data.stream().parallel().map(func::apply).collect(Collectors.toList()); } ``` 注：map函式中丟擲的異常，可以通過包裝`SerializableFunction func`解決. 這裡簡要介紹下 `SerializableFunction`: ``` @FunctionalInterface public interface SerializableFunction extends Serializable { O apply(I v1) throws Exception; } ``` 該方法實際上是 `java.util.function.Function` 的變種，與`java.util.function.Function` 不同的是 `SerializableFunction`可以序列化，可以拋異常。引入該函式是因為`JavaSparkContext#map()`函式能接收的入參必須可序列，同時在hudi的邏輯中，有多處需要拋異常，而在Lambda表示式中進行 `try catch` 程式碼會略顯臃腫，不太優雅。 ## 6.現狀和後續計劃 ### 6.1 工作時間軸 2020年4月，T3出行（楊華@vinoyang，王祥虎@wangxianghu）和阿里巴巴的同學（李少鋒@leesf）以及若干其他小夥伴一起設計、敲定了該解耦方案； 2020年4月，T3出行(王祥虎@wangxianghu)在內部完成了編碼實現，並進行了初步驗證，得出方案可行的結論； 2020年7月，T3出行(王祥虎@wangxianghu)將該設計實現和基於新抽象實現的Spark版本推向社群（HUDI-1089）； 2020年9月26日，順豐科技基於T3內部分支修改完善的版本在 Apache Flink Meetup（深圳站）公開PR, 使其成為業界第一個在線上使用Flink將資料寫hudi的企業。 2020年10月2日，HUDI-1089 合併入hudi主分支，標誌著hudi-spark解耦完成。 ### 6.2 後續計劃 1）推進hudi和flink整合將flink與hudi的整合儘快推向社群,在初期，該特性可能只支援kafka資料來源。 2）效能優化為保證hudi-spark版本的穩定性和效能，此次解耦沒有太多考慮flink版本可能存在的效能問題。 3）類flink-connector-hudi第三方包開發將hudi-flink的繫結做成第三方包，使用者可以在flink應用中以編碼方式讀取任意資料來源，通過這個第三方包寫

相關推薦

Apache Hudi與Apache Flink整合

> 感謝王祥虎@wangxianghu 投稿 Apache Hudi是由Uber開發並開源的資料湖框架，它於2019年1月進入Apache孵化器孵化，次年5月份順利畢業晉升為Apache頂級專案。是當前最為熱門的資料湖框架之一。 ## 1. 為何要解耦 Hudi自誕生至今一直使用Spark作為其資料處理

0545-配置apache實現與php的整合

linux整合###########接下來配置apache httpd.conf來支持php#### [[email protected] php-5.3.27]# cd /application/apache/conf/ [[email protected] conf]# vi http

Apache Camel 與 Spring Boot 整合，通過FTP定時採集、處理檔案

1、概要:　　　　本專案主要是通過在Spring平臺上配置Camel、FTP，實現定時從FTP伺服器下載檔案到本地、解析檔案、存入資料庫等功能。　　 2、搭建空專案: 　　Spring Boot有幾種自動生成空專案的機制：CLI、Spring tool suite、網站Spring Initializr，我

Linux下Apache與tomcat的整合

一.jdk安裝 1.在www.sun.com中下載linu的jdk1.6，下載到/home/lijing/下 2.在當前目錄下，輸入sh jdk-6u2-linux-i586-rpm.bin 看到安裝程式在詢問您是否尊守許可協議頁面 ,回車,空格都可以,看完協議. &

Apache Shiro（三）——Spring Boot 與 Shiro的整合

在瞭解了Apache Shiro的架構、認證、授權之後，我們來看一下Shiro與Web的整合。下面以Spring Boot為例，介紹一下Spring Boot 與 Shiro的整合。一、建立一個Spring Boot專案可以使用IDEA快速建立一個Spring Boot專

Apache CXF實戰之二整合Sping與Web容器

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

將tomcat與apache整合並配置叢集方式

本文件介紹瞭如何在linux上將tomcat與apache整合,並使用兩個tomcat做叢集.1.安裝apache下載apache原始碼httpd-2.0.47.tar.gztar -xvzf httpd-2.0.47.tar.gzcd httpd-2.0.47./confi

apache shiro與spring整合、動態filterChainDefinitions、以及認證、授權

apache shiro是一個安全認證框架，和spring security相比，在於他使用了比較簡潔易懂的認證和授權方式。其提供的native-session（即把使用者認證後的授權資訊儲存在其自身提供Session中）機制，這樣就可以和HttpSession、EJB

Windows 下 Apache HTTP Server 安裝、配置以及與 Tomcat 的整合（附圖）

如果您能點開這篇文章，說明您已對熟悉Apache HTTP Server（下文用Apache簡稱）配置的重要性已很清楚了，本文不在贅述，直接介入正題，請往下閱讀：為便於閱讀，列出文章目錄：一、Apache 的安裝說明二、Apache 的基本配置三、Apache

檢視php已安裝擴充套件，php與Apache整合

# php5 support LoadModule php5_module D:/wamp/bin/php/php5apache2_2.dll AddType application/x-httpd-

Apache Hudi 設計與架構最強解讀

感謝 Apache Hudi contributor：王祥虎翻譯&供稿。歡迎關注微信公眾號：ApacheHudi 本文將介紹Apache Hudi的基本概念、設計以及總體基礎架構。 1.簡介 Apache Hudi(簡稱：Hudi)使得您能在hadoop相容的儲存之上儲存大量資料，同時它

生態 | Apache Hudi整合Alluxio實踐

原文連結：https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw ## 1. 什麼是Alluxio Alluxio為資料驅動型應用和儲存系統構建了橋樑, 將資料從儲存層移動到距離資料驅動型應用更近的位置從而能夠更容易被訪問。這還使得應用程式能夠通過一個公共介面連

PHP與apache版本配對

.html apache2 技術 alt ref -1 技術分享 .com http 1.php5.2支持Apache2.0和Apache2.2;2.php5.3、php5.4同時支持Apache2.2和Apache2.4;3.php5.5只支持Apache2.4; VC9

apache 基與不同類型的虛擬主機

apache 基與不同類型的虛擬主機apache的虛擬主機分為三種：基於ip的虛擬主機基於端口的虛擬主機基於域名的虛擬主機基於域名的虛擬主機：對apache做虛擬主機主要是修改/application/apache/conf/extra目錄下面的httpd-vhosts.conf 文件

Nginx與Apache比較

一個性能影響 lec rewrite 定性 poll 超過內存 Nginx特點：高性能epoll 異步非阻塞多個連接（萬級別）可以對應一個進程支持反向代理支持7層負載均衡靜態文件、反向代理、前端緩存等處理方便支持高並發連接，每秒最多的並發連接請求理論可以達到 500

apache php 與nginx php 的區別

css apach stc 必須靜態文件 ast mod 解釋器 gin apache是通過mod_php來解析php nginx是通過php-fpm(fast-cgi)來解析php 1. PHP 解釋器是否嵌入 Web 服務器進程內部執行 mod_php 通過嵌入

使用Apache的ab工具對比Nginx與Apache靜態頁面處理能力

tt使用Apache的ab工具對比Nginx與Apache靜態頁面處理能力前言：為什麽要進行壓力測試在運維工作中，壓力測試是一項非常重要的工作。比如在一個網站上線之前，能承受多大訪問量、在大訪問量情況下性能怎樣，這些數據指標好壞將會直接影響用戶體驗。但是，在壓力測試中存在一個共性，那就是壓力測

Nginx-4：與apache性能對比

http.conf start nds .html 並發 sed sse request currently 壓力測試修改httpd壓力測試的配置文件添加到http.conf<Location /server-status>SetHandler server-s

Mariadb安裝與Apache安裝

Linux 學習筆記 Mariadb安裝 Apache安裝 Mariadb安裝與Apache安裝

Apache select與Nginx epoll模型區別

Linux服務1.select 和epoll模型區別1.1.網絡IO模型概述通常來說，網絡IO可以抽象成用戶態和內核態之間的數據交換。一次網絡數據讀取操作（read），可以拆分成兩個步驟：1）網卡驅動等待數據準備好（內核態）2）將數據從內核空間拷貝到進程空間（用戶態）。根據這兩個步驟處理方式不一樣，我們通常把