1. 程式人生 > 其它 >基於Apache Hudi 的CDC資料入湖

基於Apache Hudi 的CDC資料入湖

作者:李少鋒

文章目錄:

一、CDC背景介紹

二、CDC資料入湖

三、Hudi核心設計

四、Hudi未來規劃

1. CDC背景介紹

首先我們介紹什麼是CDC?CDC的全稱是Change data Capture,即變更資料捕獲,它是資料庫領域非常常見的技術,主要用於捕獲資料庫的一些變更,然後可以把變更資料傳送到下游。它的應用比較廣,可以做一些資料同步、資料分發和資料採集,還可以做ETL,今天主要分享的也是把DB資料通過CDC的方式ETL到資料湖。

對於CDC,業界主要有兩種型別:

  • 基於查詢,客戶端會通過SQL方式查詢源庫表變更資料,然後對外發送。
  • 基於日誌,這也是業界廣泛使用的一種方式,一般是通過binlog方式,變更的記錄會寫入binlog,解析binlog後會寫入訊息系統,或直接基於Flink CDC進行處理。

它們兩者是有區別的,基於查詢比較簡單,是入侵性的,而基於日誌是非侵入性,對資料來源沒有影響,但binlog的解析比較複雜一些。

基於查詢和基於日誌,分別有四種實現技術,有基於時間戳、基於觸發器和快照,還有基於日誌的,這是實現CDC的技術,下面是幾種方式的對比。

通過這個表格對比可以發現基於日誌的綜合最優,但解析比較複雜,但業界有很多開源的binlog的解析器,比較通用和流行的有Debezium、Canal,以及Maxwell。基於這些binlog解析器就可以構建ETL管道。

下面來看下業界比較流行的一種CDC入倉架構。

整個資料入倉是分實時流是離線流,實時流解析binlog,通過Canal解析binlog,然後寫入Kafka,然後每個小時會把Kafka資料同步到Hive中;另外就是離線流,離線流需要對同步到Hive的貼源層的表進行拉取一次全量,如果只有前面的實時流是資料是不全的,必須通過離線流的SQL Select把全量匯入一次資料,對每張ODS表會把存量資料和增量資料做一個Merge。這裡可以看到對於ODS層的實時性不夠,存在小時、天級別的延遲。而對ODS層這個延時可以通過引入Apache Hudi做到分鐘級。

2. CDC資料入湖方法

基於CDC資料的入湖,這個架構非常簡單。上游各種各樣的資料來源,比如DB的變更資料、事件流,以及各種外部資料來源,都可以通過變更流的方式寫入表中,再進行外部的查詢分析,整個架構非常簡單。

架構雖然簡單,但還是面臨很多挑戰。以Apache Hudi資料湖為例,資料湖是通過檔案儲存各種各樣的資料, 對於CDC的資料處理需要對湖裡某部分檔案進行可靠地、事務性變更,這樣可以保證下游查詢不會看到部分結果,另外對CDC資料需要高效的做更新、刪除操作,這就需要快速定位到更改的檔案,另外是對於每小批量的資料寫入,希望能夠自動處理小檔案,避免繁雜的小檔案處理,還有面向查詢的佈局優化,可以通過一些技術手段如Clustering改造檔案佈局,對外提供更好的查詢效能。

而Apache Hudi是怎麼應對這些挑戰的呢?首先支援事務性寫入,包括讀寫之間的MVCC機制保證寫不影響讀,也可以控制事務及併發保證,對於併發寫採用OCC樂觀鎖機制,對更新刪除,內建一些索引及自定義保證更新、刪除比較高效。另外是面向查詢優化,Hudi內部會自動做小檔案的管理,檔案會自動長到使用者指定的檔案大小,如128M,這對Hudi來說也是比較核心的特性。另外Hudi提供了Clustering來優化檔案佈局的功能。

下圖是典型CDC入湖的鏈路。上面的鏈路是大部分公司採取的鏈路,前面CDC的資料先通過CDC工具匯入Kafka或者Pulsar,再通過Flink或者是Spark流式消費寫到Hudi裡。第二個架構是通過Flink CDC直聯到MySQL上游資料來源,直接寫到下游Hudi表。

其實,這兩條鏈路各有優缺點。第一個鏈路統一資料匯流排,擴充套件性和容錯性都很好。對於第二條鏈路,擴充套件性和容錯性會稍微差點,但由於元件較少,維護成本相應較低。

這是阿里雲資料庫OLAP團隊的CDC入湖鏈路,因為我們我們做Spark的團隊,所以我們採用的Spark Streaming鏈路入湖。整個入湖鏈路也分為兩個部分:首先有一個全量同步作業,會通過Spark做一次全量資料拉取,這裡如果有從庫可以直連從庫做一次全量同步,避免對主庫的影響,然後寫到Hudi。然後會啟動一個增量作業,增量作業通過Spark消費阿里雲DTS裡的binlog資料來將binlog準實時同步至Hudi表。全量和增量作業的編排藉助了Lakehouse的作業自動編排能力,協調全量和增量作業,而對於全量和增量銜接時利用Hudi的Upsert語義保證全增量資料的最終的一致性,不會出現資料偏多和偏少的問題。

在Lakehouse的CDC入湖鏈路中,我們團隊也做了一些優化。

第一個是原庫的Schema變更處理,我們對接的客戶某些列的增加、刪除或者修改某些列的場景。在Spark寫Hudi之前會做Schema的檢驗,看這個Schema是不是合法,如果合法就可以正常寫入,如果不合法的話,則會寫入失敗,而刪除欄位會導致Schema校驗不合法,導致作業失敗,這樣穩定性是沒有保證的。因此我們會捕捉Schema Validation的異常,如果發現是減少了欄位,我們會把之前的欄位做自動補全,然後做重試,保證鏈路是穩定的。

第二個有些客戶表沒有主鍵或者主鍵不合理,比如採用更新時間欄位作為主鍵,或者設定會變化的分割槽欄位,這時候就會導致寫入Hudi的資料和源庫表資料對不上。因此我們做了一些產品層面的優化,允許使用者合理設定主鍵和分割槽對映,保證同步到Hudi裡和源庫是資料完全對齊的。

還有一個常見需求是使用者在上游庫中增加一個表,如果使用表級別同步的話,新增表在整個鏈路是無法感知的,也就無法同步到Hudi中,而在Lakehouse中,我們可以對整庫進行同步,因此在庫中新增表時,會自動感知新增表,將新增表資料自動同步到Hudi,做到原庫增加表自動感知的能力。

還有一個是對CDC寫入時候效能優化,比如拉取的一批資料中包含Insert、Update、Delete等事件,是否一直使用Hudi的Upsert方式寫入呢?這樣控制比較簡單,並且Upsert有資料去重能力,但它帶來的問題是找索引的效率低,而對於Insert方式而言,不需要找索引,效率比較高。因此對於每一批次資料會判斷是否都是Insert事件,如果都是Insert事件就直接Insert方式寫入,避免查詢檔案是否更新的開銷,資料顯示大概可以提升30%~50%的效能。當然這裡也需要考慮到DTS異常,重新消費資料時,恢復期間不能直接使用Insert方式,否則可能會存在資料重複,對於這個問題我們引入了表級別的Watermark,保證即使在DTS異常情況下也不會出現資料重複問題。

3. Hudi核心設計

接著介紹下Hudi 的定位,根據社群最新的願景,Hudi的定義是流式資料湖平臺,它支援海量資料更新,內建表格式以及支援事務的儲存,一系列列表服務包括Clean、Archive、Compaction、Clustering等,以及開箱即用的資料服務,以及本身自帶的運維工具和指標監控,提供很好的運維能力。

這是Hudi官網的圖,可以看到Hudi在整個生態裡是做湖儲存,底層可以對接HDFS以及各種雲廠商的物件儲存,只要相容Hadoop協議接。上游是入湖的變化事件流,對上可以支援各種各樣的資料引擎,比如presto、Spark以及雲上產品;另外可以利用Hudi的增量拉取能力藉助Spark、Hive、Flink構建派生表。

整個Hudi體系結構是非常完備的,其定位為增量的處理棧。典型的流式是面向行,對資料逐行處理,處理非常高效。

但面向行的資料裡沒有辦法做大規模分析做掃描優化,而批處理可能需要每天全量處理一次,效率相對比較低。而Hudi引入增量處理的概念,處理的資料都是某一時間點之後的,和流處理相似,又比批處理高效很多,並且本身是面向資料湖中的列存資料,掃描優化非常高效。

而回顧Hudi的發展歷史。2015年社群主席發表了一篇增量處理的文章,16年在Uber開始投入生產,為所有資料庫關鍵業務提供了支撐;2017年,在Uber支撐了100PB的資料湖,2018年隨著雲端計算普及,吸引了國內外的使用者;19年Uber把它捐贈到Apache進行孵化;2020年一年左右的時間就成為了頂級專案,採用率增長了超過10倍;2021年Uber最新資料顯示Hudi支援了500PB資料湖,同時對Hudi做了很多增強,像Spark SQL DML和Flink的整合。最近位元組跳動推薦部門分享的基於Hudi的資料湖實踐單表超過了400PB,總儲存超過了1EB,日增PB級別。

經過幾年的發展,國內外採用Hudi的公司非常多,比如公有云的華為雲、阿里雲、騰訊雲以及AWS,都集成了Hudi,阿里雲也基於Hudi構建Lakehouse。位元組跳動的整個數倉體系往湖上遷移也是基於Hudi構建的,後面也會有相應的文章分享他們基於Flink+Hudi的資料湖的日增PB資料量的實踐。同時像百度、快手頭部網際網路大廠都有在使用。同時我們瞭解銀行、金融行業也有工商銀行、農業銀行、百度金融、百信銀行也有落地。遊戲領域包括了三七互娛、米哈遊、4399,可以看到Hudi在各行各業都有比較廣泛的應用。

Hudi的定位是一套完整的資料湖平臺,最上層面向用戶可以寫各種各樣的SQL,Hudi作為平臺提供的各種能力,下面一層是基於SQL以及程式設計的API,再下一層是Hudi的核心,包括索引、併發控制、表服務,後面社群要構建的基於Lake Cache構建快取,檔案格式是使用的開放Parquet、ORC、HFile儲存格式,整個資料湖可以構建在各種雲上。

後面接著介紹Hudi的關鍵設計,這對我們瞭解Hudi非常有幫助。首先是檔案格式,它最底層是基於Fileslice的設計,翻譯過來就是檔案片,檔案片包含基本檔案和增量日誌檔案。基本檔案就是一個Parquet或者是ORC檔案,增量檔案是log檔案,對於log檔案的寫入Hudi裡編碼了一些block,一批Update可以編碼成一個數據塊,寫到檔案裡。而基礎檔案是可插拔,可以基於Parquet,最新的9.0版本已經支援了ORC。還有基於HFile,HFile可用作元資料表。

Log檔案裡儲存了一系列各種各樣的資料塊,它是有點類似於資料庫的重做日誌,每個資料版本都可以通過重做日誌找到。對於基礎檔案和Log檔案通過壓縮做合併形成新的基礎檔案。Hudi提供了同步和非同步的兩種方式,這為使用者提供了很靈活的選擇,比如做可以選擇同步Compaction,如果對延遲不敏感,而不需要額外非同步起一個作業做Compaction,或者有些使用者希望保證寫入鏈路的延遲,可以非同步做Compaction而不影響主鏈路。

Hudi基於File Slice上有個File Group的概念,File Group會包含有不同的File Slice,也File Slice構成了不同的版本,Hudi提供了機制來保留元資料個數,保證元資料大小可控。

對於資料更新寫入,儘量使用append,比如之前寫了一個Log檔案,在更新時,會繼續嘗試往Log檔案寫入,對於HDFS這種支援append語義的儲存非常友好,而很多雲上物件儲存不支援append語義,即資料寫進去之後不可更改,只能新寫Log檔案。對於每個檔案組也就是不同FileGroup之間是互相隔離的,可以針對不同的檔案組做不同的邏輯,使用者可以自定義演算法實現,非常靈活。

基於Hudi FileGroup的設計可以帶來不少收益。比如基礎檔案是100M,後面對基礎檔案進行了更新50M資料,就是4個FileGroup,做Compaction合併開銷是600M,50M只需要和100M合,4個150M開銷就是600M,這是有FileGroup設計。還是有4個100M的檔案,也是做了更新,每一次合,比如25M要和400M合併,開銷是1200M,可以看到採用FileGroup的設計,合併開銷減少一半。

還有表格式。表格式的內容是檔案在Hudi內是怎麼存的。首先定義了表的根路徑,然後寫一些分割槽,和Hive的檔案分割槽組織是一樣的。還有對錶的Schema定義,表的Schema變更,有一種方式是元資料記錄在檔案裡,也有的是藉助外部KV儲存元資料,兩者各有優缺點。

Hudi基於Avro格式表示Schema,因此對Schema的Evolution能力完全等同於Avro Schema的Evolution能力,即可以增加欄位以及向上相容的變更,如int變成long是相容的,但long變成int是不相容的。

當前現在社群已經有方案支援Full Schema Evolution,即可以增加一個欄位,刪去一個欄位,重新命名,也就是變更一個欄位。

還有一個是Hudi的索引設計。每一條資料寫入Hudi時,都會維護資料主鍵到一個檔案組ID的對映,這樣在做更新、刪除時可以更快的定位到變更的檔案。

右邊的圖裡有個訂單表,可以根據日期寫到不同的分割槽裡。下面就是使用者表,就不需要做分割槽,因為它的資料量沒有那麼大,變更沒那麼頻繁,可以使用非分割槽的表。

對於分割槽表及變更頻繁的表,在使用Flink寫入時,利用Flink State構建的全域性索引效率比較高。整個索引是可插拔的,包括Bloomfilter、 HBase高效能索引。在位元組場景中, Bloomfilter過濾器完全不能滿足日增PB的索引查詢,因此他們使用HBase高效能索引,因此使用者可根據自己的業務形態靈活選擇不同索引的實現。在有不同型別索引情況下可以以較低代價支援遲到的更新、隨機更新的場景。

另外一個設計是併發控制。併發控制是在0.8之後才引入的。Hudi提供樂觀鎖機制來處理併發寫問題,在提交的時候檢查兩個變更是否衝突,如果衝突就會寫入失敗。對於表服務如Compaction或者是Clustering內部沒有鎖,Hudi內部有一套協調機制來避免鎖競爭問題。比如做Compaction,可以先在timeline上先打一個點,後面完全可以和寫入鏈路解耦,非同步做Compaction。

例如左邊是資料攝取鏈路,資料每半個小時攝取一次,右邊是非同步刪除作業,也會變更表,並且很有可能和寫入修改衝突,會導致這個鏈路一直失敗,平臺無故的消耗CPU資源,現在社群針對這種情況也有改進方案,希望儘早檢測併發寫入的衝突,提前終止,減少資源浪費。

另外一個設計是元資料表。因為Hudi最開始是基於HDFS構建和設計,沒有太多考慮雲上儲存場景,導致在雲上FileList非常慢。因此在0.8版本,社群引入了Metadata Table,Metadata Table本身也是一張Hudi表,它構建成一張Hudi,可以複用Hudi表等各種表服務。Metadata Table表文件裡會存分割槽下有的所有檔名以及檔案大小,每一列的統計資訊做查詢優化,以及現在社群正在做的,基於Meta Table表構建全域性索引,每條記錄對應每個檔案ID都記錄在Meta table,減少處理Upsert時查詢待更新檔案的開銷,也是上雲必備。

4. Hudi未來規劃

對未來的規劃,如基於Pulsar、Hudi構建Lakehouse,這是StreamNative CEO提出的Proposal,想基於Hudi去構建Pulsar分層的儲存。在Hudi社群,我們也做了一些工作,想把Hudi內建的工具包DeltaStreamar內建Pulsar Source,現在已經有PR了,希望兩個社群聯絡可以更緊密。Pular分層儲存核心部分StreamNative有同學正在做。

最近幾天已經發布了0.9.0重要的優化和改進。首先集成了Spark SQL,極大降低了資料分析人員使用Hudi的門檻。

Flink整合Hudi的方案早在Hudi的0.7.0版本就有了,經過幾個版本的迭代,Flink整合Hudi已經非常成熟了,在位元組跳動等大公司已經在生產使用。Blink團隊做的一個CDC的Format整合,直接把Update、Deltete事件直接存到Hudi。還有就是做存量資料的一次性遷移,增量了批量匯入能力,減少了序列化和反序列化的開銷。

另外現在有一些使用者會覺得Hudi存一些元資料欄位,比如_hoodie_commit_time等元資訊,這些資訊都是從資料資訊裡提取的,有部分儲存開銷,現在支援虛擬鍵,元資料欄位不會再存資料了,它帶來的限制就是不能使用增量ETL,無法獲取Hudi某一個時間點之後的變更資料。

另外很多小夥伴也在希望Hudi支援ORC格式,Hudi最新版本支援了ORC格式,同時這部分格式的是可插拔的,後續可以很靈活接入更多的格式。還做了Metadata Table的寫入和查詢優化,通過Spark SQL查詢的時候,避免Filelist,直接通過Metadata Table獲取整個檔案列表資訊。

從更遠來看社群未來的規劃包括對於Spark整合升級到Data SourceV2,現在Hudi基於V1,無法用到V2的效能優化。還有Catalog整合,可以通過Catalog管理表,可以建立、刪除、更新,表格元資料的管理通過Spark Catalog整合。

Flink模組Blink團隊有專職同學負責,後續會把流式資料裡的Watremark推到Hudi表裡。

另外是與Kafka Connect Sink的整合,後續直接通過Java客戶把Kafka的資料寫到Hudi,而不用拉起一個Spark/Flink叢集作業。

在核心側的優化,包括了基於Metadata Table全域性記錄級別索引。還有位元組跳動小夥伴做的寫入支援Bucket,這樣的好處就是做資料更新的時候,可以通過主鍵找到對應Bucket,只要把對應Bucket的parquet檔案的Bloomfilter讀取出來就可以了,減少了查詢更新時候的開銷。

還有更智慧地Clustering策略,在我們內部也做了這部分工作,更智慧的Clustering可以基於之前的負載情況,動態的開啟Clustering優化,另外還包括基於Metadata Table構建二級索引,以及Full Schema Evolution和跨表事務。

現在Hudi社群發展得比較快,程式碼重構量非常大,但都是為了更好的社群發展,從0.7.0到0.9.0版本Flink整合Hudi模組基本上完全重構了,如果有興趣的同學可以參與到社群,共同建設更好的資料湖平臺。

PS:如果您覺得閱讀本文對您有幫助,請點一下“推薦”按鈕,您的“推薦”,將會是我不竭的動力!
作者:leesf掌控之中,才會成功;掌控之外,註定失敗。
出處:http://www.cnblogs.com/leesf456/
本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段宣告,且在文章頁面明顯位置給出原文連線,否則保留追究法律責任的權利。
如果覺得本文對您有幫助,您可以請我喝杯咖啡!