大量重復邏輯的ETL開發優化

阿新 • • 發佈：2018-05-25

HIVE ETL

當我們在開發ETL的過程中，面向應用的數據表經常會遇到行轉列問題。會將指標名稱作為一列內容。這樣開發會有大量重復ETL和大量的UNION ALL SQL。如果每個UNNION ALL SQL都要執行一遍勢必要消耗大量計算資源。

那如何高效解決這種問題呢？

1、傳統數據庫（支持with）

使用with語句將SQL邏輯封裝成一張臨時表，下面的SQL在這張臨時表的基礎上進行計算。這樣只需要進行一次計算多次使用。並且臨時表是在會話內生效，會話關閉後臨時表自動消失。不會影響到其他會話。

2、HIVE

在hive裏也可以使用with語句模擬傳統數據庫操作，但需要註意的是，hive只是將with的腳本封裝，執行的時候並不會創建臨時表。可以想象他是一張視圖表，只記錄了SQL邏輯，不存儲數據。

在XT中如何解決這個問題呢，因為hive不支持會話，我們可以使用創建臨時的數據表的方式來解決。但是防止數據表中的數據混亂，我們要在一個ETL中模擬會話，使用先嘗試刪除，再創建，再刪除的操作流程。

drop table if exists XXX.XXX;

create table XXX.XXX as

select

ETL邏輯

drop table if exists XXX.XXX;

這樣就可以既可以很高效的進行ETL開發，又可以節省計算資源。

但這樣也會帶來一個問題，當我們大量刷數據的時候無法並行刷新，會有多個ETL使用同一張臨時數據表，並且每個任務都會執行一遍刪除操作，很容易造成數據錯亂、鎖表。

這種問題又該如何解決？

方法其實很簡單，我們將ETL的臨時數據表表名後面增加一個變量就可以達到並行的時候每個任務都會有自己的臨時數據表了。

所以完整的創建臨時數據表的開發腳本應該是這樣的：

drop table if exists XXX.XXX_$now.datekey;

create table XXX.XXX_$now.datekey as

select

ETL邏輯

drop table if exists XXX.XXX_$now.datekey;

這種方式適用於那些場景？

數據源數據量大，重復查詢數據源獲取數據
將多個指標列轉至，大量重復編寫查詢腳本

大量重復邏輯的ETL開發優化

HIVE ETL 當我們在開發ETL的過程中，面向應用的數據表經常會遇到行轉列問題。會將指標名稱作為一列內容。這樣開發會有大量重復ETL和大量的UNION ALL SQL。如果每個UNNION ALL SQL都要執行一遍勢必要消耗大量計算資源。那如何高效解決這種問題呢？1、傳統數據庫（支持with）使

大量重復邏輯的ETL開發優化

大量重復邏輯的ETL開發優化

ELK+MySQL出現大量重復記錄問題處理

OGG運維優化腳本（九）-查詢維護類--進程重復表檢查

[ECSHOP二次開發]解決分類商品Ajax連續請求導致的數據重復

MySQL索引的維護與優化——查找重復及冗余索引

以對象function本身函數不同的創建 car 的類型數據來重復或許做更換（開發）

原生JS實現彩票36選7不重復（優化）

如何設計避免訂單出現重復支付的邏輯

V4或者V7包重復沖突,但是不知道刪除那個的問題

Aptana Studion出現 duplicate location重復定位報錯

Laravel5.2隊列驅動expire參數設置帶來的重復執行問題數據庫驅動

android 程序避免nfc重復掃描

mysql 數據表中查找重復記錄

使用linux的shell腳本實現在當前行重復動態顯示時間等字符串信息（不另起新行）

windbg 出現重復的星星框提示時

string [] 去除重復字符兩個方法

《SQLServer刪除重復數據的方法》

[去哪兒網]首個重復字符

VC運行庫版本不同導致鏈接.LIB靜態庫時發生重復定義問題的一個案例分析和總結

angular 數據內容有重復時不顯示問題

大量重復邏輯的ETL開發優化

相關推薦