azkaban工作流排程器
阿新 • • 發佈:2020-07-20
1、用途
一個完整的資料分析系統通常都是由大量任務單元組成:
shell指令碼程式,java程式,mapreduce程式、hive指令碼等
各任務單元之間存在時間先後及前後依賴關係
為了很好地組織起這樣的複雜執行計劃,需要一個工作流排程系統來排程執行;
例如,我們可能有這樣一個需求,某個業務系統每天產生20G原始資料,我們每天都要對其進行處理,處理步驟如下所示:
1、 通過Hadoop先將原始資料同步到HDFS上;
2、 藉助MapReduce計算框架對原始資料進行轉換,生成的資料以分割槽表的形式儲存到多張Hive表中;
3、 需要對Hive中多個表的資料進行JOIN處理,得到一個明細資料Hive大表;
4、 將明細資料進行復雜的統計分析,得到結果報表資訊;
需要將統計分析得到的結果資料同步到業務系統中,供業務呼叫使用
2、安裝部署
Azkaban Web伺服器
azkaban-web-server-2.5.0.tar.gz
Azkaban執行伺服器
azkaban-executor-server-2.5.0.tar.gz
3、解壓上面兩個壓縮包,並且命名為server和executor
mysql -uroot -p mysql> create database azkaban; mysql> use azkaban; Database changed mysql> source /soft/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql; show tables;
4、