1. 程式人生 > 實用技巧 >azkaban工作流排程器

azkaban工作流排程器

1、用途

一個完整的資料分析系統通常都是由大量任務單元組成:

shell指令碼程式,java程式,mapreduce程式、hive指令碼等

各任務單元之間存在時間先後及前後依賴關係

為了很好地組織起這樣的複雜執行計劃,需要一個工作流排程系統來排程執行;

例如,我們可能有這樣一個需求,某個業務系統每天產生20G原始資料,我們每天都要對其進行處理,處理步驟如下所示:

1、 通過Hadoop先將原始資料同步到HDFS上;

2、 藉助MapReduce計算框架對原始資料進行轉換,生成的資料以分割槽表的形式儲存到多張Hive表中;

3、 需要對Hive中多個表的資料進行JOIN處理,得到一個明細資料Hive大表;

4、 將明細資料進行復雜的統計分析,得到結果報表資訊;

需要將統計分析得到的結果資料同步到業務系統中,供業務呼叫使用

2、安裝部署

Azkaban Web伺服器

azkaban-web-server-2.5.0.tar.gz

Azkaban執行伺服器

azkaban-executor-server-2.5.0.tar.gz

3、解壓上面兩個壓縮包,並且命名為server和executor

mysql -uroot -p
mysql> create database azkaban;
mysql> use azkaban;
Database changed
mysql> source /
soft/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql; show tables;

4、