靈活可擴充套件的工作流管理平臺Airflow

阿新 • • 發佈：2019-01-18

1. 引言

Airflow是Airbnb開源的一個用Python寫就的工作流管理平臺（workflow management platform）。在前一篇文章中，介紹瞭如何用Crontab管理資料流，但是缺點也是顯而易見。針對於Crontab的缺點，靈活可擴充套件的Airflow具有以下特點：

工作流依賴關係的視覺化；
日誌追蹤；
（Python指令碼）易於擴充套件

對比Java系的Oozie，Airflow奉行“Configuration as code”哲學，對於描述工作流、判斷觸發條件等全部採用Python，使得你編寫工作流就像在寫指令碼一樣；能debug工作流（test backfill命令），更好地判別是否有錯誤；能更快捷地在線上做功能擴充套件。Airflow充分利用Python的靈巧輕便，相比之下Oozie則顯得笨重厚拙太多（其實我沒在黑Java～～）。《

What makes Airflow great?》介紹了更多關於Airflow的優良特性；其他有關於安裝、介紹的文件在這裡、還有這裡。

下表給出Airflow（基於1.7版本）與Oozie（基於4.0版本）對比情況：

功能	Airflow	Oozie
工作流描述	Python	xml
資料觸發	Sensor	datasets, input-events
工作流節點	operator	action
完整工作流	DAG	workflow
定期排程	DAG schedule_interval	coordinator frequency
任務依賴	`>>`, `<<`	`<ok to>`
內建函式、變數	template macros	EL function, EL constants

之前我曾提及Oozie沒有能力表達複雜的DAG，是因為Oozie只能指定下流依賴（downstream）而不能指定上流依賴（upstream）。與之相比，Airflow就能表示複雜的DAG。Airflow沒有像Oozie一樣區分workflow與coordinator，而是把觸發條件、工作流節點都看作一個operator，operator組成一個DAG。

2. 實戰

Airflow常見命令如下：

initdb，初始化元資料DB，元資料包括了DAG本身的資訊、執行資訊等；

resetdb，清空元資料DB；
list_dags，列出所有DAG；
list_tasks，列出某DAG的所有task；
test，測試某task的執行狀況；
backfill，測試某DAG在設定的日期區間的執行狀況；
webserver，開啟webserver服務；
scheduler，用於監控與觸發DAG。

下面將給出如何用Airflow完成data pipeline任務。

首先簡要地介紹下背景：定時（每週）檢查Hive表的partition的任務是否有生成，若有則觸發Hive任務寫Elasticsearch；然後等Hive任務完後，執行Python指令碼查詢Elasticsearch傳送報表。但是，Airflow對Python3支援有問題（依賴包為Python2編寫）；因此不得不自己寫HivePartitionSensor：

# -*- coding: utf-8 -*-
# @Time    : 2016/11/29
# @Author  : rain
from airflow.operators import BaseSensorOperator
from airflow.utils.decorators import apply_defaults
from impala.dbapi import connect
import logging


class HivePartitionSensor(BaseSensorOperator):
    """
    Waits for a partition to show up in Hive.

    :param host, port: the host and port of hiveserver2
    :param table: The name of the table to wait for, supports the dot notation (my_database.my_table)
    :type table: string
    :param partition: The partition clause to wait for. This is passed as
        is to the metastore Thrift client,and apparently supports SQL like
        notation as in ``ds='2016-12-01'``.
    :type partition: string
    """
    template_fields = ('table', 'partition',)
    ui_color = '#2b2d42'

    @apply_defaults
    def __init__(
            self,
            conn_host, conn_port,
            table, partition="ds='{{ ds }}'",
            poke_interval=60 * 3,
            *args, **kwargs):
        super(HivePartitionSensor, self).__init__(
            poke_interval=poke_interval, *args, **kwargs)
        if not partition:
            partition = "ds='{{ ds }}'"
        self.table = table
        self.partition = partition
        self.conn_host = conn_host
        self.conn_port = conn_port
        self.conn = connect(host=self.conn_host, port=self.conn_port, auth_mechanism='PLAIN')

    def poke(self, context):
        logging.info(
            'Poking for table {self.table}, '
            'partition {self.partition}'.format(**locals()))
        cursor = self.conn.cursor()
        cursor.execute("show partitions {}".format(self.table))
        partitions = cursor.fetchall()
        partitions = [i[0] for i in partitions]
        if self.partition in partitions:
            return True
        else:
            return False

Python3連線Hive server2的採用的是impyla模組，HivePartitionSensor用於判斷Hive表的partition是否存在。寫自定義的operator，有點像寫Hive、Pig的UDF；寫好的operator需要放在目錄~/airflow/dags，以便於DAG呼叫。那麼，完整的工作流DAG如下：

# tag cover analysis, based on Airflow v1.7.1.3
from airflow.operators import BashOperator
from operatorUD.HivePartitionSensor import HivePartitionSensor
from airflow.models import DAG

from datetime import datetime, timedelta
from impala.dbapi import connect

conn = connect(host='192.168.72.18', port=10000, auth_mechanism='PLAIN')


def latest_hive_partition(table):
    cursor = conn.cursor()
    cursor.execute("show partitions {}".format(table))
    partitions = cursor.fetchall()
    partitions = [i[0] for i in partitions]
    return partitions[-1].split("=")[1]


log_partition_value = """{{ macros.ds_add(ds, -2)}}"""
tag_partition_value = latest_hive_partition('tag.dmp')

args = {
    'owner': 'jyzheng',
    'depends_on_past': False,
    'start_date': datetime.strptime('2016-12-06', '%Y-%m-%d')
}

# execute every Tuesday
dag = DAG(
    dag_id='tag_cover', default_args=args,
    schedule_interval='@weekly',
    dagrun_timeout=timedelta(minutes=10))

ad_sensor = HivePartitionSensor(
    task_id='ad_sensor',
    conn_host='192.168.72.18',
    conn_port=10000,
    table='ad.ad_log',
    partition="day_time={}".format(log_partition_value),
    dag=dag
)

ad_hive_task = BashOperator(
    task_id='ad_hive_task',
    bash_command='hive -f /path/to/cron/cover/ad_tag.hql --hivevar LOG_PARTITION={} '
                 '--hivevar TAG_PARTITION={}'.format(log_partition_value, tag_partition_value),
    dag=dag
)

ad2_hive_task = BashOperator(
    task_id='ad2_hive_task',
    bash_command='hive -f /path/to/cron/cover/ad2_tag.hql --hivevar LOG_PARTITION={} '
                 '--hivevar TAG_PARTITION={}'.format(log_partition_value, tag_partition_value),
    dag=dag
)

report_task = BashOperator(
    task_id='report_task',
    bash_command='sleep 5m; python3 /path/to/cron/report/tag_cover.py {}'.format(log_partition_value),
    dag=dag
)

ad_sensor >> ad_hive_task >> report_task
ad_sensor >> ad2_hive_task >> report_task

靈活可擴充套件的工作流管理平臺Airflow

1. 引言

2. 實戰

靈活可擴充套件的工作流管理平臺Airflow

Learun FrameWork，強大ASP.NET工作流管理平臺

learun.framework7.0-工作流管理

企業內部應用的核心與靈魂：工作流管理系統

一個實現瀏覽器網頁與本地程式之間進行雙向呼叫的輕量級、強相容、可擴充套件的外掛開發平臺—本網通

web工作流管理系統開發之三視覺化流程設計器

Atitit 微服務的優點和拆分目錄 1. 微服務架構五大優勢崛起勢頭不可擋 4 1 1.1. 1、複雜度可控 6避免“盲人摸象” 7 2 1.2. 2、靈活可擴充套件 7 2 1.3. 3、獨立部

Mobx-簡單可擴充套件的狀態管理庫

《工作流管理——模型、方法和系統》筆記2:Petri網對工作流建模

Kafka +深度學習+ MQTT搭建可擴充套件的物聯網平臺【附原始碼】

一個完整的工作流管理系統成部分

讀書筆記《工作流管理-模型、方法和系統》-2、工作流建模

工作流管理--模型、方法和系統

可擴充套件的後臺管理系統框架

Trello--工作流管理工具

10.工作流搭建平臺

AWS Flow Framework工作流框架_工作流管理

AWS Data Pipeline資料處理_資料驅動型工作流管理系統

基於中臺思想的物流系統設計（五）：設計可擴充套件的產品服務平臺

SharePoint 2010工作流解決方案之將SharePoint Designer可重用工作流導

靈活可擴充套件的工作流管理平臺Airflow

1. 引言

2. 實戰

相關推薦