1. 程式人生 > >2.airflow參數簡介

2.airflow參數簡介

環境 onf amp 數據庫連接 time 調度 beat 殺死 配置

比較重要的參數:

參數 默認值 說明
airflow_home /home/airflow/airflow01 airflow home,由環境變量$AIRFLOW_HOME決定
dags_folder /home/airflow/airflow01/dags dag python文件目錄
base_log_folder /home/airflow/airflow01/logs 主日誌目錄
executor SequentialExecutor, LocalExecutor, CeleryExecutor executor方式,分別為序列、本地、隊列
sql_alchemy_conn sqlite:////home/airflow/airflow01/airflow.db 數據庫連接方式
sql_alchemy_pool_size 5 數據庫線程池
sql_alchemy_pool_recycle 3600 數據庫idle連接回收時間
parallelism 32 executor的並行度,即同時在一個executor上同時運行的task instance個數
dag_concurrency 16 調度器同時可以運行的task instance個數(跟上個參數啥關系?)
max_active_runs_per_dag 16 不懂~
load_examples True 是否載入示例
default_impersonation 當不設置task的用戶時,以此用戶執行
security 安全驗證類似,如kerberos
default_owner airflow operator 綁定的默認用戶名
default_cpus 1 operators 使用的cpu
default_ram 512 operators 使用的內存
base_url http://localhost:8080 webserver的URL
web_server_host 0.0.0.0 webserver的IP
web_server_port 8080 webserver的端口
web_server_ssl_cert webserver的certificate路徑
web_server_ssl_key webserver的key路徑
web_server_worker_timeout 120 gunicorn webserver和worker的超時時間
worker_refresh_batch_size 1 webserver每次檢測worker的個數。發現新的worker並殺死舊的worker
worker_refresh_interval |30 webserver檢測的時間間隔
access_logfile - webserver日誌位置,-指標準輸出
error_logfile - webserver日誌位置,-指標準輸出
expose_config False 是否在頁面上顯示配置信息
authenticate False webserver是否開始權限驗證
filter_by_owner False 通過名稱過濾dag,需要開啟權限驗證。
smtp_host localhost smtp主機
smtp_user smtp上的用戶
smtp_password 密碼
smtp_starttls True 使用tls協議
smtp_ssl False 使用ssl協議
smtp_port smtp端口
smtp_mail_from 發郵件的賬戶
celeryd_concurrency 16
broker_url sqla+mysql://airflow:[email protected]:3306/airflow celery broker url
celery_result_backend db+mysql://airflow:[email protected]:3306/airflow celere result
job_heartbeat_sec 5 Task instances接收外部kill信號(來自cli或者webserver)的時間時隔
scheduler_heartbeat_sec 5 scheduler和task之間的心跳間隔(應該是跟executor)
scheduler_zombie_task_threshold 300 檢測僵屍task的時間間隔
catchup_by_default 不懂~

parallelism = number of physical python processes the scheduler can run
dag_concurrency = the number of TIs to be allowed to run PER-dag at once
max_active_runs_per_dag = number of dag runs (per-DAG) to allow running at once* parallelism = number of physical python processes the scheduler can run

  • dag_concurrency = the number of TIs to be allowed to run PER-dag at once
  • max_active_runs_per_dag = number of dag runs (per-DAG) to allow running at once

其它:
https://cwiki.apache.org/confluence/display/AIRFLOW/Common+Pitfalls



來自為知筆記(Wiz)

2.airflow參數簡介