2.airflow參數簡介
阿新 • • 發佈:2017-08-31
環境 onf amp 數據庫連接 time 調度 beat 殺死 配置
來自為知筆記(Wiz)
比較重要的參數:
參數 | 默認值 | 說明 |
---|---|---|
airflow_home | /home/airflow/airflow01 | airflow home,由環境變量$AIRFLOW_HOME決定 |
dags_folder | /home/airflow/airflow01/dags | dag python文件目錄 |
base_log_folder | /home/airflow/airflow01/logs | 主日誌目錄 |
executor | SequentialExecutor, LocalExecutor, CeleryExecutor | executor方式,分別為序列、本地、隊列 |
sql_alchemy_conn | sqlite:////home/airflow/airflow01/airflow.db | 數據庫連接方式 |
sql_alchemy_pool_size | 5 | 數據庫線程池 |
sql_alchemy_pool_recycle | 3600 | 數據庫idle連接回收時間 |
parallelism | 32 | executor的並行度,即同時在一個executor上同時運行的task instance個數 |
dag_concurrency | 16 | 調度器同時可以運行的task instance個數(跟上個參數啥關系?) |
max_active_runs_per_dag | 16 | 不懂~ |
load_examples | True | 是否載入示例 |
default_impersonation | 當不設置task的用戶時,以此用戶執行 | |
security | 安全驗證類似,如kerberos | |
default_owner | airflow | operator 綁定的默認用戶名 |
default_cpus | 1 | operators 使用的cpu |
default_ram | 512 | operators 使用的內存 |
base_url | http://localhost:8080 | webserver的URL |
web_server_host | 0.0.0.0 | webserver的IP |
web_server_port | 8080 | webserver的端口 |
web_server_ssl_cert | webserver的certificate路徑 | |
web_server_ssl_key | webserver的key路徑 | |
web_server_worker_timeout | 120 | gunicorn webserver和worker的超時時間 |
worker_refresh_batch_size | 1 | webserver每次檢測worker的個數。發現新的worker並殺死舊的worker |
worker_refresh_interval |30 | webserver檢測的時間間隔 | |
access_logfile | - | webserver日誌位置,-指標準輸出 |
error_logfile | - | webserver日誌位置,-指標準輸出 |
expose_config | False | 是否在頁面上顯示配置信息 |
authenticate | False | webserver是否開始權限驗證 |
filter_by_owner | False | 通過名稱過濾dag,需要開啟權限驗證。 |
smtp_host | localhost | smtp主機 |
smtp_user | smtp上的用戶 | |
smtp_password | 密碼 | |
smtp_starttls | True | 使用tls協議 |
smtp_ssl | False | 使用ssl協議 |
smtp_port | smtp端口 | |
smtp_mail_from | 發郵件的賬戶 | |
celeryd_concurrency | 16 | |
broker_url | sqla+mysql://airflow:[email protected]:3306/airflow | celery broker url |
celery_result_backend | db+mysql://airflow:[email protected]:3306/airflow | celere result |
job_heartbeat_sec | 5 | Task instances接收外部kill信號(來自cli或者webserver)的時間時隔 |
scheduler_heartbeat_sec | 5 | scheduler和task之間的心跳間隔(應該是跟executor) |
scheduler_zombie_task_threshold | 300 | 檢測僵屍task的時間間隔 |
catchup_by_default | 不懂~ |
parallelism = number of physical python processes the scheduler can run
dag_concurrency = the number of TIs to be allowed to run PER-dag at once
max_active_runs_per_dag = number of dag runs (per-DAG) to allow running at once* parallelism = number of physical python processes the scheduler can run
- dag_concurrency = the number of TIs to be allowed to run PER-dag at once
- max_active_runs_per_dag = number of dag runs (per-DAG) to allow running at once
其它:
https://cwiki.apache.org/confluence/display/AIRFLOW/Common+Pitfalls
來自為知筆記(Wiz)
2.airflow參數簡介