【任務排程系統第一篇】：大資料任務排程框架

阿新 • • 發佈：2018-12-04

1.前言

任務排程系統在大資料平臺架構中扮演著比較重要的角色。下圖是引自網易的猛獁大資料平臺lambda架構圖。

在這裡插入圖片描述
其中的Azkaban就是其任務排程元件。概括來說，任務排程在大資料平臺中所扮演的角色主要有：

任務編排：對任務流按照一定的邏輯串起來。這在大資料開發中，顯得比較重要，對於一個工作任務，可能有不同的子任務串起來的，並且有些子任務是並行執行的。舉個例子，在做一個機器學習的模型時，可能第一步就是資料清洗，然後是提取特徵，接著才是模型預測。然後提取特徵的過程中，可能要分為提取屬性特徵和行為特徵。那麼這裡用拓撲圖可以表示為如下圖：
任務排程執行

：任務排程元件的核心使命肯定是讓離線任務按照我們既定的執行計劃去週期排程地執行。那麼任務排程系統就需要能夠按照任務的排程計劃去自動執行任務。
運維功能：作為一個系統肯定要有健全的運維功能，比如說提供任務執行報表功能，排程日誌等等。類似於下圖：

在這裡插入圖片描述

2.目前主流的任務排程系統

目前主流的任務排程框架有：

xxl job: XXL-JOB 是一個輕量級分散式任務排程框架，支援通過 Web 頁面對任務進行 CRUD 操作，支援動態修改任務狀態、暫停/恢復任務，以及終止執行中任務，支援線上配置排程任務入參和線上檢視排程結果。其官網： http://www.xuxueli.com/xxl-job/#/
Azkaban：Azkaban是由Linkedin公司推出的一個批量工作流任務排程器，主要用於在一個工作流內以一個特定的順序執行一組工作和流程。官網：https://azkaban.github.io/
elastic Job：Elastic-Job 是一個分散式排程解決方案，由兩個相互獨立的子專案 Elastic-Job-Lite 和 Elastic-Job-Cloud 組成。定位為輕量級無中心化解決方案，使用 jar 包的形式提供分散式任務的協調服務。支援分散式排程協調、彈性擴容縮容、失效轉移、錯過執行作業重觸發、並行排程、自診斷和修復等等功能特性。官網：http://elasticjob.io/
Apache Oozie：Oozie 是一個工作流排程系統，用來管理 Hadoop 任務。官網：http://oozie.apache.org/

以上只列舉四種吧。對於這些排程框架，雖然基本原理相似，但是在細節功能點上各有千秋。因為筆者在實際開發中，有幸接觸了xxl job和azkaban。所以本專欄也主要介紹和分析這兩個框架。

3. azkaban和xxl job的異同點

不同點：

azkaban的最大亮點是任務的編排，類似阿里雲的odps裡的任務流開發，感覺是基於azkaban的。可以把一個大任務拆分成不同的子任務，然後按照一定的邏輯編排起來。但是xxl job基本上沒有任務編排功能，僅僅是支援某個任務可以設定他的子任務，這其實靈活性就沒有那麼強。
xxl job的分散式效能要比azkaban好。xxl job在設計的時候就考慮了高可用性（HA），採用了執行器和排程中心分離的方式。執行器可以分別部署在不同的機器上，他們之間通過資料庫維護著彼此的心跳。然後排程中心是分別部署在不同的機器上，執行器都分別向各個存活著的排程中心註冊。但是azkaban的高可用性相比於xxl job就要差點，其僅僅保證了執行器的HA效能，排程中心不支援。當排程中心掛掉之後，使用者就不能提交任務了，但是已經提交了的任務的正常排程還是可以繼續。
從原始碼級別看，xxl job更輕量級。其採用spring boot， Mybatis的主體框架，程式碼量相比於azkaban少了好多。azkaban的程式碼很少用框架，連MVC，資料庫ORM等都是在程式碼裡自己實現，所以程式碼量較多。不過筆者的建議是，多讀讀azkaban的原始碼，對提高java的能力更有幫助。不過出於維護，xxl job肯定更好，可以減少很多維護成本。
Web UI不同。xxl job的Web UI 基本上很完善，可以開箱即用。在web介面上可以線上開發任務。但是azkaban的Web介面就比較簡單，需要我們線下自己壓縮好任務包，通過介面上傳任務。所以對於產品化來說，xxl job的成本更低。

相同點：

其底層的任務排程外掛都是依賴於quartz。這點也然我認識到quartz應該是通用的排程外掛。
都是採用排程排程中心和執行器分離的方式。其中執行器的高可用性原理是一樣的。都是各個執行器節點每隔一點時間間隔（比如5s）向共同依賴的資料庫寫如心跳，然後彼此通過心跳來感知對方是否存活。

後記

本專題後續的文章也主要是圍繞這兩個框架來展開，希望對他們的原理和用法做一番剖析。

【任務排程系統第一篇】：大資料任務排程框架

1.前言任務排程系統在大資料平臺架構中扮演著比較重要的角色。下圖是引自網易的猛獁大資料平臺lambda架構圖。其中的Azkaban就是其任務排程元件。概括來說，任務排程在大資料平臺中所扮演的角色主要有：任務編排：對任務流按照一定的邏輯串起來。這在大資料開發中

Python自學之路【第一篇】：Python簡介和入門

youtube 通用 too 互聯網公司 python腳本 bar strong 重裝排行 Python前世今生 python的創始人為吉多·範羅蘇姆（Guido van Rossum）。1989年的聖誕節期間，吉多·範羅蘇姆為了在阿姆斯特丹打發時間，決心開發一個新的腳本

python入門【第一篇】：安裝

入門 Python的創始人為Guido van Rossum。1989年聖誕節期間，在阿姆斯特丹，Guido為了打發聖誕節的無趣，決心開發一個新的腳本解釋程序，做為ABC 語言的一種繼承。之所以選中Python（大蟒蛇的意思）作為程序的名字，是因為他是一個叫Monty Python的喜劇團體的愛好者。語

Python進階【第一篇】：Python簡介

代碼簡潔處理 ros 進一步基礎得到運行速度動態 Python簡介 1.Python的由來 Python是著名的“龜叔”Guido van Rossum在1989年聖誕節期間，為了打發無聊的聖誕節而編寫的一個編程語言。 2.C 和 Python、Java、C#等

Python之路【第一篇】：使用miniconda安裝python多版本

ase alias linux 1.10 ade ror another 離開 cer 一、簡介 Anaconda是一個發行包，裏面集成打包了很多的軟件包，使用conda包管理器來安裝軟件，比較方便，但是Anaconda軟件包太大，個人不太喜歡，想自己定制。Minicond

Python之路【第一篇】：Python簡介和入門

readline def 美團 sys eric gcc 下劃線博客 height Python簡介 Python前世今生 python的創始人為吉多·範羅蘇姆（Guido van Rossum）。1989年的聖誕節期間，吉多·範羅蘇姆為了在阿姆斯特丹打發時間，決心開發

Python 全棧開發【第一篇】：目錄

文件 inux celery 函數編程 www 復用 web linux系統 ado Python 全棧開發【第0篇】：目錄第一階段：Python 開發入門 Python 全棧開發【第一篇】：計算機原理&Linux系統入門 Python 全棧開發【第二

Python開發【第一篇】：目錄

本系列博文包含 Python基礎、前端開發、Web框架、快取以及佇列等，希望可以給正在學習程式設計的童鞋提供一點幫助！！！ Python開發【第一篇】：目錄 Python開發【第二篇】：初識Python Python開發【第三篇】：Python基本資料型別 Python開發【

【小卒Ubuntu使用第一篇】雙系統安裝完成，Ubuntu使用時觸控板和Wifi禁用問題

一、觸控板不可用解決：執行命令,安裝libinput apt install xserver-xorg-input-libinput修改配置，增加幾項：這裡的配置項不一定是90開頭 sudo vim /usr/share/X11/xorg.conf.d/90-libinput.conf

【linux學習筆記--第一篇】基於nanopim2a的環境搭建，uboot編譯及下載

接觸一個星期，搭建了虛擬機器，雙系統，行動硬碟ubuntu ，總結下來，行動硬碟的系統最方便，硬碟可以分為2個分割槽，一個裝系統，一個放檔案（windows也可以識別），感覺還是挺爽的。以下是這幾天折騰u-boot的一

【專治不明覺厲】之“大資料” Hadoop，Spark和Storm

虎嗅注：上一篇“專治不明覺厲”文章，虎嗅君為大家介紹了“雲端計算”領域中的那些“不明覺厲”的名詞。作為雲端計算最重要的應用，大資料領域也有很多看上去“不明覺厲”的詞彙。本篇文章，虎嗅君就為各位介紹“大資料”領域裡的“不明覺厲”。大資料（Big Data）大資料，官

【任務排程系統第三篇】：Azkaban原理介紹

寫在前面 Azkaban官網：https://azkaban.github.io/ 1. azkaban簡單介紹 Azkaban是由Linkedin公司推出的一個批量工作流任務排程器，主要用於在一個工作流內以一個特定的順序執行一組工作和流程。Azkaban使用job配置檔案建

Python開發【第六篇】：Python基礎條件和循環

ora back strong als 重復執行操作 enume 條件表達式服務目錄一、if語句 1、功能 2、語法單分支，單重條件判斷多分支，多重條件判斷 if + else 多分支if + elif + else 語句小結 + 案例三元表達式二、whil

Python開發【第十一篇】：JavaScript

靜態函數發生編寫小寫 nsh div 區分所有是個 JavaScript是一門編程語言，瀏覽器內置了JavaScript語言的解釋器，所以在瀏覽器上按照JavaScript語言的規則編寫相應代碼之，瀏覽器可以解釋並做出相應的處理。一、如何編寫 1、JavaScr

Python開發【第十四篇】：Web框架本質

中一用戶 contain get pattern app sta doc connect Web框架本質眾所周知，對於所有的Web應用，本質上其實就是一個socket服務端，用戶的瀏覽器其實就是一個socket客戶端。 1 2 3 4 5 6 7 8 9

Python開發【第五篇】：Python基礎之2

對齊方式 dex 字符串後退 ring lag nic 有效 func 字符串格式化 Python的字符串格式化有兩種方式: 百分號方式、format方式百分號的方式相對來說比較老，而format方式則是比較先進的方式，企圖替換古老的方式，目前兩者並存。[PEP-310

Python開發【第四篇】：Python基礎之函數

nco pos *args 更強三元 sequence hunk ins att 三元運算三元運算（三目運算），是對簡單的條件語句的縮寫。 # 書寫格式 result = 值1 if 條件 else 值2 # 如果條件成立，那麽將 “值1” 賦值給result

Python之路【第五篇】：面向對象及相關

訪問遊戲 font raise 內置無法 sys 接下來 print 面向對象基礎基礎內容介紹詳見一下兩篇博文：面向對象初級篇面向對象進階篇其他相關一、isinstance(obj, cls) 檢查是否obj是否是類 cls 的對象 class F

Python心得【第一節】：認識python

license c# 動態編譯 spa 縮進開發 pypy 廣泛語言概念 Python（英國發音：/?pa?θ?n/ 美國發音：/?pa?θɑ?n/）, 是一種面向對象的解釋型計算機程序設計語言，由荷蘭人Guido van Rossum於1989

【第一節】：認識python

源文件 tps sum https 運行自由 oss hit general 概念 Python（英國發音：/?pa?θ?n/ 美國發音：/?pa?θɑ?n/）, 是一種面向對象的解釋型計算機程序設計語言，由荷蘭人Guido van Rossum

【任務排程系統第一篇】：大資料任務排程框架

1.前言

2.目前主流的任務排程系統

3. azkaban和xxl job的異同點

後記

相關推薦