Java 定時任務技術趨勢
簡介:定時任務是每個業務常見的需求,比如每分鐘掃描超時支付的訂單,每小時清理一次資料庫歷史資料,每天統計前一天的資料並生成報表等等。
作者:黃曉萌(學仁)
Java 中自帶的解決方案
使用 Timer
建立 java.util.TimerTask 任務,在 run 方法中實現業務邏輯。通過 java.util.Timer 進行排程,支援按照固定頻率執行。所有的 TimerTask 是在同一個執行緒中序列執行,相互影響。也就是說,對於同一個 Timer 裡的多個 TimerTask 任務,如果一個 TimerTask 任務在執行中,其它 TimerTask 即使到達執行的時間,也只能排隊等待。如果有異常產生,執行緒將退出,整個定時任務就失敗。
import java.util.Timer; import java.util.TimerTask; public class TestTimerTask { public static void main(String[] args) { TimerTask timerTask = new TimerTask() { @Override public void run() { System.out.println("hell world"); } }; Timer timer = new Timer(); timer.schedule(timerTask, 10, 3000); } }
使用 ScheduledExecutorService
基於執行緒池設計的定時任務解決方案,每個排程任務都會分配到執行緒池中的一個執行緒去執行,解決 Timer 定時器無法併發執行的問題,支援 fixedRate 和 fixedDelay。
import java.util.Timer; import java.util.TimerTask; public class TestTimerTask { public static void main(String[] args) { TimerTask timerTask = new TimerTask() { @Override public void run() { System.out.println("hell world"); } }; Timer timer = new Timer(); timer.schedule(timerTask, 10, 3000); } }
Spring 中自帶的解決方案
Springboot 中提供了一套輕量級的定時任務工具 Spring Task,通過註解可以很方便的配置,支援 cron 表示式、fixedRate、fixedDelay。
import java.util.concurrent.Executors; import java.util.concurrent.ScheduledExecutorService; import java.util.concurrent.TimeUnit; public class TestTimerTask { public static void main(String[] args) { ScheduledExecutorService ses = Executors.newScheduledThreadPool(5); //按照固定頻率執行,每隔5秒跑一次 ses.scheduleAtFixedRate(new Runnable() { @Override public void run() { System.out.println("hello fixedRate"); } }, 0, 5, TimeUnit.SECONDS); //按照固定延時執行,上次執行完後隔3秒再跑 ses.scheduleWithFixedDelay(new Runnable() { @Override public void run() { System.out.println("hello fixedDelay"); } }, 0, 3, TimeUnit.SECONDS); } }
Spring Task 相對於上面提到的兩種解決方案,最大的優勢就是支援 cron 表示式,可以處理按照標準時間固定週期執行的業務,比如每天幾點幾分執行。
業務冪等解決方案
現在的應用基本都是分散式部署,所有機器的程式碼都是一樣的,前面介紹的 Java 和 Spring 自帶的解決方案,都是程序級別的,每臺機器在同一時間點都會執行定時任務。這樣會導致需要業務冪等的定時任務業務有問題,比如每月定時給使用者推送訊息,就會推送多次。
於是,很多應用很自然的就想到了使用分散式鎖的解決方案。即每次定時任務執行之前,先去搶鎖,搶到鎖的執行任務,搶不到鎖的不執行。怎麼搶鎖,又是五花八門,比如使用 DB、zookeeper、redis。
使用 DB 或者 Zookeeper 搶鎖
使用 DB 或者 Zookeeper 搶鎖的架構差不多,原理如下:
- 定時時間到了,在回撥方法裡,先去搶鎖。
- 搶到鎖,則繼續執行方法,沒搶到鎖直接返回。
- 執行完方法後,釋放鎖。
示例程式碼如下:
import org.springframework.scheduling.annotation.EnableScheduling; import org.springframework.scheduling.annotation.Scheduled; import org.springframework.stereotype.Component; @Component @EnableScheduling public class MyTask { /** * 每分鐘的第30秒跑一次 */ @Scheduled(cron = "30 * * * * ?") public void task1() throws InterruptedException { System.out.println("hello cron"); } /** * 每隔5秒跑一次 */ @Scheduled(fixedRate = 5000) public void task2() throws InterruptedException { System.out.println("hello fixedRate"); } /** * 上次跑完隔3秒再跑 */ @Scheduled(fixedDelay = 3000) public void task3() throws InterruptedException { System.out.println("hello fixedDelay"); } }
當前的這個設計,仔細一點的同學可以發現,其實還是有可能導致任務重複執行的。比如任務執行的非常快,A 這臺機器搶到鎖,執行完任務後很快就釋放鎖了。B 這臺機器後搶鎖,還是會搶到鎖,再執行一遍任務。
使用 redis 搶鎖
使用 redis 搶鎖,其實架構上和 DB/zookeeper 差不多,不過 redis 搶鎖支援過期時間,不用主動去釋放鎖,並且可以充分利用這個過期時間,解決任務執行過快釋放鎖導致任務重複執行的問題,架構如下:
@Component @EnableScheduling public class MyTask { /** * 每分鐘的第30秒跑一次 */ @Scheduled(cron = "30 * * * * ?") public void task1() throws InterruptedException { String lockName = "task1"; if (tryLock(lockName, 30)) { System.out.println("hello cron"); releaseLock(lockName); } else { return; } } private boolean tryLock(String lockName, long expiredTime) { //TODO return true; } private void releaseLock(String lockName) { //TODO } }
看到這裡,可能又會有同學有問題,加一個過期時間是不是還是不夠嚴謹,還是有可能任務重複執行?
——的確是的,如果有一臺機器突然長時間的 fullgc,或者之前的任務還沒處理完(Spring Task 和 ScheduledExecutorService 本質還是通過執行緒池處理任務),還是有可能隔了 30 秒再去排程任務的。
使用 Quartz
Quartz[1] 是一套輕量級的任務排程框架,只需要定義了 Job(任務),Trigger(觸發器)和 Scheduler(排程器),即可實現一個定時排程能力。支援基於資料庫的叢集模式,可以做到任務冪等執行。
其中,QRTZ_LOCKS 就是 Quartz 叢集實現同步機制的行鎖表,其表結構如下:
--QRTZ_LOCKS表結構 CREATE TABLE `QRTZ_LOCKS` ( `LOCK_NAME` varchar(40) NOT NULL, PRIMARY KEY (`LOCK_NAME`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8; --QRTZ_LOCKS記錄 +-----------------+ | LOCK_NAME | +-----------------+ | CALENDAR_ACCESS | | JOB_ACCESS | | MISFIRE_ACCESS | | STATE_ACCESS | | TRIGGER_ACCESS | +-----------------+
可以看出 QRTZ_LOCKS 中有 5 條記錄,代表 5 把鎖,分別用於實現多個 Quartz Node 對 Job、Trigger、Calendar 訪問的同步控制。
開源任務排程中介軟體
上面提到的解決方案,在架構上都有一個問題,那就是每次排程都需要搶鎖,特別是使用 DB 和 Zookeeper 搶鎖,效能會比較差,一旦任務量增加到一定的量,就會有比較明顯的排程延時。還有一個痛點,就是業務想要修改排程配置,或者增加一個任務,得修改程式碼重新發布應用。
於是開源社群湧現了一堆任務排程中介軟體,通過任務排程系統進行任務的建立、修改和排程,這其中國內最火的就是 XXL-JOB 和 ElasticJob。
ElasticJob
ElasticJob[2] 是一款基於 Quartz 開發,依賴 Zookeeper 作為註冊中心、輕量級、無中心化的分散式任務排程框架,目前已經通過 Apache 開源。
ElasticJob 相對於 Quartz 來說,從功能上最大的區別就是支援分片,可以將一個任務分片引數分發給不同的機器執行。架構上最大的區別就是使用 Zookeeper 作為註冊中心,不同的任務分配給不同的節點排程,不需要搶鎖觸發,效能上比 Quartz 上強大很多,架構圖如下:
elasticjob: regCenter: serverLists: localhost:2181 namespace: elasticjob-lite-springboot jobs: simpleJob: elasticJobClass: org.apache.shardingsphere.elasticjob.lite.example.job.SpringBootSimpleJob cron: 0/5 * * * * ? timeZone: GMT+08:00 shardingTotalCount: 3 shardingItemParameters: 0=Beijing,1=Shanghai,2=Guangzhou scriptJob: elasticJobType: SCRIPT cron: 0/10 * * * * ? shardingTotalCount: 3 props: script.command.line: "echo SCRIPT Job: " manualScriptJob: elasticJobType: SCRIPT jobBootstrapBeanName: manualScriptJobBean shardingTotalCount: 9 props: script.command.line: "echo Manual SCRIPT Job: "
實現任務介面如下:
@Component public class SpringBootShardingJob implements SimpleJob { @Override public void execute(ShardingContext context) { System.out.println("分片總數="+context.getShardingTotalCount() + ", 分片號="+context.getShardingItem() + ", 分片引數="+context.getShardingParameter()); }
執行結果如下:
分片總數=3, 分片號=0, 分片引數=Beijing 分片總數=3, 分片號=1, 分片引數=Shanghai 分片總數=3, 分片號=2, 分片引數=Guangzhou
同時,ElasticJob 還提供了一個簡單的 UI,可以檢視任務的列表,同時支援修改、觸發、停止、生效、失效操作
XXL-JOB
XXL-JOB[3] 是一個開箱即用的輕量級分散式任務排程系統,其核心設計目標是開發迅速、學習簡單、輕量級、易擴充套件,在開源社群廣泛流行。
XXL-JOB 是 Master-Slave 架構,Master 負責任務的排程,Slave 負責任務的執行,架構圖如下:
@Component public class SampleXxlJob { private static Logger logger = LoggerFactory.getLogger(SampleXxlJob.class); /** * 1、簡單任務示例(Bean模式) */ @XxlJob("demoJobHandler") public ReturnT<String> demoJobHandler(String param) throws Exception { XxlJobLogger.log("XXL-JOB, Hello World."); for (int i = 0; i < 5; i++) { XxlJobLogger.log("beat at:" + i); TimeUnit.SECONDS.sleep(2); } return ReturnT.SUCCESS; } /** * 2、分片廣播任務 */ @XxlJob("shardingJobHandler") public ReturnT<String> shardingJobHandler(String param) throws Exception { // 分片引數 ShardingUtil.ShardingVO shardingVO = ShardingUtil.getShardingVo(); XxlJobLogger.log("分片引數:當前分片序號 = {}, 總分片數 = {}", shardingVO.getIndex(), shardingVO.getTotal()); // 業務邏輯 for (int i = 0; i < shardingVO.getTotal(); i++) { if (i == shardingVO.getIndex()) { XxlJobLogger.log("第 {} 片, 命中分片開始處理", i); } else { XxlJobLogger.log("第 {} 片, 忽略", i); } } return ReturnT.SUCCESS; } }
XXL-JOB 相較於 ElasticJob,最大的特點就是功能比較豐富,可運維能力比較強,不但支援控制檯動態建立任務,還有排程日誌、執行報表等功能。
由此可以看出,XXL-JOB 所有功能都依賴資料庫,且排程中心不支援分散式架構,在任務量和排程量比較大的情況下,會有效能瓶頸。不過如果對任務量級、高可用、監控報警、視覺化等沒有過高要求的話,XXL-JOB 基本可以滿足定時任務的需求。
企業級解決方案
開源軟體只能提供基礎的排程能力,在監管控上的能力一般都比較弱。比如日誌服務,業界往往使用 ELK 解決方案;簡訊報警,需要有簡訊平臺;監控大盤,現在主流的解決方案是 Prometheus;等等。企業想要有這些能力,不但需要額外的開發成本,還需要昂貴的資源成本。
另外使用開源軟體也伴隨著穩定性的風險,就是出了問題沒人能處理,想要反饋到社群等社群處理,這個鏈路太長了,早就產生故障了。
阿里雲任務排程 SchedulerX[4] 是阿里巴巴自研的基於 Akka 架構的一站式任務排程平臺,相容開源 XXL-JOB、ElasticJob、Quartz(規劃中),支援 Cron 定時、一次性任務、任務編排、分散式跑批,具有高可用、視覺化、可運維、低延時等能力,自帶企業級監控大盤、日誌服務、簡訊報警等服務。
優勢
安全防護
- 多層次安全防護:支援 HTTPS 和 VPC 訪問,同時還有阿里雲的多層安全防護,防止惡意攻擊。
- 多租戶隔離機制:支援多地域、名稱空間和應用級別的隔離。
- 許可權管控:支援控制檯讀寫的許可權管理,客戶端接入的鑑權。
企業級高可用
SchedulerX2.0 採用高可用架構,任務多備份機制,經歷阿里集團多年雙十一、容災演練,可以做到任意一個機房掛了,任務排程都不會收到影響。
商業級報警運維
- 報警:支援郵件、釘釘、簡訊、電話,(其他報警方式在規劃中)。支援任務失敗、超時、無可用機器報警。報警內容可以直接看出任務失敗的原因,以釘釘機器人為例。
- 運維操作:原地重跑、重刷資料、標記成功、檢視堆疊、停止任務、指定機器等。
schedulerx 擁有豐富的視覺化能力,比如:
- 使用者大盤
- 檢視任務歷史執行記錄
- 檢視任務執行日誌
- 檢視任務執行堆疊
- 檢視任務操作記錄
Schedulerx 相容開源 XXL-JOB、ElasticJob、Quartz(規劃中),業務不需要改一行程式碼,即可以將任務託管在 SchedulerX 排程平臺,享有企業級視覺化和報警的能力。
SchedulerX 支援通過控制檯和 API 動態建立任務,也支援 Spring 宣告式任務定義,一份任務配置可以拿到任何環境一鍵啟動,配置如下:
spring: schedulerx2: endpoint: acm.aliyun.com #請填寫不同regin的endpoint namespace: 433d8b23-06e9-xxxx-xxxx-90d4d1b9a4af #region內全域性唯一,建議使用UUID生成 namespaceName: 學仁測試 appName: myTest groupId: myTest.group #同一個名稱空間下需要唯一 appKey: myTest123@alibaba #應用的key,不要太簡單,注意保管好 regionId: public #填寫對應的regionId aliyunAccessKey: xxxxxxx #阿里雲賬號的ak aliyunSecretKey: xxxxxxx #阿里雲賬號的sk alarmChannel: sms,ding #報警通道:簡訊和釘釘 jobs: simpleJob: jobModel: standalone className: com.aliyun.schedulerx.example.processor.SimpleJob cron: 0/30 * * * * ? # cron表示式 jobParameter: hello overwrite: true shardingJob: jobModel: sharding className: ccom.aliyun.schedulerx.example.processor.ShardingJob oneTime: 2022-06-02 12:00:00 # 一次性任務表示式 jobParameter: 0=Beijing,1=Shanghai,2=Guangzhou overwrite: true broadcastJob: # 不填寫cron和oneTime,表示api任務 jobModel: broadcast className: com.aliyun.schedulerx.example.processor.BroadcastJob jobParameter: hello overwrite: true mapReduceJob: jobModel: mapreduce className: com.aliyun.schedulerx.example.processor.MapReduceJob cron: 0 * * * * ? jobParameter: 100 overwrite: true alarmUsers: #報警聯絡人 user1: userName: 張三 userPhone: 12345678900 user2: userName: 李四 ding: https://oapi.dingtalk.com/robot/send?access_token=xxxxx
分散式跑批
SchedulerX 提供了豐富的分散式模型,可以處理各種各樣的分散式業務場景。包括單機、廣播、分片、MapReduce[5] 等,架構如下:
任務編排
SchedulerX 通過工作流進行任務編排,並且提供了一個視覺化的介面,操作簡單,拖拖拽拽即可配置一個工作流。詳細的任務狀態圖能一目瞭然看到下游任務為什麼沒跑,方便定位問題。
常見場景是夜間離線報表業務,比如很多報表任務是晚上 1、2 點開始跑,要控制應用最大併發的任務數量(否則業務扛不住),達到併發上限的任務會在佇列中等待。同時要求早上 9 點前必須把 KPI 報表跑出來,可以設定 KPI 任務高優先順序,會搶佔低優先順序任務優先排程。
SchedulerX 支援可搶佔的任務優先順序佇列,可以在控制檯動態配置:
Q&A
- Kubernetes 應用可以接入 SchedulerX 嗎?
——可以的,無論是物理機、容器、還是 Kubernetes pod,都可以接入 SchedulerX。
- 我的應用不在阿里雲上,可否使用 SchedulerX?
——可以的,任何雲平臺或者本地機器,只要能訪問公網,都可以接入 SchedulerX。
本文為阿里雲原創內容,未經允許不得轉載。