Python爬蟲定時計劃任務的幾種常見方法
前言
本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。
PS:如有需要Python學習資料的小夥伴可以加點選下方連結自行獲取
記得以前的Windows任務定時是可以正常使用的,今天試了下,發現不能正常使用了,任務計劃總是掛起。接下來記錄下Python爬蟲定時任務的幾種解決方法。
方法一、while True
首先最容易的是while true死迴圈掛起,不廢話,直接上程式碼:
import os import time import sys from datetime import datetime, timedelta def One_Plan(): # 設定啟動週期 Second_update_time = 24 * 60 * 60 # 當前時間 now_Time = datetime.now() # 設定 任務啟動時間 plan_Time = now_Time.replace(hour=9, minute=0, second=0, microsecond=0) # 設定差值,-1 day, 21:48:53.246576,類似於這樣 # time.sleep()需要傳入int,所以下面使用.total_seconds() # 主要用來計算差值,返回int,具體功能可以自行查閱相關資料 delta = plan_Time - now_Time first_plan_Time = delta.total_seconds() % Second_update_time print("距離第一次執行需要睡眠%d秒" % first_plan_Time) return first_plan_Time # while Ture程式碼塊,掛起程式,睡眠時間結束後呼叫函式名進行執行 while True: s1 = One_Plan() time.sleep(s1) # 下面這裡是自己定義的函式,想跑程式碼的可以換成hellow world函式或者註釋掉這行測試下 exe_file(D_list) print("正在執行首次更新程式")
個人感覺使用這種方式進行定時計劃的啟動如果為單個程式,並且一天執行一次的話沒什麼問題,如果要考慮到一天執行多個任務並且一天需要執行多次,短板一下就凸顯出來了。
在工作的情況中還需要考慮到很多因素,比如爬蟲程式需要在晚上12點和早上6點、9點,下午3點執行四次,並且需要同時執行4個爬蟲,還需要考慮到網路是否穩定,如果程式掛掉該怎麼處理等等因素。
方法二、Timer模組
之前說了最簡單的定時啟動,可以說是最簡單粗暴的,人生苦短,python優雅,有沒有那種很簡單很簡單,幾行程式碼就可以搞定的那種?必須有的哈!簡單舉個例子說一下,上一個方法的末尾提到過需要考慮到其他因素,這就來了:
現在需要啟動一個selenium的爬蟲,使用火狐驅動+多執行緒,大家都明白的,現在電腦管家顯示CPU佔用率20%,啟動selenium後不停的開啟瀏覽器+多執行緒,好,沒過5分鐘,CPU佔用率直接拉到90%+,電腦卡到飛起,定時程式雖然還在執行,但是已經類似於待機狀態,是不是突然感覺到面對電腦卡死,第一反應:臥槽,這個lj電腦,怎麼程式都跑不起來,我還寫這麼多程式碼,*****!!
是吧,接下來上程式碼,具體功能,請自行查閱相關資料深造:
from datetime import datetime from threading import Timer import time # 定時任務 def task(): print(datetime.now().strftime("%Y-%m-%d %H:%M:%S")) def timedTask(): ''' 第一個引數: 延遲多長時間執行任務(秒) 第二個引數: 要執行的函式 第三個引數: 呼叫函式的引數(tuple) ''' Timer(5, task, ()).start() while True: timedTask() time.sleep(5)
7行程式碼,是不是很優雅?優不優雅的主要是程式碼少,不費勁對吧。
2020-06-05 14:06:39
2020-06-05 14:06:44
2020-06-05 14:06:49
2020-06-05 14:06:54
2020-06-05 14:06:59
2020-06-05 14:07:04
2020-06-05 14:07:09
2020-06-05 14:07:14
2020-06-05 14:07:19
2020-06-05 14:07:24
方法三、sched模組
這次直接上模組——sched模組
程式碼如下:
from datetime import datetime
import sched
import time
def timedTask():
# 初始化 sched 模組的 scheduler 類,傳入(time.time, time.sleep)這兩個引數
scheduler = sched.scheduler(time.time, time.sleep)
# 增加排程任務,enter(睡眠時間,執行級別,執行函式)
scheduler.enter(5, 1, task)
# 執行任務
scheduler.run()
# 定時任務
def task():
print(datetime.now().strftime("%Y-%m-%d %H:%M:%S"))
if __name__ == '__main__':
timedTask()
這個模組也很容易上手,需要注意,scheduler()只會執行一次就結束程式,可以在mian下面新增while Ture或者直接新增排程任務在timeTask中就可以,另外除了這樣的寫法外,還有另外一種寫法,上程式碼:
import schedule
import time
def hellow():
print('hellow')
def Timer():
schedule.every().day.at("09:00").do(hellow)
schedule.every().day.at("18:00").do(hellow)
while True:
schedule.run_pending()
time.sleep('需要睡眠的週期')
Timer()
在這裡可以看到,有day-hour-minute,定時任務非常的方便,在while True裡新增需要睡眠的時間,在函式模組內新增需要執行的次數即可。