1. 程式人生 > 實用技巧 >Python爬蟲定時計劃任務的幾種常見方法

Python爬蟲定時計劃任務的幾種常見方法

前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

PS:如有需要Python學習資料的小夥伴可以加點選下方連結自行獲取

python免費學習資料以及群交流解答點選即可加入


記得以前的Windows任務定時是可以正常使用的,今天試了下,發現不能正常使用了,任務計劃總是掛起。接下來記錄下Python爬蟲定時任務的幾種解決方法。

方法一、while True

首先最容易的是while true死迴圈掛起,不廢話,直接上程式碼:

import os
import time
import sys 
from datetime import datetime, timedelta
def One_Plan():
     # 設定啟動週期
     Second_update_time = 24 * 60 * 60

    # 當前時間
    now_Time = datetime.now()
    # 設定 任務啟動時間
    plan_Time = now_Time.replace(hour=9, minute=0, second=0, microsecond=0)  
    # 設定差值,-1 day, 21:48:53.246576,類似於這樣
    # time.sleep()需要傳入int,所以下面使用.total_seconds() 
    # 主要用來計算差值,返回int,具體功能可以自行查閱相關資料
    delta = plan_Time - now_Time
    first_plan_Time = delta.total_seconds() % Second_update_time
    print("距離第一次執行需要睡眠%d秒" % first_plan_Time)
    return first_plan_Time

# while Ture程式碼塊,掛起程式,睡眠時間結束後呼叫函式名進行執行
while True:

    s1 = One_Plan()
    time.sleep(s1)
    # 下面這裡是自己定義的函式,想跑程式碼的可以換成hellow world函式或者註釋掉這行測試下
    exe_file(D_list)
    print("正在執行首次更新程式")

個人感覺使用這種方式進行定時計劃的啟動如果為單個程式,並且一天執行一次的話沒什麼問題,如果要考慮到一天執行多個任務並且一天需要執行多次,短板一下就凸顯出來了。

在工作的情況中還需要考慮到很多因素,比如爬蟲程式需要在晚上12點和早上6點、9點,下午3點執行四次,並且需要同時執行4個爬蟲,還需要考慮到網路是否穩定,如果程式掛掉該怎麼處理等等因素。

方法二、Timer模組

之前說了最簡單的定時啟動,可以說是最簡單粗暴的,人生苦短,python優雅,有沒有那種很簡單很簡單,幾行程式碼就可以搞定的那種?必須有的哈!簡單舉個例子說一下,上一個方法的末尾提到過需要考慮到其他因素,這就來了:

現在需要啟動一個selenium的爬蟲,使用火狐驅動+多執行緒,大家都明白的,現在電腦管家顯示CPU佔用率20%,啟動selenium後不停的開啟瀏覽器+多執行緒,好,沒過5分鐘,CPU佔用率直接拉到90%+,電腦卡到飛起,定時程式雖然還在執行,但是已經類似於待機狀態,是不是突然感覺到面對電腦卡死,第一反應:臥槽,這個lj電腦,怎麼程式都跑不起來,我還寫這麼多程式碼,*****!!

是吧,接下來上程式碼,具體功能,請自行查閱相關資料深造:

from datetime import datetime
from threading import Timer
import time

# 定時任務
def task():
    print(datetime.now().strftime("%Y-%m-%d %H:%M:%S"))

def timedTask():
    '''
    第一個引數: 延遲多長時間執行任務(秒)
    第二個引數: 要執行的函式
    第三個引數: 呼叫函式的引數(tuple)
    '''
    Timer(5, task, ()).start()

while True:
    timedTask()
    time.sleep(5)

7行程式碼,是不是很優雅?優不優雅的主要是程式碼少,不費勁對吧。

2020-06-05 14:06:39
2020-06-05 14:06:44
2020-06-05 14:06:49
2020-06-05 14:06:54
2020-06-05 14:06:59
2020-06-05 14:07:04
2020-06-05 14:07:09
2020-06-05 14:07:14
2020-06-05 14:07:19
2020-06-05 14:07:24

方法三、sched模組

這次直接上模組——sched模組

程式碼如下:

from datetime import datetime
import sched
import time


def timedTask():
    # 初始化 sched 模組的 scheduler 類,傳入(time.time, time.sleep)這兩個引數
    scheduler = sched.scheduler(time.time, time.sleep)
    # 增加排程任務,enter(睡眠時間,執行級別,執行函式)
    scheduler.enter(5, 1, task)
    # 執行任務
    scheduler.run()

# 定時任務
def task():
    print(datetime.now().strftime("%Y-%m-%d %H:%M:%S"))

if __name__ == '__main__':
    timedTask()

這個模組也很容易上手,需要注意,scheduler()只會執行一次就結束程式,可以在mian下面新增while Ture或者直接新增排程任務在timeTask中就可以,另外除了這樣的寫法外,還有另外一種寫法,上程式碼:

import schedule
import time

def hellow():
    print('hellow')

def Timer():
    schedule.every().day.at("09:00").do(hellow)
    schedule.every().day.at("18:00").do(hellow)

    while True:
        schedule.run_pending()

        time.sleep('需要睡眠的週期')


Timer()

在這裡可以看到,有day-hour-minute,定時任務非常的方便,在while True裡新增需要睡眠的時間,在函式模組內新增需要執行的次數即可。