python實現scrapy定時執行爬蟲

阿新 • • 發佈：2019-01-23

專案需要程式能夠放在超算中心定時執行，於是針對scrapy寫了一個定時爬蟲的程式main.py ，直接放在scrapy的儲存程式碼的目錄中就能設定時間定時多次執行。
最簡單的方法：直接使用Timer類

import time
import os

while True:
    os.system("scrapy crawl News")
    time.sleep(86400)  #每隔一天執行一次 24*60*60=86400s

或者，使用標準庫的sched模組

import sched
#初始化sched模組的scheduler類
#第一個引數是一個可以返回時間戳的函式，第二個引數可以在定時未到達之前阻塞。 

schedule = sched.scheduler ( time.time, time.sleep )

#被週期性排程觸發的函式
def func():
    os.system("scrapy crawl News")
def perform1(inc):
    schedule.enter(inc,0,perform1,(inc,))
    func()    # 需要週期執行的函式
def mymain():
    schedule.enter(0,0,perform1,(86400,))

if __name__=="__main__":
    mymain()
    schedule.run()  # 開始執行，直到計劃時間佇列變成空為止

關於cmd的實現方法，本人在單次執行爬蟲程式時使用的是

cmdline.execute("scrapy crawl News".split())

但可能因為cmdline是scrapy模組中自帶的，所以定時執行時只能執行一次就退出了。小夥伴有種方法是使用

import subprocess
subprocess.Popen("scrapy crawl News")

她的程式執行正常可以定時多次執行，而我的卻直接退出了，改為

from subprocess import Popen
subprocess.Popen("scrapy crawl News")

python實現scrapy定時執行爬蟲

專案需要程式能夠放在超算中心定時執行，於是針對scrapy寫了一個定時爬蟲的程式main.py ，直接放在scrapy的儲存程式碼的目錄中就能設定時間定時多次執行。最簡單的方法：直接使用Timer類 import time import os whi

如何用python實現一個多執行緒定時器

因為自已要寫一個和時間有關的方法，每過幾秒鐘之後要執行一個函式，但在主執行緒裡寫一個死迴圈來作定時器總是覺得不好。正好今天學習了一下python的多執行緒，可以拿來練手。寫了下邊的python定時器類，

基於MVC 的Quartz.Net組件實現的定時執行任務調度

創建 .get 關系成了 star +++ rep 清除 pub 新建mvc項目之後，首先引用Quartz組件。工具-->NuGet包管理器-->管理解決方案的 NuGet包管理器組件安裝完成。 Quartz.Net一個最簡單任務至少包括三部分實現：

python實現自動定時給女朋友發手機簡訊，每天一個笑話！

Python 的概念加群：865597862即可自動獲取大量Python視訊教程以及各類PDF！大四的生活就是這麼無聊，我琢磨著也學了這麼多東西了，為啥不能用自己的知識來給生活找點樂子呢？我想反正每天都要給Ta問候一聲早安，為何不同時講個笑話呢？如果能寫個程

python 每天如何定時啟動爬蟲任務

想要每天定時啟動，最好是把程式放在linux伺服器上執行，畢竟linux可以不用關機，即定時任務一直存活； #coding:utf8 import datetime import time def doSth(): # 把爬蟲程式放在這個類裡 print(u'這個程式

python之scrapy(五)分散式爬蟲

Scrapy是一個比較好用的Python爬蟲框架，你只需要編寫幾個元件就可以實現網頁資料的爬取。但是當我們要爬取的頁面非常多的時候，單個主機的處理能力就不能滿足我們的需求了（無論是處理速度還是網路請求的併發數），這時候分散式爬蟲的優勢就顯現出來。一、分散式爬蟲的原理下

quartz任務排程框架實現任務定時執行，不傳參的配置（一）

quartz是一個任務排程框架，可以用它來實現一些需要定時執行的任務。本次實現的是spring配置整合quartz 1.配置如下：目標bean和bean中的方法需要自己定義，這個方法就是要執行

python+selenium+scrapy搭建簡單爬蟲

接觸爬蟲也有一段時間了，下面我就來簡單介紹一種我認為較為直觀有效的方式。基本搭配：python2.7+selenium+scrapy，selenium用來模擬真實使用者操作瀏覽器的過程，scrapy用來提取網頁內容。關於安裝方式我就暫且提一下我接觸過的兩種：

Java—實現每天定時執行任務

1、定義TimerManager類 import java.util.Calendar; import java.util.Date; import java.util.Timer; /** * java定時任務，每天定時執行任務 * @

【Java併發學習四】如何實現一個定時執行緒池

所謂 “定時任務執行緒池” 就是指放入執行緒池的任務，可以按照指定的等待週期迴圈執行。 Java裡面ScheduledThreadPoolExecutor這個類實現了這種功能。Spring裡面的定時任務也是在ScheduledThreadPoolExecu

Python實現ssh登入執行shell命令並將結果寫入mysql資料庫

#coding=utf-8 import MySQLdb import paramiko import datetime import time #timestamptimestamp = time.mktime(datetime.datetime.now().timetu

使用python實現簡答的爬蟲

exec 清華大學 read 開發編輯器行修改 pro www. ima python爬蟲的簡單實現開發環境的配置 python環境的安裝編輯器的安裝爬蟲的實現包的安裝簡單爬蟲的初步實現將數據寫入到數據庫-簡單的數據清洗-數

Java實現每天定時執行任務

init 開始 java實現 int 周期 cal ner 你是 nth 1、TimerManager類 package com.lyz.util; import java.util.Calendar; import java.util.Date; import jav

Python爬蟲：Scrapy除錯執行單個爬蟲

一般執行Scrapy專案的爬蟲是在命令列輸入指令執行的： $ scrapy crawl spider 每次都輸入還是比較麻煩的，偶爾還會敲錯，畢竟能少動就少動 Scrapy提供了一個命令列工具，可以在單個spider檔案中加入以下程式碼： from scrapy im

定時執行Python指令碼實現自動簽到

起初學Python最想做的就是實現自動簽到了，而且是全自動的，電腦關機也能執行簽到的那種，後來程式碼實現了但是偏偏驅動器出問題了，也就是程式執行第一步不能開啟瀏覽器，後來我的pycharm的環境也出各種問題，我亂增改路徑導致我的python的pip指令都執行不了了，或許是以

在mac下用crontab來定時執行scrapy爬蟲命令

Crontab這個命令是在linux下來執行定時執行任務的指令，但是在mac下同樣用這一指令來實現定時執行任務。但是在用到scrapy爬蟲的時候，會有兩個比較常見的問題導致定時爬取不成功，接下來將詳細

linux python 爬蟲伺服器部署 crontab定時執行

由於python版本比較多，python2與python3相容又不好，導致很多擴充套件庫版本也很多，安裝擴充套件庫就容易碰到問題，有些直接yum就可以安裝，有些需要用pip安裝，有些需要直接下載安裝，我這裡就列舉幾個我碰到的吧。可以用virtualenv這個

基於python，scrapy，redis實現主從式（分散式的一種）master-slave爬蟲

前言這是本人的第一篇部落格，感觸還是很多的，最近在幫朋友做一個分散式爬蟲的論文，遇到很多坑，不過已經一一填平，廢話不多說啦。分類(1)主從分散式爬蟲:由一臺master伺服器, 來提供url的分發, 維護待抓取url的list。由多臺slave伺服器執行網頁抓取功能， sla

Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

一、需求：在豆瓣官網中，使用Scrapy實現模擬登入，並爬取登入後的個人中心介面中的使用者名稱及日記資訊資料。二、實現思路： 1、關於使用者名稱與密碼以及其提交網址：觀察登入網頁的原始碼，注意到使用者名稱與密碼都使用不同name屬性的input來輸入

python基礎之socket編程-------基於tcp的套接字實現遠程執行命令的操作

logs lose stream res std 遠程控制 python log out 遠程實現cmd功能： import socket import subprocess phone=socket.socket(socket.AF_INET,socket.SOC

python實現scrapy定時執行爬蟲

相關推薦