Scrapy多個spider指定piplines

阿新 • • 發佈：2019-02-09

這段時間我在一個爬蟲專案寫了兩個蜘蛛（http://blog.csdn.net/mr_blued?t=1），都需要通過piplines將資料儲存到Mysql資料庫，所以在piplines寫了兩個類。

一個MoviePipeline()，一個BookPipline()

import pymysql


'''
class MoviePipeline(object):
    def __init__(self):
        # 連線資料庫
        self.conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='1likePython',
                                    db='TESTDB', charset='utf8')
        # 建立遊標物件
        self.cursor = self.conn.cursor()
        self.cursor.execute('truncate table Movie')
        self.conn.commit()

    def process_item(self, item, spider):
        try:
            self.cursor.execute("insert into Movie (name,movieInfo,star,number,quote) \
            VALUES (%s,%s,%s,%s,%s)", (item['movie_name'],item['movie_message'],item['movie_star'],
                                       item['number'], item['movie_quote']))
            self.conn.commit()
        except pymysql.Error:
            print("Error%s,%s,%s,%s,%s" % (item['movie_name'],item['movie_message'],item['movie_star'],
                                       item['number'], item['movie_quote']))
        return item

class BookPipeline(object):
    def __init__(self):
        # 連線資料庫
        self.conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='1likePython',
                                    db='TESTDB', charset='utf8')
        # 建立遊標物件
        self.cursor = self.conn.cursor()
        self.cursor.execute('truncate table Book')
        self.conn.commit()

    def process_item(self, item, spider):
        try:
            self.cursor.execute("insert into Book (book_name,author,book_type,book_state,book_update,book_time,new_href,book_intro) \
            VALUES (%s,%s,%s,%s,%s,%s,%s,%s)", (item['book_name'], item['author'], item['book_type'],
                                                   item['book_state'], item['book_update'], item['book_time'],
                                                   item['new_href'], item['book_intro']))
            self.conn.commit()
        except pymysql.Error:
            print("Error%s,%s,%s,%s,%s,%s,%s,%s" % (item['book_name'], item['author'], item['book_type'],
                                                   item['book_state'], item['book_update'], item['book_time'],
                                                   item['new_href'], item['book_intro']))
        return item

'''

接著我在settings.py中對這兩個類進行了設定

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'Mycrawl.pipelines.MoviePipeline': 100,
    'Mycrawl.pipelines.BookPipeline': 300,
}

接著執行爬蟲，我發現執行 book 爬蟲時使用的 piplines 類是 MoviePipline()，顯然這樣子會報錯，如果不想報錯，就要在setting.py中將這一行給註釋掉

 'Mycrawl.pipelines.MoviePipeline': 100,

然而等我想用movie爬蟲的時候又需要將該註釋給去掉，將另一行給註釋起來，這樣子就會變得很麻煩。

所以我在piplines.py中對程式碼進行了修改，讓其對現在進行的爬蟲名進行判斷，修改如下：

class MycrawlPipeline(object):
    def __init__(self):
        # 連線資料庫
        self.conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='1likePython',
                                    db='TESTDB', charset='utf8')
        # 建立遊標物件
        self.cursor = self.conn.cursor()
        self.cursor.execute('truncate table Movie')
        self.cursor.execute('truncate table Book')
        self.conn.commit()

    def process_item(self, item, spider):
        # 如果爬蟲名是movie
        if spider.name == 'movie':
            try:
                self.cursor.execute("insert into Movie (name,movieInfo,star,number,quote) \
                VALUES (%s,%s,%s,%s,%s)", (item['movie_name'],item['movie_message'],item['movie_star'],
                                           item['number'], item['movie_quote']))
                self.conn.commit()
            except pymysql.Error:
                print("Error%s,%s,%s,%s,%s" % (item['movie_name'],item['movie_message'],item['movie_star'],
                                           item['number'], item['movie_quote']))
            return item
        # 如果爬蟲名是book
        elif spider.name == 'book':
            try:
                self.cursor.execute("insert into Book (book_name,author,book_type,book_state,book_update,book_time,new_href,book_intro) \
                        VALUES (%s,%s,%s,%s,%s,%s,%s,%s)", (item['book_name'], item['author'], item['book_type'],
                                                            item['book_state'], item['book_update'], item['book_time'],
                                                            item['new_href'], item['book_intro']))
                self.conn.commit()
            except pymysql.Error:
                print("Error%s,%s,%s,%s,%s,%s,%s,%s" % (item['book_name'], item['author'], item['book_type'],
                                                        item['book_state'], item['book_update'], item['book_time'],
                                                        item['new_href'], item['book_intro']))
            return item

這樣，只需寫一個piplines類即可讓蜘蛛與其pipline一一對應起來了。

Scrapy多個spider指定piplines

這段時間我在一個爬蟲專案寫了兩個蜘蛛（http://blog.csdn.net/mr_blued?t=1），都需要通過piplines將資料儲存到Mysql資料庫，所以在piplines寫了兩個類。一個MoviePipeline()，一個BookPipline()import

scrapy框架中多個spider同時執行：scrapyd的部署及使用

scrapy是一個爬蟲框架，而scrapyd是一個網頁版管理scrapy的工具，scrapy爬蟲寫好後，可以使用命令執行，但是如果能夠在網頁上操作就比較方便。scrapyd就是為了解決這個問題，能夠在網頁端檢視正在執行的任務，也能新建和終止爬蟲任務，功能比較強大。 Scrapyd使用詳解

scrapy多個爬蟲公用一些中間件、pipelines

scrapy python 使用python3請求頭headers：user-agent、代理ip，這些放在一個工程項目裏，有的爬蟲是需要中間件的或者根據反爬添加相應的條件，那這樣的情況下怎麽辦？1.中間件處理默認帶上請求頭，不帶啟用ip代理功能spiders文件夾下的爬蟲類添加屬性中間件處理這樣不管

使用cut和paste命令:合併多個檔案指定列內容

檔案格式如下，步驟一：使用cut將指定列內容分離出來 >>cut -d ’ ’ -f 4 all_dc.txt >> dc.txt //後面跟的字元表示以什麼為分隔符，我的資料以空格為分隔符，所以後面跟的為’ ’ //-f後面跟

tomcat配置多個埠指定多個應用

<Service name="MyService"> <Connector port="8082" maxHttpHeaderSize="8192" maxThreads="150" min

如何從二維數組中的多個key中獲取指定key的值？

福建 ava 而且標簽 column spa com school itl 精華 LOVEME96 2016-10-21 10:40:19 瀏覽(1512) 回答(3) 贊(0) 新手求教：二維數組中一般會有多個key,如果我們要獲得指定key的值，應

VBA匯總指定多個工作簿的數據

variant div cati ksh pla () deb clas pub Public Sub GatherFilesData() Application.ScreenUpdating = False Application.DisplayAler

[VBA]匯總多個工作簿的指定工作表到同一個工作簿的指定工作表中

速度慢 excel trre books for each loop 表格 columns ive sub 匯總多個工作簿() Application.ScreenUpdating = False Dim wb As Workbook, f As String, l As

Oracle數據庫多個實例的查詢與指定

數據庫近期在對單位某系統進行巡檢時，發現該數據庫有多個實例，直接對其中一個實例進行查詢時，顯示失敗。後發現需要對其進行指定，修改環境變量。具體思路如下： 1、首先登陸服務器，ps -ef |grep smon查看已經啟動的實例 2、選定其中一個，export ORACLE_SID=實例

java list按照元素對象的指定多個字段屬性進行排序

ase 日期 pri num tex itl pop sha 轉換 ListUtils.Java---功能類 http://blog.csdn.net/jiangyu1013/article/details/53894218 [java] view plain co

awk -F選項同時指定多個符號做為分割符時遇到空格坑，題目：請執行命令取出 linux 中 eth0 的 IP 地址

取出linux中eth0的ip地址 awk空格遇坑老男孩第三關課前考試題的第三個筆試題第三關課前考試題：3.請執行命令取出 linux 中 eth0 的 IP 地址(請用 cut，有能力者也可分別用 awk,sed 命令答)因為以前有個題講過awk -F選項可以指定輸入分割符，也可以同時使用多個符號作為分割

一個聲明指定了多個類型

類型 style ont ima alt 由於指定分號 log 1、一般網上會說這是由於定義多個結構體，沒有加分號導致，但是發現不是這個原因； 2、頭文件順序不正確會出現這個錯誤提示，原因未知； 3、一個聲明指定了多個類型

python爬蟲scrapy之如何同時執行多個scrapy爬行任務

還需學習 lis 參數文件名其中 .project 自定義 com 背景：　　剛開始學習scrapy爬蟲框架的時候，就在想如果我在服務器上執行一個爬蟲任務的話，還說的過去。但是我不能每個爬蟲任務就新建一個項目吧。例如我建立了一個知乎的爬行任務，但是我在這個爬行任務中

scrapy順序執行多個爬蟲

clas aio 爬蟲 sleep class abs pan path execute 1 # -*- coding:utf-8 -*- 2 3 from scrapy import cmdline 4 from scrapy.cmdline import e

python 復制多個文件到指定目錄（基於python 3.X）

__name__ std lena import print tex post res 目錄 import osimport shutildef copyPDF(): addressPDF = "E:/totally/FinancePDF/" f_list = os.lis

為應用指定多個struts配置文件

config pre 2.0 color nbsp .org 臃腫 utf-8 系統在大部分應用裏，隨著應用規模的增加，系統中Action的數量也會大量增加，導致struts.xml配置文件變得非常臃腫。為了避免struts.xml文件過於龐大、臃腫，提高struts.x

scrapy 組合多個頁面的數據一並存儲

存儲 blank bsp 頁面 tps 信息 www quest ans 暫不重復，請看參考信息參考： https://segmentfault.com/q/1010000009651745/a-1020000009652641 https://www.jianshu.

scrapy 一個專案裡同時執行多個爬蟲

在spiders檔案同級建立一個commands資料夾，建立一個py檔案，我自定義為crawlall.py。 from scrapy.commands import ScrapyCommand class Command(ScrapyCommand): requires_pro

Scrapy如何獲取返回的headers裡面的多個Set-Cookie

爬蟲有時候需要先拿到cookie，然後再用cookie去訪問其他頁面。當遇到返回的response的headers中包含多個Set-Cookie時，如何獲取呢？如果直接用requests模組： #獲取響應的cookie html = requests.get(u

（轉）VS2015基礎指定一個或多個專案執行 - 心少樸的部落格

慈心積善融學習，技術願為有情學。善心速造多好事，前人栽樹後乘涼。我今於此寫經驗，願見文者得啟發。這個解決方案下，有兩個專案，看到黑體的project了嗎？它就是指定執行的專案。這兩個專案的程式碼分別是，

Scrapy多個spider指定piplines

相關推薦