1. 程式人生 > >scrapy基礎框架 pipelines 去重

scrapy基礎框架 pipelines 去重

匯入DropItem模組用來刪除

from scrapy.exceptions import DropItem
class CsdnPipeline(object):
    def __init__(self):
        self.book_set = set()
        def process_item(self, item, spider):
            name = item['title']
            if name in self.book_set:
                raise DropItem("有: %s 了" % item)
            else:
                self.book_set.add(name)
            return item

大概思路就是init()方法來初始化物件
然後判斷獲取內容是否已經出現過
如果出現過就刪除
沒有出現過就繼續新增