scrapy通過自定義類給爬取的url去重

阿新 • • 發佈：2018-11-05

之前我們是通過在parse函式裡設定集合來解決url去重的問題。

首先先在根目錄中建立一個新的duplication的py檔案，在from scrapy.dupefilter import RFPDupeFilter，在RFPDupeFilter原始碼中把BaseDupeFilter類複製到新建的duolication中。

class RepeatFilter(object):
    def __init__(self):
        self.visited_set = set()
    @classmethod
    def from_settings(cls, settings):#用類方法建立RepeatFilter類物件返回的是RepeatFliter()
        return cls()

    def request_seen(self, request):#過濾url的方法
        if request.url in self.visited_set:
            return True
        else:
            self.visited_set.add(request.url)
            return False

    def open(self):#爬蟲開始
        print("---開始爬取---")
        
    def close(self, reason):  # 爬蟲結束
        print("---爬取結束---")

    def log(self, request, spider):  # 記錄日誌
        pass

在request_open方法中把過濾的url方法寫好

執行順序是

1、from_setting

2、__init__

3、open

4、log

5、close

最後別忘了要再settings.py檔案中新增一條DUPEFILTER_CLASS = "shan.duplication.RepeatFilter"

預設的是DUPEFILTER_CLASS = "shan.dupefilter.RFPDupeFilter"

(venv) D:\shan>scrapy crawl chouti --nolog
D:\shan\shan\spiders\chouti.py:9: ScrapyDeprecationWarning: Module `scrapy.dupefilter` is deprecated, use `scrapy.dupefilters` instead
  from scrapy.dupefilter import RFPDupeFilter
---開始爬取---
https://dig.chouti.com/
https://dig.chouti.com/all/hot/recent/2
https://dig.chouti.com/all/hot/recent/3
https://dig.chouti.com/all/hot/recent/8
https://dig.chouti.com/all/hot/recent/5
https://dig.chouti.com/all/hot/recent/7
https://dig.chouti.com/all/hot/recent/6
https://dig.chouti.com/all/hot/recent/10
https://dig.chouti.com/all/hot/recent/9
https://dig.chouti.com/all/hot/recent/4
---爬取結束---

scrapy通過自定義類給爬取的url去重

之前我們是通過在parse函式裡設定集合來解決url去重的問題。首先先在根目錄中建立一個新的duplication的py檔案，在from scrapy.dupefilter import RFPDupeFilter，在RFPDupeFilter原始碼中把BaseDupeFilter類複製到新建

Scrapy框架自定義pipeline兩層下載路徑去下載圖片，關於item傳值的問題

自定義兩層路徑的時候，item是需要經過傳值的，爬蟲函式如下 import scrapy from urllib.request import urljoin from ..items import OffmymindspiderItem class OffmymindSpider(scra

(5).去重url，爬取和去重分離

日誌 %s .com 生成 can 實例對象記錄日誌 lse 定制 # 新建py文件：duplication.py # 我們新建了一個文件，專門用來去重。在scrapy源碼中已經把結構寫好了，我們只需復制粘貼過來 from scrapy.dupefilter impor

python爬取連結去重

from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = url

一句python，一句R︱列表、元組、字典、資料型別、自定義模組匯入（格式、去重）

先學了R，最近剛剛上手python,所以想著將python和R結合起來互相對比來更好理解python。最好就是一句python，對應寫一句R。pandas中有類似R中的read.table的功能，而且很像。———————————————————————————————————

spring專案中通過自定義applicationContext工具類獲取到applicationContext上下文物件

spring專案在伺服器啟動的時候 spring容器中就已經被建立好了各種物件，在我們需要使用的時候可以進行呼叫. 工具類程式碼如下 import org.springframework.beans.BeansException; import org.springframewo

C#自定義類中操作主窗體控制元件，通過委託實現

主窗體中包含一個標籤label1和一個按鈕button1 程式碼如下： public void ChangeLabel(string text) { label1.Text = text; } private void button1_Click(o

自定義類通過屬性過濾資料（小技巧）

get_class_vars函式是獲取類的屬性，引數是字串，返回key-value陣列，foreach ($this as $k => &$v) 這樣的就不用一個一個$this->屬性寫了，&是取地址也就是C語言的指標

通過scrapy，從模擬登入開始爬取知乎的問答資料

這篇文章將講解如何爬取知乎上面的問答資料。首先，我們需要知道，想要爬取知乎上面的資料，第一步肯定是登入，所以我們先介紹一下模擬登入：先說一下我的思路： 1.首先我們需要控制登入的入口，重寫start_requests方法。來控制到這個入口之後，使用

net core天馬行空系列：一個介面多個實現類，利用mixin技術通過自定義服務名，實現精準屬性注入

系列目錄 1.net core天馬行空系列：原生DI+AOP實現spring boot註解式程式設計 2.net core天馬行空系列：泛型倉儲和宣告式事物實現最優雅的crud操作哈哈哈哈，大家好，我就是高產似母豬的三合。日常開發中，我們常會遇到這樣的

android：如何通過自定義工程模板讓新建的工程都默認支持lambda表達式

wan tro idt ref height 代碼 spa span oid 首先參考這篇文章：自定義Android Studio工程模板，了解如何自定義模板然後結合我們上一篇文章 android: 在android studio中使用retrolambda的步驟的要點，修

玩轉angularJs——通過自定義ng-model，不僅僅只是input可以有雙向綁定

spa ase write blur when mob ron lin for angularJs雙向綁定特性在開發中很方便很實用，但是由於ng-model一般只能掛在input上，因此我們需要自定義ng-model來在div等元素上使用該標簽。自定義指令： 1

自定義類異常

http image log 技術分享分享 cnblogs 能夠 ima img 只放幾張圖片吧，自己能夠看明白就行了。 1. 2. 3. 4. 自定義類異常

scrapy實戰1分布式爬取有緣網：

req 年齡 dict ems arch last rem pen war 直接上代碼： items.py 1 # -*- coding: utf-8 -*- 2 3 # Define here the models for your scraped items

自定義類型轉換器之TypeConverter

can con ont rto 方法 contex int 讓我 tor C#提供了很多類型轉換的方法如ConvertToInt、int.Parse、int.tryParse等等,這些方法都能將一個C#的基本數據類型轉換成另一個C#基本數據類型.那麽.既然如此,C#肯定

Lambda語句中創建自定義類型時，也可指定某種特定類型，方法是在new與{}之間寫上類型名稱

特定 pan sel lambda語句 lam {} where distinct select 如： var fc =...ChildFath = fc.Select(c => new Child_Father { child = c.child, father =

自定義類型的乘法口訣表

定義函數 stdio.h void ++ define oid 之前 scan warnings 之前有寫過乘法口訣表，這次利用函數，做一個可以自定義函數的代碼。 #define _CRT_SECURE_NO_WARNINGS 1#include<stdio.h>

Java自定義類加載和ClassPath類加載器

訪問 pub 需要委派 iat 定義 pro logs repl 1 自定義類加載器：實現規則：自定義類加載器，需要重寫findClass，然後通過調用loadClass進行類加載（loadClass通過遞歸實現類的雙親委派加載） package com.daxin

Hadoop學習筆記—5.自定義類型處理手機上網日誌

clas stat 基本手機上網 oop interrupt pil 依然手機號碼一、測試數據：手機上網日誌 1.1 關於這個日誌　　假設我們如下一個日誌文件，這個文件的內容是來自某個電信運營商的手機上網日誌，文件的內容已經經過了優化，格式比較規整，便於學習研究。

list<自定義類>排序方法

實現 onerror var div lis rabl bsp 邏輯 int 類實現接口IComparable //實現接口的自定義類 //此接口規定了一個返回類型int的方法， //public int CompareTo(object obj) //返回1時thi

scrapy通過自定義類給爬取的url去重

相關推薦