18.增量式爬蟲

阿新 • • 發佈：2020-07-11

18.增量式爬蟲

增量式爬蟲

引言：

當我們在瀏覽相關網頁的時候會發現，某些網站定時會在原有網頁資料的基礎上更新一批資料，例如某電影網站會實時更新一批最近熱門的電影。小說網站會根據作者創作的進度實時更新最新的章節資料等等。那麼，類似的情景，當我們在爬蟲的過程中遇到時，我們是不是需要定時更新程式以便能爬取到網站中最近更新的資料呢？

一.增量式爬蟲

概念：通過爬蟲程式監測某網站資料更新的情況，以便可以爬取到該網站更新出的新資料。
如何進行增量式的爬取工作：
- 在傳送請求之前判斷這個URL是不是之前爬取過
- 在解析內容後判斷這部分內容是不是之前爬取過
- 寫入儲存介質時判斷內容是不是已經在介質中存在
  - 分析：
    不難發現，其實增量爬取的核心是去重
    
    ，至於去重的操作在哪個步驟起作用，只能說各有利弊。在我看來，前兩種思路需要根據實際情況取一個（也可能都用）。第一種思路適合不斷有新頁面出現的網站，比如說小說的新章節，每天的最新新聞等等；第二種思路則適合頁面內容會更新的網站。第三個思路是相當於是最後的一道防線。這樣做可以最大程度上達到去重的目的。
去重方法
- 將爬取過程中產生的url進行儲存，儲存在redis的set中。當下次進行資料爬取時，首先對即將要發起的請求對應的url在儲存的url的set中做判斷，如果存在則不進行請求，否則才進行請求。
- 對爬取到的網頁內容進行唯一標識的制定，然後將該唯一表示儲存至redis的set中。當下次爬取到網頁資料的時候，在進行持久化儲存之前，首先可以先判斷該資料的唯一標識在redis的set中是否存在，在決定是否進行持久化儲存。

二.專案案例

- 需求：爬取4567tv網站中所有的電影詳情資料。

爬蟲檔案：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

from redis import Redis
from incrementPro.items import IncrementproItem
class MovieSpider(CrawlSpider):
    name = 'movie'
    # allowed_domains = ['www.xxx.com'] 

    start_urls = ['http://www.4567tv.tv/frim/index7-11.html']

    rules = (
        Rule(LinkExtractor(allow=r'/frim/index7-\d+\.html'), callback='parse_item', follow=True),
    )
    #建立redis連結物件
    conn = Redis(host='127.0.0.1',port=6379)
    def parse_item(self, response):
        li_list = response.xpath('//li[@class="p1 m1"]')
        for li in li_list:
            #獲取詳情頁的url
            detail_url = 'http://www.4567tv.tv'+li.xpath('./a/@href').extract_first()
            #將詳情頁的url存入redis的set中
            ex = self.conn.sadd('urls',detail_url)
            if ex == 1:
                print('該url沒有被爬取過，可以進行資料的爬取')
                yield scrapy.Request(url=detail_url,callback=self.parst_detail)
            else:
                print('資料還沒有更新，暫無新資料可爬取！')

    #解析詳情頁中的電影名稱和型別，進行持久化儲存
    def parst_detail(self,response):
        item = IncrementproItem()
        item['name'] = response.xpath('//dt[@class="name"]/text()').extract_first()
        item['kind'] = response.xpath('//div[@class="ct-c"]/dl/dt[4]//text()').extract()
        item['kind'] = ''.join(item['kind'])
        yield item

管道檔案：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

from redis import Redis
class IncrementproPipeline(object):
    conn = None
    def open_spider(self,spider):
        self.conn = Redis(host='127.0.0.1',port=6379)
    def process_item(self, item, spider):
        dic = {
            'name':item['name'],
            'kind':item['kind']
        }
        print(dic)
        self.conn.lpush('movieData',dic)
        return item

- 需求：爬取糗事百科中的段子和作者資料。

爬蟲檔案：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from incrementByDataPro.items import IncrementbydataproItem
from redis import Redis
import hashlib
class QiubaiSpider(CrawlSpider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    rules = (
        Rule(LinkExtractor(allow=r'/text/page/\d+/'), callback='parse_item', follow=True),
        Rule(LinkExtractor(allow=r'/text/$'), callback='parse_item', follow=True),
    )
    #建立redis連結物件
    conn = Redis(host='127.0.0.1',port=6379)
    def parse_item(self, response):
        div_list = response.xpath('//div[@id="content-left"]/div')

        for div in div_list:
            item = IncrementbydataproItem()
            item['author'] = div.xpath('./div[1]/a[2]/h2/text() | ./div[1]/span[2]/h2/text()').extract_first()
            item['content'] = div.xpath('.//div[@class="content"]/span/text()').extract_first()

            #將解析到的資料值生成一個唯一的標識進行redis儲存
            source = item['author']+item['content']
            source_id = hashlib.sha256(source.encode()).hexdigest()
            #將解析內容的唯一表示儲存到redis的data_id中
            ex = self.conn.sadd('data_id',source_id)

            if ex == 1:
                print('該條資料沒有爬取過，可以爬取......')
                yield item
            else:
                print('該條資料已經爬取過了，不需要再次爬取了!!!')

管道檔案：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

from redis import Redis
class IncrementbydataproPipeline(object):
    conn = None

    def open_spider(self, spider):
        self.conn = Redis(host='127.0.0.1', port=6379)

    def process_item(self, item, spider):
        dic = {
            'author': item['author'],
            'content': item['content']
        }
        # print(dic)
        self.conn.lpush('qiubaiData', dic)
        return item

18.增量式爬蟲

18.增量式爬蟲增量式爬蟲引言：當我們在瀏覽相關網頁的時候會發現，某些網站定時會在原有網頁資料的基礎上更新一批資料，例如某電影網站會實時更新一批最近熱門的電影。小說網站會根據作者創作的進度實時

增量式爬蟲 Scrapy-Rredis 詳解及案例

1、建立scrapy專案命令 scrapy startproject myproject 2、在專案中建立一個新的spider檔案命令：

scrapy框架增量式爬蟲

增量式爬蟲概念：監測網站資料更新的情況，只會爬取網站最新更新出來的資料。

CrawlSpider、分散式、增量式

ImagesPipeline ImagesPipeline：專門用作於二進位制資料下載和持久化儲存的管道類。建議在爬蟲檔案中進行資料解析，不建議在爬蟲檔案中直接進行資料儲存。

git的原理雜湊演算法SHA1 / 快照流式VS增量式 / 提交物件 / 分支管理指標移動

一、雜湊雜湊是一個系列的加密演算法，不可逆根據一個雜湊的密文無法得到明文

Unity擴充套件 AssetBundle 增量式打包

專案後期 AB資源眾多全量打包導致太過費時. 於是擴充套件打包方法,自動化選取和增量式,區域性打包

位置式\增量式PID、模糊PID、BRF-PID的Matlab實現以及封裝

位置式\\增量式PID、模糊PID、BRF-PID的Matlab實現以及封裝位置式\\增量式PID、模糊PID、BRF-PID的Matlab實現以及封裝簡要Model類Strategy 類PID_Strategy類Fuzzy_PID_Strategy類BRF_PID_Strategy類測試

18-推導式

課程：推導式目標列表推導式字典推導式集合推導式一. 列表推導式作用：用一個表示式建立一個有規律的列表或控制一個有規律列表。

Sqoop從MySQL向Hive增量式匯入資料報錯：Exception in thread "main" java.lang.NoClassDefFoundError: org/json/JSONObject

1、問題描述：（1）問題示例： Step1:建立作業： [Hadoop@master TestDir]$ sqoop job \\> --create myjob_1 \\> -- import \\> --connect \"jdbc:mysql://master:3306/source?useSSL=false&user=Hiv

python 爬蟲實現增量去重和定時爬取例項

前言：在爬蟲過程中，我們可能需要重複的爬取同一個網站，為了避免重複的資料存入我們的資料庫中通過實現增量去重去解決這一問題本文還針對了那些需要實時更新的網站增加了一個定時爬取的功能；

18天, 響應式概念, 媒體查詢適配不同樣式, 響應式字型, 響應式圖片, 百分比佈局, 響應式的優缺點

day 18 一、響應式的概念 2010年5月，由國外著名網頁設計師 Ethan Marcotte 所提出。

python爬蟲 | 帶你入門布式程序爬蟲

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

java8新特性,集合處理18式

技術標籤：問題大全java開發個人筆記第一式: 集合物件,根據其中的一個欄位,獲取這個欄位值最大的那個物件. FullReduceDataVo vo= voList.stream().max(Comparator.comparing(FullReduceDataVo::getDiscount)).g

地道京式小吃，稻香村京八件糕點18味大禮盒4斤89元

地道京式小吃，稻香村京八件糕點18味大禮盒4斤報價109元，下單立減10元，限時限量10元券，實付89元包郵，領券併購買。18種口味4斤重，多口味隨機發。

18.python爬蟲—Pytesseract

技術標籤：python爬蟲python爬蟲 18.1 Tesseract 定義： Tesseract是一個將影象翻譯成文字的OCR庫(光學文字識別，Optical Character Recognition) 安裝：

Python爬蟲之scrapy高階(全站爬取,分散式,增量爬蟲)

目錄1 scrapy全站爬取1.1 全站爬取簡介1.2 CrawlSpider1.2.1 基本講解1.2.2 使用CrawlSpider1.2.2.1 爬蟲檔案1.2.2.2 items.py檔案2 分散式爬蟲2.1 分散式爬蟲概念2.2 環境安裝2.3 使用方法2.3.1 CrawlSpider配置2.

陰陽師SP階式神“神墮八岐大蛇”CG預告 5月18日上線

今日（5月7日），陰陽師官方公佈全新SP階式神“神墮八岐大蛇（CV：夏磊 / 宮野真守）”CG先行預告，式神將於5月18日降臨平安京！

Scrum （迭代式增量軟體開發過程）

Scrum是迭代式增量軟體開發過程，通常用於敏捷軟體開發。Scrum包括了一系列實踐和預定義角色的過程骨架。Scrum中的主要角色包括同項目經理類似的Scrum主管角色負責維護過程和任務，產品負責人代表利益所有者，開發團

手寫一個簡單的響應式柵格

前言前段時間一衝動搞了個騰訊雲主機，最簡單的配置那種。買完之後一陣折騰，想著不如整個部落格，於是各種部落格搭建方案，看著好多漂亮的部落格，毅然決定搭建一個自己的部落格，正好自己是一個前端新手，寫一個這

TiDB 2.1.18 釋出，分散式 NewSQL 資料庫

TiDB 2.1.18 已經發布了，該版本更新內容如下： TiDB SQL 優化器修復 Feedback 切分查詢範圍出錯的問題 #12172

18.增量式爬蟲

相關推薦