爬蟲-Scrapy（三）翻頁的實現

阿新 • • 發佈：2020-12-27

1.翻頁的實現

上一篇實現了單頁的爬取，再加3行程式碼就可以實現翻頁了。

基本思路是查詢頁面中‘下一頁’按鈕對應的href地址，然後回撥parse方法實現迴圈，直至找不到'下一頁'的連結為止。

程式碼：

import scrapy
import re
from scpy1.items import Scpy1Item

class Qiubai1Spider(scrapy.Spider):
    name = 'qiubai1'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/ 
']
    domain_url = 'https://www.qiushibaike.com'

    def parse(self, response):
        #獲取笑話列表
        joke_list = response.xpath("//div[contains(@class, 'article block')]")
        #解析笑話內容
        for joke in joke_list:
            # 解析作者、內容
            author = joke.xpath("./div/a[2]/h2/text()").extract_first()
            content  
= joke.xpath(".//div[@class='content']/span/text()").extract()
            # 封裝資料至item
            item = Scpy1Item()
            item['author'] =  re.sub("[\n]", "", author)
            item['content'] = re.sub("[\n]", "", ','.join(content))
            yield item

        ## 獲取下一頁url
        next_url = response.xpath(" 
//span[@class='next']/../@href").extract_first()  # 找到按鈕'下一頁'的href
        ## 如果下一頁url存在， 回撥parse方法處理
        if next_url:
            yield scrapy.Request(self.domain_url + next_url, callback=self.parse)

2.匯出到檔案

執行成功後，會發現item資料量比較多了，這次不再print ，而是把資料匯出至csv檔案檢視。用到的命令是：

Scrapy crawl qiubai1 -o qiubai1.csv

匯出的中文是亂碼，這個時候需要改下settings.py 檔案，設定下匯出編碼

# Feed export encoding
FEED_EXPORT_ENCODING = 'gb18030'

網上可能有些寫utf-8的，不行的，我的都是自己測試過的。

爬蟲-Scrapy（三）翻頁的實現

1.翻頁的實現上一篇實現了單頁的爬取，再加3行程式碼就可以實現翻頁了。基本思路是查詢頁面中‘下一頁’按鈕對應的href地址，然後回撥parse方法實現迴圈，直至找不到\'下一頁\'的連結為止。

爬蟲-Scrapy（二）爬取糗百笑話-單頁

技術標籤：爬蟲-Scrapy爬蟲python 1. Scrapy 設定檔案修改配置檔案就是專案根路徑下的 settings,py ,改下面的配置資訊

TCP協議（三）之Windows實現

tcp 程式設計一般的步驟:server(服務端)1.new 個 socket2.bind （IP，port）3.listen，等待客戶端的連線4.accept 接受客戶端的連線5.接收(recv) 傳送資料(send)6.關閉連線

測試平臺開發（三）後端實現註冊登入功能

一、建立使用者模組的應用 Django官網寫的是使用命令列執行python manage.py startapp [ApplicationName] 來建立應用，但使用工具會更方便而且還有智慧提示。

BaikalDB技術實現內幕（三）--代價模型實現

此文轉載自：https://my.oschina.net/BaikalDB/blog/4715063 大咖揭祕Java人都栽在了哪？點選免費領取《大廠面試清單》，攻克面試難關~>>>

Flink實戰（101）：雙流join（三）雙流中實現Inner Join、Left Join與Right Join

來源：https://mp.weixin.qq.com/s/mO2h_HNzx2rwFnOXlRDAJQ 簡介之前文章中提到JoinedStream與CoGroupedStream，例如下列程式碼：

爬蟲筆記（三）爬取‘糗事百科’熱圖板塊所有圖

目的：爬取‘糗事百科’熱圖板塊所有圖在網頁response中可以發現，每個圖是一個沒有http開頭的、以.jpg結尾的連結，在這個連結前邊補上http可以成功訪問該圖片。

Redis從入門到精通（三）Redis如何實現的主從架構

接著上一篇，前面兩篇我總結了Redis安裝和C#中如何使用redis 。接下來講講Redis 的主從複製以及主從複製的架構下C#中如何呼叫。

（三）用go實現平衡二叉樹

本篇，我們用go簡單的實現平衡二叉查詢樹。具體原理參考大佬部落格即可：AVL樹(一)之圖文解析和 C語言的實現

高程讀後感（三）— JS物件實現繼承的6種模式及其優缺點

目錄1.原型鏈1.1.預設的原型1.2.原型和例項的關係1.3.原型鏈的問題2.借用建構函式2.1.傳遞引數2.2.借用建構函式的問題3.組合繼承4.原型式繼承5.寄生式繼承6.寄生組合式繼承小結

PHP資料結構（三）——運用棧實現括號匹配

PHP資料結構（三）——運用棧實現括號匹配（原創內容，轉載請註明來源，謝謝）

手把手教你用 Node 實現 HTTP 協議（三）

手把手教你用 Node 實現 HTTP 協議（三）上一章介紹瞭如何解析 HTTP 請求報文，這一章我們來講解如何進行報文的收發和 TCP 連線的建立。

Unity實現俄羅斯方塊（三）

本文例項為大家分享了Unity實現俄羅斯方塊第3部分，供大家參考，具體內容如下

手寫SpringMVC框架（三）-------具體方法的實現

續接前文手寫SpringMVC框架（二）結構開發設計本節我們來開始具體方法的程式碼實現。

從零開始手寫 mybatis （三）jdbc pool 從零實現資料庫連線池

前景回顧第一節從零開始手寫 mybatis（一）MVP 版本中我們實現了一個最基本的可以執行的 mybatis。

Vue：使用vue-cli實現 todolist，自動新增一行，自動刪除一行（三）

src\\TodiList.vue <template> <div id=\"app\"> <input v-model=\"inputValue\" /> <button @click=\"handleSubmit\">提交</button>

Spring Boot+JPA實現DDD（三）

上一篇我們有了Product這個聚合根。前面已經分析過，一個商品可以包含一個或多個課程明細。課程明細可以單獨編輯，有自己的生命週期，課程明細也是一個聚合根。

redis整合spring（三）實現一個註解快取

介面 @Component @Aspect public class CacheAspect { @Autowired private RedisTemplate redisTemplate; @Pointcut(\"@annotation(com.jm.cache.redis.annotation.NeteaseCache)\")

基於ROS搭建簡易軟體框架實現ROV水下目標跟蹤（三）--軟體框架簡述

本文主要介紹ROV水下目標跟蹤的簡易demo軟體實現的思路。一、視覺模組視覺模組的任務為：通過單目相機識別目標，並計算目標中心位置與影象中心位置的偏差，通過PID控制器得到控制量。demo中得到的控制量可

OpenStack設計與實現（三）KVM和QEMU淺析

2019獨角獸企業重金招聘Python工程師標準>>> 一、KVM概述 KVM是Kernel-based Virtual Machine的縮寫，即基於linux核心的虛擬機器，是一種的完全虛擬化的解決方案，也就是說普通的作業系統不

爬蟲-Scrapy（三） 翻頁的實現

相關推薦

爬蟲-Scrapy（三）翻頁的實現