爬蟲開發9.scrapy框架之遞歸解析和post請求

阿新 • • 發佈：2019-03-16

scheduler sched ike url 什麽 page https 一個 @class

今日概要

遞歸爬取解析多頁頁面數據
scrapy核心組件工作流程
scrapy的post請求發送

今日詳情

1.遞歸爬取解析多頁頁面數據

- 需求：將糗事百科所有頁碼的作者和段子內容數據進行爬取切持久化存儲

- 需求分析：每一個頁面對應一個url，則scrapy工程需要對每一個頁碼對應的url依次發起請求，然後通過對應的解析方法進行作者和段子內容的解析。

實現方案：

1.將每一個頁碼對應的url存放到爬蟲文件的起始url列表（start_urls）中。（不推薦）

2.使用Request方法手動發起請求。（推薦）

代碼展示：

# -*- coding: utf-8 -*-
import scrapy
from qiushibaike.items import QiushibaikeItem
# scrapy.http import Request
class QiushiSpider(scrapy.Spider):
    name = ‘qiushi‘
    allowed_domains = [‘www.qiushibaike.com‘]
    start_urls = [‘https://www.qiushibaike.com/text/‘]

    #爬取多頁
    pageNum = 1 #起始頁碼
    url = ‘https://www.qiushibaike.com/text/page/%s/‘ #每頁的url

    def parse(self, response):
        div_list=response.xpath(‘//*[@id="content-left"]/div‘)
        for div in div_list:
            #//*[@id="qiushi_tag_120996995"]/div[1]/a[2]/h2
            author=div.xpath(‘.//div[@class="author clearfix"]//h2/text()‘).extract_first()
            author=author.strip(‘\n‘)
            content=div.xpath(‘.//div[@class="content"]/span/text()‘).extract_first()
            content=content.strip(‘\n‘)
            item=QiushibaikeItem()
            item[‘author‘]=author
            item[‘content‘]=content

            yield item #提交item到管道進行持久化

         #爬取所有頁碼數據
        if self.pageNum <= 13: #一共爬取13頁（共13頁）
            self.pageNum += 1
            url = format(self.url % self.pageNum)

            #遞歸爬取數據：callback參數的值為回調函數（將url請求後，得到的相應數據繼續進行parse解析），遞歸調用parse函數
            yield scrapy.Request(url=url,callback=self.parse)

2.五大核心組件工作流程：

技術分享圖片

引擎(Scrapy)
用來處理整個系統的數據流處理, 觸發事務(框架核心)
調度器(Scheduler)
用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL（抓取網頁的網址或者說是鏈接）的優先隊列, 由它來決定下一個要抓取的網址是什麽, 同時去除重復的網址
下載器(Downloader)
用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的)
爬蟲(Spiders)
爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面

項目管道(Pipeline)
負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析後，將被發送到項目管道，並經過幾個特定的次序處理數據。

3.post請求發送

- 問題：在之前代碼中，我們從來沒有手動的對start_urls列表中存儲的起始url進行過請求的發送，但是起始url的確是進行了請求的發送，那這是如何實現的呢？

- 解答：其實是因為爬蟲文件中的爬蟲類繼承到了Spider父類中的start_requests（self）這個方法，該方法就可以對start_urls列表中的url發起請求：

  def start_requests(self):
        for u in self.start_urls:
           yield scrapy.Request(url=u,callback=self.parse)

【註意】該方法默認的實現，是對起始的url發起get請求，如果想發起post請求，則需要子類重寫該方法。

　　-方法：重寫start_requests方法，讓其發起post請求：

def start_requests(self):
        #請求的url
        post_url = ‘http://fanyi.baidu.com/sug‘
        # post請求參數
        formdata = {
            ‘kw‘: ‘wolf‘,
        }
        # 發送post請求
        yield scrapy.FormRequest(url=post_url, formdata=formdata, callback=self.parse)

爬蟲開發9.scrapy框架之遞歸解析和post請求

scheduler sched ike url 什麽 page https 一個 @class 今日概要遞歸爬取解析多頁頁面數據 scrapy核心組件工作流程 scrapy的post請求發送今日詳情 1.遞歸爬取解析多頁頁面數據 - 需求：將糗事

12.scrapy框架之遞迴解析和post請求

今日概要遞迴爬取解析多頁頁面資料 scrapy核心元件工作流程 scrapy的post請求傳送今日詳情 1.遞迴爬取解析多頁頁面資料 - 需求：將糗事百科所有頁碼的作者和段子內容資料進行爬取切持久化儲存 - 需求分析：每一個頁面對應一個url，則scrapy工程需要對每一個頁碼

爬蟲開發11.scrapy框架之CrawlSpider操作

__init__ text rac iba dom 工作 pipe ron 表示提問：如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Request模塊遞歸

爬蟲開發8.scrapy框架之持久化操作

需要解析爬蟲 open txt dict fine 入mysql數據庫函數返回今日概要基於終端指令的持久化存儲基於管道的持久化存儲今日詳情 1.基於終端指令的持久化存儲保證爬蟲文件的parse方法中有可叠代類型對象（通常為列表or字典）

scrapy遞迴解析和post請求

遞迴解析遞迴爬取解析多頁頁面資料每一個頁面對應一個url，則scrapy工程需要對每一個頁碼對應的url依次發起請求，然後通過對應的解析方法進行作者和段子內容的解析。實現方案： 1.將每一個頁碼對應的url存放到爬蟲檔案的起始url列表（start_urls）中。（不

python爬蟲學習筆記-scrapy框架之start_url

在使用命令列建立scrapy專案後，會發現在spider.py檔案內會生成這樣的程式碼： name = 'quotes' allowed_domains = ['quotes.toscrape.com'] start_urls = ['http://quotes.toscrape.com

python爬蟲入門(六) Scrapy框架之原理介紹

Scrapy框架 Scrapy簡介 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy 使用了 Twi

回溯法之遞歸回溯和迭代回溯

/* 設R={r1,r2,...rn}是要進行排列的n個元素.Ri=R-{ri}.集合X中元素的全排列記為 Perm(X).(ri)Perm(X)表示在全排列Perm(X)的每一個排列前加上字首ri得到的排列 R的全排列可歸納定義如下: 當n=1時,Perm(R

iOS開發-AFNetworking封裝Get(自定義HTTP Header)和Post請求及文件下載

謝謝 filepath pos cat style -type poe repo eth 前面提到AFNetworking是一個很強大的網絡三方庫，首先你需要引入AFNetworking三方庫；如封裝的有誤還請指出，謝謝！ 1.Get請求 /**Get請求 url 服務器

python開發隨筆補充之遞歸函數與實例

closed code hid 遞歸函數 span art inpu 但我重要遞歸函數遞歸函數的定義：　　1、一個函數在內部調用自己，這就叫遞歸函數　　2、遞歸的層數在python裏面是有限制的　　3、必須要有一個結束條件解耦：要完成一個完整的功能，

PHP開發之遞歸算法的三種實現方法

簡單的靈活運用要掌握發布容易 lob 實現原理出現無限分類遞歸算法對於任何一個編程人員來說，應該都不陌生。因為遞歸這個概念，無論是在PHP語言還是Java等其他編程語言中，都是大多數算法的靈魂。對於PHP新手來說，遞歸算法的實現原理可能不容易理解。但是只要你了

Scrapy框架之基於RedisSpider實現的分散式爬蟲

需求：爬取的是基於文字的網易新聞資料(國內、國際、軍事、航空)。　　基於Scrapy框架程式碼實現資料爬取後，再將當前專案修改為基於RedisSpider的分散式爬蟲形式。一、基於Scrapy框架資料爬取實現 1、專案和爬蟲檔案建立 $ scrapy startproject wangyiPro $

python爬蟲基礎（13：Scrapy框架之架構流程與目錄）

框架對於特別小的爬蟲，一般直接編寫就可以了，但一般面對一個專案級別的爬蟲，都選擇用框架框架可以理解為一個等你填坑的程式碼： 1. 為你編寫好那些必須的、重複的程式碼 2. 為你模組化好每一個元件，自動建立元件之間的聯絡，這樣就方便使用者清晰瞭解它的

Scrapy框架之基於RedisSpider實現的分布式爬蟲

.com ont 如何 test head 下載 obj gen 好的需求：爬取的是基於文字的網易新聞數據(國內、國際、軍事、航空)。　　基於Scrapy框架代碼實現數據爬取後，再將當前項目修改為基於RedisSpider的分布式爬蟲形式。一、基於Scrapy框架數據

python爬蟲（四）---scrapy框架之騰訊招聘專案實戰

目的：功能就是翻頁請求步驟：如下爬取職位名，職位連結等  職位名：  職位詳情連結：  職位類別：  人數:  地點:  釋出時間：下一步驟：寫爬蟲：tencent.py檔案寫方法一：或者這樣寫

《零基礎入門學習Python》第063講：論一隻爬蟲的自我修養11：Scrapy框架之初窺門徑

上一節課我們好不容易裝好了 Scrapy，今天我們就來學習如何用好它，有些同學可能會有些疑惑，既然我們懂得了Python編寫爬蟲的技巧，那要這個所謂的爬蟲框架又有什麼用呢？其實啊，你懂得Python寫爬蟲的程式碼，好比你懂武功，會打架，但行軍打仗你不行，畢竟敵人是千軍萬馬，縱使你再強，

python爬蟲Scrapy框架之中間件

gin 關於 pre ces alt python類分享新建爬蟲 Downloader Middleware處理的過程主要在調度器發送requests請求的時候以及網頁將response結果返回給spider的時候, 所以說下載中間件是結余Scrapy的request

爬蟲Scrapy框架之學習使用（三）：訊號（Signals）

""" Extension for collecting core stats like items scraped and start/finish times """ import datetime

python爬蟲Scrapy框架之增量式爬蟲

obj lib show prop open html back extract hot 一增量式爬蟲什麽時候使用增量式爬蟲：增量式爬蟲：需求當我們瀏覽一些網站會發現，某些網站定時的會在原有的基礎上更新一些新的數據。如一些電影網站會實時更新最近熱門的電影。那麽，當我

python3學習之遞歸函數

python##遞歸函數 #自己調用自己 def t(a): if a == 1: return 1 return a + t(a-1) b = t(7) print(b) #計算1+2+3+4+5+6+7 的和python3學習之遞歸函數

爬蟲開發9.scrapy框架之遞歸解析和post請求

相關推薦