網路爬蟲之Scrapy實戰二：爬取多個網頁

阿新 • • 發佈：2019-01-20

前面介紹的scrapy爬蟲只能爬取單個網頁。如果我們想爬取多個網頁。比如網上的小說該如何如何操作呢。比如下面的這樣的結構。是小說的第一篇。可以點選返回目錄還是下一頁

對應的網頁程式碼：

我們再看進入後面章節的網頁，可以看到增加了上一頁

對應的網頁程式碼

通過對比上面的網頁程式碼可以看到. 上一頁，目錄，下一頁的網頁程式碼都在<div>下的<a>元素的href裡面。不同的是第一章只有2個<a>元素，從二章開始就有3個<a>元素。因此我們可以通過<div>下<a>元素的個數來判決是否含有上一頁和下一頁的頁面。程式碼如下

最終得到生成的網頁連結。並呼叫Request重新申請這個網頁的資料

那麼在pipelines.py的檔案中。我們同樣需要修改下儲存的程式碼。如下。可以看到在這裡就不是用json.而是直接開啟txt檔案進行儲存

class Test1Pipeline(object):
    def __init__(self):
        self.file=''
    def process_item(self, item, spider):
        self.file=open(r'E:\scrapy_project\xiaoshuo.txt','wb')
        self 
.file.write(item['content'])
        self.file.close()
        return item

完整的程式碼如下：在這裡需要注意兩次yield的用法。第一次yield後會自動轉到Test1Pipeline中進行資料儲存，儲存完以後再進行下一次網頁的獲取。然後通過Request獲取下一次網頁的內容

# -*- coding:UTF-8 -*- ＃
from scrapy.spiders import Spider
from scrapy.selector import Selector
from scrapy.http import Request

from  
test1.items import Test1Item
from scrapy.utils.response import open_in_browser

class testSpider(Spider):
    name="test1"
allowd_domains=['http://www.xunsee.com']
    start_urls=["http://www.xunread.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615/1.shtml"]
    def parse(self, response):
        init_urls="http://www.xunread.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615"
sel=Selector(response)
        context=''
content=sel.xpath('//div[@id="content_1"]/text()').extract()
        for c in content:
            context=context+c.encode('utf-8')
        items=Test1Item()
        items['content']=context
        count = len(sel.xpath('//div[@id="nav_1"]/a').extract())
        if count > 2:
            next_link=sel.xpath('//div[@id="nav_1"]/a')[2].xpath('@href').extract()
        else:
            next_link=sel.xpath('//div[@id="nav_1"]/a')[1].xpath('@href').extract()
        yield items
        for n in next_link:
            url=init_urls+'/'+n
            print url
            yield Request(url,callback=self.parse)

網路爬蟲之Scrapy實戰二：爬取多個網頁

網路爬蟲之Scrapy實戰二：爬取多個網頁

python 模擬滑鼠點選+bs4爬取多個網頁新聞（題目、媒體、日期、內容、url）

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

scrapy爬蟲框架（三）：爬取桌布儲存並命名

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

爬蟲二：爬取智聯招聘職位資訊

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

Python網路爬蟲之scrapy爬蟲的基本使用

Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時

18、python網路爬蟲之Scrapy框架中的CrawlSpider詳解

python 爬蟲學習三（Scrapy 實戰，豆瓣爬取電影資訊）

Python爬蟲——實戰三：爬取蘇寧易購的商品價格(渲染引擎方法)

Python爬蟲——實戰一：爬取京東產品價格(逆向工程方法)

python爬蟲十二：爬取快速ip代理，攻破503

python3網絡爬蟲（2.1）：爬取堆糖美女

學習了一個月python，進行實戰一下：爬取文章標題和正文並儲存的程式碼

Python爬蟲練手小專案：爬取窮遊網酒店資訊

Java網路爬蟲（七）--實現定時爬取與IP代理池

網路爬蟲之Scrapy實戰二：爬取多個網頁

相關推薦