scrapy框架持久化存儲

阿新 • • 發佈：2019-03-08

終端 spa sele you base64 strip 取出 extra esp

1.概要

基於終端指令的持久化存儲
基於管道的持久化存儲

2.詳情

1.基於終端指令的持久化存儲

保證爬蟲文件的parse方法中有可叠代類型對象（通常為列表or字典）的返回，該返回值可以通過終端指令的形式寫入指定格式的文件中進行持久化操作。

執行輸出指定格式進行存儲：將爬取到的數據寫入不同格式的文件中進行存儲
    scrapy crawl 爬蟲名稱 -o xxx.json
    scrapy crawl 爬蟲名稱 -o xxx.xml
    scrapy crawl 爬蟲名稱 -o xxx.csv

2.基於管道的持久化存儲

scrapy框架中已經為我們專門集成好了高效、便捷的持久化操作功能，我們直接使用即可。要想使用scrapy的持久化操作功能，我們首先來認識如下兩個文件：

items.py：數據結構模板文件。定義數據屬性。
pipelines.py：管道文件。接收數據（items），進行持久化操作。

持久化流程：
    1.爬蟲文件爬取到數據後，需要將數據封裝到items對象中。
    2.使用yield關鍵字將items對象提交給pipelines管道進行持久化操作。
    3.在管道文件中的process_item方法中接收爬蟲文件提交過來的item對象，然後編寫持久化存儲的代碼將item對象中存儲的數據進行持久化存儲
    4.settings.py配置文件中開啟管道

(1).小試牛刀：將糗事百科首頁中的段子和作者數據爬取下來，然後進行持久化存儲

- 爬蟲文件：qiubaiDemo.py

# -*- coding: utf-8 -*-
import scrapy
from secondblood.items import SecondbloodItem

class QiubaidemoSpider(scrapy.Spider):
    name = ‘qiubaiDemo‘
    allowed_domains = [‘www.qiushibaike.com‘]
    start_urls = [‘http://www.qiushibaike.com/‘]

    def parse(self, response):
        odiv  
= response.xpath(‘//div[@id="content-left"]/div‘)
        for div in odiv:
            # xpath函數返回的為列表，列表中存放的數據為Selector類型的數據。我們解析到的內容被封裝在了Selector對象中，需要調用extract()函數將解析的內容從Selecor中取出。
            author = div.xpath(‘.//div[@class="author clearfix"]//h2/text()‘).extract_first()
            author = author.strip(‘\n‘)#過濾空行
            content = div.xpath(‘.//div[@class="content"]/span/text()‘).extract_first()
            content = content.strip(‘\n‘)#過濾空行

            #將解析到的數據封裝至items對象中
            item = SecondbloodItem()
            item[‘author‘] = author
            item[‘content‘] = content

            yield item#提交item到管道文件（pipelines.py）

- items文件：items.py

import scrapy

class SecondbloodItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    author = scrapy.Field() #存儲作者
    content = scrapy.Field() #存儲段子內容

- 管道文件：pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class SecondbloodPipeline(object):
    #構造方法
    def __init__(self):
        self.fp = None  #定義一個文件描述符屬性
　　#下列都是在重寫父類的方法：
    #開始爬蟲時，執行一次
    def open_spider(self,spider):
        print(‘爬蟲開始‘)
        self.fp = open(‘./data.txt‘, ‘w‘)

　　 #因為該方法會被執行調用多次，所以文件的開啟和關閉操作寫在了另外兩個只會各自執行一次的方法中。
    def process_item(self, item, spider):
        #將爬蟲程序提交的item進行持久化存儲
        self.fp.write(item[‘author‘] + ‘:‘ + item[‘content‘] + ‘\n‘)
        return item

    #結束爬蟲時，執行一次
    def close_spider(self,spider):
        self.fp.close()
        print(‘爬蟲結束‘)

- 配置文件：settings.py

#開啟管道
ITEM_PIPELINES = {
    ‘secondblood.pipelines.SecondbloodPipeline‘: 300, #300表示為優先級，值越小優先級越高
}

(2).基於mysql的管道存儲

小試牛刀案例中，在管道文件裏將item對象中的數據值存儲到了磁盤中，如果將item數據寫入mysql數據庫的話，只需要將上述案例中的管道文件修改成如下形式：

- pipelines.py文件

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

#導入數據庫的類
import pymysql
class QiubaiproPipelineByMysql(object):

    conn = None  #mysql的連接對象聲明
    cursor = None#mysql遊標對象聲明
    def open_spider(self,spider):
        print(‘開始爬蟲‘)
        #鏈接數據庫
        self.conn = pymysql.Connect(host=‘127.0.0.1‘,port=3306,user=‘root‘,password=‘123456‘,db=‘qiubai‘)
    #編寫向數據庫中存儲數據的相關代碼
    def process_item(self, item, spider):
        #1.鏈接數據庫
        #2.執行sql語句
        sql = ‘insert into qiubai values("%s","%s")‘%(item[‘author‘],item[‘content‘])
        self.cursor = self.conn.cursor()
        #執行事務
        try:
            self.cursor.execute(sql)
            self.conn.commit()
        except Exception as e:
            print(e)
            self.conn.rollback()

        return item
    def close_spider(self,spider):
        print(‘爬蟲結束‘)
        self.cursor.close()
        self.conn.close()

- settings.py

ITEM_PIPELINES = {
    ‘qiubaiPro.pipelines.QiubaiproPipelineByMysql‘: 300,
}

(3). 基於redis的管道存儲

小試牛刀案例中，在管道文件裏將item對象中的數據值存儲到了磁盤中，如果將item數據寫入redis數據庫的話，只需要將上述案例中的管道文件修改成如下形式：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import redis

class QiubaiproPipelineByRedis(object):
    conn = None
    def open_spider(self,spider):
        print(‘開始爬蟲‘)
        #創建鏈接對象
        self.conn = redis.Redis(host=‘127.0.0.1‘,port=6379)
    def process_item(self, item, spider):
        dict = {
            ‘author‘:item[‘author‘],
            ‘content‘:item[‘content‘]
        }
        #寫入redis中
        self.conn.lpush(‘data‘, dict)
        return item

- pipelines.py文件

ITEM_PIPELINES = {
    ‘qiubaiPro.pipelines.QiubaiproPipelineByRedis‘: 300,
}

- 面試題：如果最終需要將爬取到的數據值一份存儲到磁盤文件，一份存儲到數據庫中，則應該如何操作scrapy？　　
- 答：管道文件中的代碼為

#該類為管道類，該類中的process_item方法是用來實現持久化存儲操作的。
class DoublekillPipeline(object):

    def process_item(self, item, spider):
        #持久化操作代碼 （方式1：寫入磁盤文件）
        return item

#如果想實現另一種形式的持久化操作，則可以再定制一個管道類：
class DoublekillPipeline_db(object):

    def process_item(self, item, spider):
        #持久化操作代碼 （方式1：寫入數據庫）
        return item

在settings.py開啟管道操作代碼為：

#下列結構為字典，字典中的鍵值表示的是即將被啟用執行的管道文件和其執行的優先級。
ITEM_PIPELINES = {
   ‘doublekill.pipelines.DoublekillPipeline‘: 300,
    ‘doublekill.pipelines.DoublekillPipeline_db‘: 200,
}

#上述代碼中，字典中的兩組鍵值分別表示會執行管道文件中對應的兩個管道類中的process_item方法，實現兩種不同形式的持久化操作。

scrapy框架持久化存儲

終端 spa sele you base64 strip 取出 extra esp 1.概要基於終端指令的持久化存儲基於管道的持久化存儲 2.詳情 1.基於終端指令的持久化存儲保證爬蟲文件的parse方法中有可叠代類型對象（通常為列表or字典）的

[Xcode10 實際操作]七、文件與數據-(13)數據持久化存儲框架CoreData的使用：編輯CoreData中的數據

limit bsp rom 提取 view contain peter fun pos 本文將演示如何修改數據持久化對象。在項目導航區，打開視圖控制器的代碼文件【ViewController.swift】 1 import UIKit 2 //引入數據持久化

[Xcode10 實際操作]七、文件與數據-(14)數據持久化存儲框架CoreData的使用：刪除CoreData中的數據

刪除使用如何 pic gate fetch 持久 uia 一個本文將演示如何刪除數據持久化對象。在項目導航區，打開視圖控制器的代碼文件【ViewController.swift】 1 import UIKit 2 //引入數據持久化存儲框架【CoreD

scrapy持久化存儲

接受 .org spi settings org nta nco span fir 持久化存儲操作： a.磁盤文件　　a) 基於終端指令　　　　i. 保證parse方法返回一個可叠代類型的對象（存儲解析到的頁面內容）　　　　ii. 使用終端指令完成數據存儲到指定磁盤

爬蟲--使用scrapy爬取糗事百科並在txt文件中持久化存儲

max color 圖片得到 acc deb ould ins ant 工程目錄結構　spiders下的first源碼　　 # -*- coding: utf-8 -*- import scrapy from firstBlood.items imp

利用scrapy爬取文件後並基於管道化的持久化存儲

val set field wid 參數 err spi http res 我們在pycharm上爬取首先我們可以在本文件打開命令框或在Terminal下創建 scrapy startproject xiaohuaPro ------------創建文件 s

使用Ceph集群作為Kubernetes的動態分配持久化存儲

ceph docker kubernetes 使用Docker快速部署Ceph集群，然後使用這個Ceph集群作為Kubernetes的動態分配持久化存儲。 Kubernetes集群要使用Ceph集群需要在每個Kubernetes節點上安裝ceph-common 本文出自 “

python實現數據爬取-清洗-持久化存儲-數據平臺可視化

爬蟲 python 數據分析數據清理數據挖掘基於python對淘寶模特個人信息進行篩選爬取，數據清洗，持久化寫入mysql數據庫.使用django對數據庫中的數據信息篩選並生成可視化報表進行分析。數據爬取，篩選，存庫：# -*- coding:utf-8 -*- import

深入淺出Mesos（三）：持久化存儲和容錯

osql 不同 stand eth 還在哪裏技術分享運行允許【編者按】Mesos是Apache下的開源分布式資源管理框架，它被稱為是分布式系統的內核。Mesos最初是由加州大學伯克利分校的AMPLab開發的，後在Twitter得到廣泛使用。InfoQ接下來將會策

redis 持久化存儲之aof和設置密碼

redis 設置密碼 redis aofRedis 進入Redis設置密碼redis 127.0.0.1:6379[1]> config set requirepass my_redis OK [root@jcsjzx2017 ~]# redis-cli 127.0.0.1:6379> co

Redis持久化存儲

情況 slave 臨時命令決定 ever 出錯建議 lena Redis是一個支持持久化的內存數據庫，也就是說redis需要經常將內存中的數據同步到磁盤來保證持久化。redis支持四種持久化方式，一是 Snapshotting（快照）也是默認方式；二是Append

android數據持久化存儲

針對語句 str select語句 ets 添加 block gpo ace 一、文件存儲　　數據存儲到文件中：　　public void save（）{ 　　　　String data = "Data to save"; 　　　　FileOutputStream o

python3下scrapy爬蟲(第九卷:scrapy數據存儲進JSON文件）

body 技術分享爬蟲 pre 修改文字 image 直接 post 將爬取數據存儲在JSON文件裏並不難，只需修改pipelines文件直接看代碼：來看下結果：中文字符惡心的很之後我會在後卷中做出修改 python3下scrapy爬蟲(第九卷:s

python3下scrapy爬蟲(第十一卷:scrapy數據存儲進mongodb）

開啟操作 inf blog path clas ima 操作mongodb mongod 說起python爬蟲數據存儲就不得不說到mongodb，現在我們來試一下scrapy操作mongodb 首先開啟mongodb mongod --dbpath=D:\mongodb\

JA17-大型電商分布式系統應用實踐+性能優化+分布式應用架構+負載均衡+高並發設計+持久化存儲視頻教程

war height imageview clas 圖片進步 pac 點滴 blank JA17-大型電商分布式系統應用實踐+性能優化+分布式應用架構+負載均衡+高並發設計+持久化存儲視頻教程新年伊始，學習要趁早，點滴記錄，學習就是進步! 不要到處找了，抓緊提升自

Redis事件訂閱和持久化存儲

art 模式 tails zookeep 持久化變化斷開連接訂閱模式關聯 http://blog.csdn.net/yinwenjie/article/details/53518286 Redis從2.X版本開始，就支持一種基於非持久化消息的、使用發布/訂閱模式實現

Longhorn：實現Kubernetes集群的持久化存儲

Rancher Longhorn Longhorn項目是Rancher Labs推出的開源的基於雲和容器部署的分布式塊存儲新方式。Longhorn遵循微服務的原則，利用容器將小型獨立組件構建為分布式塊存儲，並使用容器編排來協調這些組件，形成彈性分布式系統。自2017年4月Longhorn項目發布以來，

Docker容器的持久化存儲和端口映射

運行 star docker docke webroot XP sys 文件夾掛載nfs 存儲卷存儲卷的映射：docker run -d -p 物理機端口:容器服務進程端口 -v 物理機文件夾:容器文件夾容器名/標簽（註：容器文件夾映射前不存在，執行完命令會自動創建；如

docker的持久化存儲和共享存儲和網絡架構

AR -m 參數 inspect 子網端口分布式文件 iptables 持久化存儲 1、持久化存儲docker容器中一般不保存數據，只封裝系統和環境，這樣就存在一個問題,一個docker容器的數據內容不能持久化，且不能共享出來，在生產中，不能很好地提供服務。為了解決這個

使用Ceph集群作為Kubernetes的動態分配持久化存儲（轉）

get href meta beta cli 持久 ref ces 現在使用Docker快速部署Ceph集群，然後使用這個Ceph集群作為Kubernetes的動態分配持久化存儲。 Kubernetes集群要使用Ceph集群需要在每個Kubernetes

scrapy框架持久化存儲

1.概要

2.詳情

1.基於終端指令的持久化存儲

2.基於管道的持久化存儲

(1).小試牛刀：將糗事百科首頁中的段子和作者數據爬取下來，然後進行持久化存儲

(2).基於mysql的管道存儲

(3). 基於redis的管道存儲

相關推薦