scrapy 基於管道的持久化儲存操作

阿新 • • 發佈：2020-07-27

scrapy框架中已經為我們專門整合好了高效、便捷的持久化操作功能，我們直接使用即可。
這兩個元件配合爬蟲檔案實現資料持久化

items.py：資料結構模板檔案。定義資料屬性。
pipelines.py：管道檔案。接收資料（items），進行持久化操作。

持久化流程：

1.爬蟲檔案爬取到資料後，需要將資料封裝到items物件中。
2.使用yield關鍵字將items物件返回，自動提交給pipelines管道進行持久化操作。
3.在管道檔案中的process_item方法中接收爬蟲檔案提交過來的item物件，然後編寫持久化儲存的程式碼將item物件中儲存的資料進行持久化儲存
4.settings.py配置檔案中開啟管道

爬蟲檔案(qiushi.py)

import scrapy
from learn_scrapy.items import LearnScrapyItem   # 匯入items

class QiushiSpider(scrapy.Spider):
    name = 'qiushi'
    # allowed_domains = ['www.web.com']
    start_urls = ['https://www.qiushibaike.com/']

    def parse(self, response):
        li_list = response.xpath('//*[@id="content"]/div/div[2]/div/ul/li')
        for li in li_list:
            title = li.xpath('./div/a/text()')[0].extract()
            author = li.xpath('./div/div/a/span/text()')[0].extract()

            item = LearnScrapyItem()
            # 將資料封裝到items物件中。
            item['title'] = title
            item['author'] = author
            # 使用yield關鍵字將items物件返回
            yield item

資料結構模板檔案，定義資料屬性(items.py)

import scrapy


class LearnScrapyItem(scrapy.Item):
    author = scrapy.Field()
    title = scrapy.Field()

管道檔案(pipelines.py)

from itemadapter import ItemAdapter


class LearnScrapyPipeline:
    def __init__(self):
        self.fp = None

    """
        下列都是在重寫父類方法
    """
    #開始爬蟲時，執行一次
    def open_spider(self, spider):
        print('start spider')
        self.fp = open('data.txt', 'w')

    # 在爬蟲執行中會頻繁呼叫
    def process_item(self, item, spider):
        self.fp.write(item['author'] + ':' + item['title'] + '\n')
        return item

    #結束爬蟲時，執行一次
    def close_spider(self, spider):
        self.fp.close()
        print('spider end')

scrapy 基於管道的持久化儲存操作

scrapy框架中已經為我們專門整合好了高效、便捷的持久化操作功能，我們直接使用即可。

基於管道的持久化儲存

技術標籤：python爬蟲python 基於管道的持久化儲存 scrapy框架中已經為我們專門整合好了高效、便捷的持久化操作功能，我們可以直接使用。先來認識兩個檔案：

scrapy框架持久化儲存

今日概要基於終端指令的持久化儲存基於管道的持久化儲存今日詳情 1.基於終端指令的持久化儲存

Scrapy之資料解析與資料持久化儲存

JS反混淆：將js混淆的密文以原文的形式展示。推薦的解密網址：http://www.bm8.com.cn/jsConfusion/需要通過python呼叫js的相關程式碼：

python爬蟲-scrapy持久化儲存

scrapy的持久化儲存有兩種：基於終端指令的和基於管道的基於終端指令限制：

基於Metronic的Bootstrap開發框架經驗總結（9）--實現Web頁面內容的列印預覽和儲存操作

在前面介紹了很多篇相關的《Bootstrap開發框架》的系列文章，這些內容基本上覆蓋到了我這個Bootstrap框架的各個主要方面的內容，總體來說基本達到了一個穩定的狀態，隨著時間的推移可以會引入一些更好更新的內容進行

工具庫-基於LibreOffice實現檔案操作

基於libreoffice實現的檔案轉換專案，無框架依賴，即插即用專案原始碼：github/workable-converter

基於MySQL的儲存引擎與日誌說明(全面講解)

1.1 儲存引擎的介紹 1.1.1 檔案系統儲存檔案系統：作業系統組織和存取資料的一種機制。檔案系統是一種軟體。

Python資料持久化儲存實現方法分析

本文例項講述了Python資料持久化儲存實現方法。分享給大家供大家參考，具體如下：

pycharm軟體實現設定自動儲存操作

pycharm一般安裝完畢，就是預設是自動儲存的，但是......但是....既然是程式，既然是軟體，就難免出現bug。也許會有碼友出現頭天晚上寫好的程式碼，開啟一看，第二天白花花一片！！！淚奔有沒有

MyBatis01基於配置的CRUD操作

建立Maven工程匯入依賴 <dependencies> <dependency> <groupId>org.mybatis</groupId>

4.深入k8s：容器持久化儲存

從一個例子入手PV、PVC Kubernetes 專案引入了一組叫作 Persistent Volume Claim（PVC）和 Persistent Volume（PV）的 API 物件用於管理儲存卷。

Python3基於plotly模組儲存圖片表格

使用plotly模組儲存圖片目的使用Python3的Plotly模組，實現對資料庫資料的讀取，然後形成Table表格，並通過釘釘機器人定時傳送到釘釘群組。

Docker容器持久化儲存——volume卷管理

1. 宿主機與容器之間的檔案拷貝　　docker container cp 拷貝誰到哪裡　　　　--涉及到容器時要注意格式: name:路徑; 如 ....cp 容器名:/data/file ./file

安裝openebs持久化儲存

說明官方部署步驟： https://docs.openebs.io/docs/next/installation.html#installation-through-kubectl

Kubernetes進階實戰讀書筆記：持久化儲存卷（pv詳解）

一、Pod儲存卷、PVC、PV及儲存裝置的呼叫關係二、PV對儲存系統的支援可通過外掛來實現、目前Kubernetes支援如下型別的外掛

【.NET 框架】—— Dapper框架基於Sqlserver資料庫CRUD操作（一）

1.Dapper框架介紹 Dapper是.NET開發中一款輕量級的ORM對映框架，它輕量級、速度快，與同類型ORM框架如EF框架相比具有更高的執行效率。支援多種資料庫，可以在所有的Ado.NET Providers下工作，包括sqlite、oracle、my

通過Heketi管理GlusterFS為K8S叢集提供持久化儲存

參考文件： Github project：https://github.com/heketi/heketi MANAGING VOLUMES USING HEKETI：https://access.redhat.com/documentation/en-us/red_hat_gluster_storage/3.3/html/administration_guide/ch05s

vuex-persist資料持久化儲存外掛

Vuex 解決了多檢視之間的資料共享問題。但是資料並不能持久化，只要一重新整理頁面，你儲存在 Vuex 中的 store 裡的資料就丟失了。

SpringBoot中基於Mybatis多資料來源操作

在SpringBoot中，基於Mybatis多資料來源操作，需要以下配置： 1、在專案的pom.xml 檔案中配置多個數據庫的連線配置資訊

scrapy 基於管道的持久化儲存操作

相關推薦