（六--二）scrapy框架之持久化操作

阿新 • • 發佈：2019-01-08

pass 集成 ref 步驟 com fin content none 提交

scrapy框架之持久化操作

基於終端指令的持久化存儲
基於管道的持久化存儲

1 基於終端指令的持久化存儲

保證爬蟲文件的parse方法中有可叠代類型對象（通常為列表or字典）的返回，該返回值可以通過終端指令的形式寫入指定格式的文件中進行持久化操作。

執行輸出指定格式進行存儲：將爬取到的數據寫入不同格式的文件中進行存儲
    scrapy crawl 爬蟲名稱 -o xxx.json
    scrapy crawl 爬蟲名稱 -o xxx.xml
    scrapy crawl 爬蟲名稱 -o xxx.csv

以爬取糗事百科(https://www.qiushibaike.com/text/)為例

import scrapy


class QiubaiSpider(scrapy.Spider):
    name = ‘qiubai‘                                  # 表示該爬蟲文件的名稱
    allowed_domains = [‘www.qiushibaike.com/text/‘]
    start_urls = [‘https://www.qiushibaike.com/text/‘]
　　
　　# 解析函數
    def parse(self, response): # response就是對起始url發起請求後,對應的響應對象
 

        author_list = response.xpath(‘//div[@id="content-left"]/div‘)
        
        all_data = []
        for div in author_list:
　　　　　　　# extract_first()可以將xpath返回列表中第一個列表元素進行extract解析操作
            author = div.xpath(‘./div/a[2]/h2/text()‘).extract_first()
　　　　　　　# extract()可以將Selector對象中存儲的數據進行解析操作 

　　　　　　　 author = div.xpath(‘./div/a[2]/h2/text()‘).extract()
            content = div.xpath(‘./a/div/span/text()‘).extract_first()


            dict={
                ‘author‘:author,
                ‘content‘:content
            }
            all_data.append(dict)
        return all_data  # 可叠代的對象

在終端寫入

執行輸出指定格式進行存儲：將爬取到的數據寫入不同格式的文件中進行存儲
    scrapy crawl 爬蟲名稱 -o xxx.json
    scrapy crawl 爬蟲名稱 -o xxx.xml
    scrapy crawl 爬蟲名稱 -o xxx.csv

2 基於管道的持久化存儲

scrapy框架中已經為我們專門集成好了高效、便捷的持久化操作功能，我們直接使用即可。要想使用scrapy的持久化操作功能，我們首先來認識如下兩個文件：

    items.py：數據結構模板文件。定義數據屬性。
    pipelines.py：管道文件。接收數據（items），進行持久化操作。

持久化流程：
    1.爬蟲文件爬取到數據後，需要將數據封裝到items對象中。
    2.使用yield關鍵字將items對象提交給pipelines管道進行持久化操作。
    3.在管道文件中的process_item方法中接收爬蟲文件提交過來的item對象，然後編寫持久化存儲的代碼將item對象中存儲的數據進行持久化存儲
    4.settings.py配置文件中開啟管道

1 爬蟲文件qiubai.py

# -*- coding: utf-8 -*-
import scrapy
from ..items import FirstProjectItem
‘‘‘基於管道存儲‘‘‘


‘‘‘
1 爬蟲文件中解析數據
2 【items.py】將解析到的數據值全部分裝在item對象中
3 pipelines.py
4 settings.py配置文件

‘‘‘
class QiubaiSpider(scrapy.Spider):
    name = ‘qiubai‘
    allowed_domains = [‘www.qiushibaike.com/text/‘]
    start_urls = [‘https://www.qiushibaike.com/text/‘]

    def parse(self, response):

        author_list = response.xpath(‘//div[@id="content-left"]/div‘)
   
　　　　 for div in author_list:

            author = div.xpath(‘./div/a[2]/h2/text()‘).extract_first()
            # author = div.xpath(‘./div/a[2]/h2/text()‘)[0].extract()
            content = div.xpath(‘./a/div/span/text()‘).extract_first()
　　　　　　　　----------------------------------------------------
            items = FirstProjectItem()

            items["author"] = author         重點
            items["content"] = content
            # 提交給管道
            yield items
　　　　　　　　----------------------------------------------------

2 items.py

import scrapy

# items會實例化一個items對象； 用來存儲解析到的數據值


class FirstProjectItem(scrapy.Item):
    # define the fields for your item here like:
　　　-----------------------------------------
    author = scrapy.Field()
    content = scrapy.Field()    重點  你在第一步中有幾個要持久化的這就寫上對應的
     -----------------------------------------

3 pipelines.py

# 爬蟲文件每向管道提交一次item則process_item方法就會被執行一次
class FirstProjectPipeline(object):
　　　　　　　　　　　　　　　　# item就是爬蟲文件提交過來的
    def process_item(self, item, spider):
        return item

4 settings.py

# 第67行
ITEM_PIPELINES = {
   ‘first_project.pipelines.FirstProjectPipeline‘: 300,
}

依據上面四步我們就學會了基本的“基於管道的持久化”的步驟，但是我們要在piplines.py做一些操作

只是修改第3步pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class FirstProjectPipeline(object):
# 每次都會打開多次文件，我們重寫 open_spider方法來開文件一次
    fp = None
    def open_spider(self, spider):
        print(‘開始爬蟲‘)
        self.fp = open(‘qiubai1.txt‘, ‘w‘, encoding=‘utf-8‘)

    def process_item(self, item, spider):

        self.fp.write(item[‘author‘]+‘:‘+item["content"]+"\n")    # 生成qiubai1.txt文件
        return item

    def close_spider(self,spider):
        print(‘結束爬蟲‘)
        self.fp.close()

3 寫入數據庫

import pymysql
class MysqlPipline(object):
    cursor = None
    conn = None
    def open_spider(self, spider):
        print(‘mysql開始‘)
        self.conn = pymysql.connect(host=‘127.0.0.1‘, user=‘root‘, password=‘123456‘, port=3306, db=‘s18‘,charset=‘utf8‘)
    def process_item(self, item, spider):
        sql = "insert into t_qiubai VALUES (‘%s‘,‘%s‘)"%(item["author"], item["content"])
        self.cursor = self.conn.cursor()
        try:
            self.cursor.execute(sql)
            self.conn.commit()
        except Exception as e:
            self.conn.rollback()
        return item

    def close_spider(self, spider):
        print(‘mysql結束‘)
        self.cursor.close()
        self.conn.close()

settings.py

ITEM_PIPELINES = {
   ‘first_project.pipelines.FirstProjectPipeline‘: 300,
   ‘first_project.pipelines.MysqlPipline‘: 400,           # settings 配置      值越小 越優先
}

4 寫入redis數據庫

wins安裝redis

import redis


class RedisPipline(object):
    
    r = None
    
    def open_spider(self, spider):
        print(‘redis開始‘)
        self.r = redis.Redis(host=‘127.0.0.1‘, port=6379)

    def process_item(self, item, spider):
        dict = {
            ‘author‘:item[‘author‘],
            ‘content‘:item[‘content‘]
        }
        self.r.lpush(‘data‘, dict)
        return item

    def close_spider(self, spider):
        print(‘redis結束‘)

settings.py設置

ITEM_PIPELINES = {
   ‘first_project.pipelines.FirstProjectPipeline‘: 300,
   ‘first_project.pipelines.RedisPipline‘: 500,
}

我們可以去redis裏面查看

key *   # 查看所有的key
lrange key 0 -1  # 從頭到尾查看key

（六--二）scrapy框架之持久化操作

pass 集成 ref 步驟 com fin content none 提交 scrapy框架之持久化操作基於終端指令的持久化存儲基於管道的持久化存儲 1 基於終端指令的持久化存儲保證爬蟲文件的parse方法中有可叠代類型對象（通常為列表or字典）

（六--一）scrapy框架簡介和基礎應用

一什麼是scrapy框架官方解釋 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的資料(例如 Amazon

爬蟲開發8.scrapy框架之持久化操作

需要解析爬蟲 open txt dict fine 入mysql數據庫函數返回今日概要基於終端指令的持久化存儲基於管道的持久化存儲今日詳情 1.基於終端指令的持久化存儲保證爬蟲文件的parse方法中有可叠代類型對象（通常為列表or字典）

Python3爬蟲（十八） Scrapy框架（二）

ade 地圖最終站點地圖 url 命令 scheduler 持久 json 對Scrapy框架（一）的補充 Infi-chu: http://www.cnblogs.com/Infi-chu/ Scrapy優點：提供了內置的 HTTP 緩存，以加速本地開發

python爬蟲（四）---scrapy框架之騰訊招聘專案實戰

目的：功能就是翻頁請求步驟：如下爬取職位名，職位連結等  職位名：  職位詳情連結：  職位類別：  人數:  地點:  釋出時間：下一步驟：寫爬蟲：tencent.py檔案寫方法一：或者這樣寫

Jmeter （十二）除錯工具之--Debug Processor（轉載）

前置處理器或後置處理器中的 Debug Processor，也是常用的一個除錯工具，其可以獲取樣本執行緒的相關資訊進行展示，可通過檢視結果樹中的響應資料檢視對應樣本執行緒請求、響應及變數等資訊。在檢視的時候注意 Debug PostProcessor的檢視作用域

（十二）boost庫之多執行緒高階特性

很多時候，執行緒不僅僅是執行一些耗時操作，可能我們還需要得到執行緒的返回值，一般的處理方法就是定義一個全域性狀態變數，不斷輪訓狀態，就如我目前維護的一個專案，全域性變數定義了N中狀態，看的讓人抓狂。該專案的大體邏輯是這樣的，啟動K個執行緒，當執行緒執行到某一個點時，進行輪

Java從入門到放棄（十四）集合框架之TreeMap原始碼

我們經常需要對一些集合按照指定的規則進行排序，比如學生按照學號排序，或者按照成績排序，集合裡面有專門排序的集合，如TreeMap。TreeMap裡面是使用的紅黑樹結構。構造方法 private final Comparator<? su

Netty原始碼分析（十二）----- 心跳服務之 IdleStateHandler 原始碼分析

什麼是心跳機制？心跳說的是在客戶端和服務端在互相建立ESTABLISH狀態的時候，如何通過傳送一個最簡單的包來保持連線的存活，還有監控另一邊服務的可用性等。心跳包的作用保活Q：為什麼說心跳機制能保持連線的存活，它是叢集中或長連線中最為有效避免網路中斷的一個重要的保障措施？A：之所以說是&l

爬蟲開發11.scrapy框架之CrawlSpider操作

__init__ text rac iba dom 工作 pipe ron 表示提問：如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Request模塊遞歸

Python爬蟲從入門到放棄（十二）之 Scrapy框架的架構和原理

執行持久 pip 下載響應 .py example 數據模型特殊原文地址https://www.cnblogs.com/zhaof/p/7173397.html 這一篇文章主要是為了對scrapy框架的工作流程以及各個組件功能的介紹 Scrapy目前已經可以很好的在

Scrapy框架學習（二）Scrapy入門

接下來以爬取quote.toscrape.com為例完成一遍Scrapy的抓取流程。首先建立一個Scrapy專案。開啟命令列，輸入以下命令： scrapy startproject projectname 即可在當前位置建立一個Scrapy專案。我們建立一個名為tutorial的專案： scrapy

淘淘商城系列（二）—— SSM框架整合之Dao層（五）

整合思路 1.Dao層 mybatis整合spring，通過spring管理SqlSessionFactory、mapper代理物件。需要mybatis和spring的整合包，由spring建立資料庫連線池。整合內容對應工程

淘淘商城系列（二）—— SSM框架整合之表現層（七）

前面我們把服務層的dao層和service層框架整合好了，現在來整合表現層。建立springmvc.xml檔案開啟我們的taotao-manager-web表現層工程：在resources目錄下面新建一個spring資料夾之後再spring資料夾下面，建立sp

python爬蟲基礎（13：Scrapy框架之架構流程與目錄）

框架對於特別小的爬蟲，一般直接編寫就可以了，但一般面對一個專案級別的爬蟲，都選擇用框架框架可以理解為一個等你填坑的程式碼： 1. 為你編寫好那些必須的、重複的程式碼 2. 為你模組化好每一個元件，自動建立元件之間的聯絡，這樣就方便使用者清晰瞭解它的

Unity3D《一看就明白系列》之Unity3D中使用SqlLite資料庫（二）採用框架結構

主要就是增刪改查，而這些操作語句我們主要就是更改其中的引數。因此我們需要做一個架構來實現這一目標 DB：整體中間功能層：實現功能邏輯層：在功能層之下實現不同的邏輯 For Example： Void Add(a,b)這是一個功能實現兩個數相加 Add(2,

（二）Web框架-龍捲風Tornado之世界上最簡單的Tornado示例

原始碼 # _*_coding:utf-8_*_ import tornado.ioloop import tornado.web class MainHandler(tornado.web.R

MVC框架中的模型-檢視分離問題（二） —— 問題產生之所在

模板引擎[1]（template engine）是web模板系統[2]（web template system）的核心部件，主要功能是將web模板[3]（web templates）和內容資訊整合到一起產生web文件。示意圖如下：圖1: web模板系統示

Android Multimedia框架總結（十六）Camera2框架之openCamera及session過程

前言：前一篇介紹了Camera2相關類作用及功能，並未對原始碼部分了解，今天瞭解了在Camera2框架中openCamera及session過程，Agenda如下： CameraManager的openCamera方法 openCameraDeviceU

爬蟲Scrapy框架之學習使用（三）：訊號（Signals）

""" Extension for collecting core stats like items scraped and start/finish times """ import datetime

（六--二）scrapy框架之持久化操作

scrapy框架之持久化操作

1 基於終端指令的持久化存儲

2 基於管道的持久化存儲

3 寫入數據庫

4 寫入redis數據庫

相關推薦