爬蟲-scrapy資料的持久化儲存

阿新 • • 發佈：2018-12-14

今日概要

基於終端指令的持久化儲存
基於管道的持久化儲存

1.基於終端指令的持久化儲存

保證爬蟲檔案的parse方法中有可迭代型別物件（通常為列表or字典）的返回，該返回值可以通過終端指令的形式寫入指定格式的檔案中進行持久化操作。

執行輸出指定格式進行儲存：將爬取到的資料寫入不同格式的檔案中進行儲存
    scrapy crawl 爬蟲名稱 -o xxx.json
    scrapy crawl 爬蟲名稱 -o xxx.xml
    scrapy crawl 爬蟲名稱 -o xxx.csv

2.基於管道的持久化儲存

scrapy框架中已經為我們專門整合好了高效、便捷的持久化操作功能，我們直接使用即可。要想使用scrapy的持久化操作功能，我們首先來認識如下兩個檔案：

    items.py：資料結構模板檔案。定義資料屬性。
    pipelines.py：管道檔案。接收資料（items），進行持久化操作。

持久化流程：
    1.爬蟲檔案爬取到資料後，需要將資料封裝到items物件中。
    2.使用yield關鍵字將items物件提交給pipelines管道進行持久化操作。
    3.在管道檔案中的process_item方法中接收爬蟲檔案提交過來的item物件，然後編寫持久化儲存的程式碼將item物件中儲存的資料進行持久化儲存
    4.settings.py配置檔案中開啟管道

小試牛刀：將糗事百科首頁中的段子和作者資料爬取下來，然後進行持久化儲存

- 爬蟲檔案：qiubaiDemo.py

# -*- coding: utf-8 -*-
import scrapy
from secondblood.items import SecondbloodItem

class QiubaidemoSpider(scrapy.Spider): name = 'qiubaiDemo' allowed_domains = ['www.qiushibaike.com'] start_urls = ['http://www.qiushibaike.com/'] def parse(self, response): odiv = response.xpath('//div[@id="content-left"]/div') for div in odiv: # xpath函式返回的為列表，列表中存放的資料為Selector型別的資料。我們解析到的內容被封裝在了Selector物件中，需要呼叫extract()函式將解析的內容從Selecor中取出。 author = div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first() author = author.strip('\n')#過濾空行 content = div.xpath('.//div[@class="content"]/span/text()').extract_first() content = content.strip('\n')#過濾空行 #將解析到的資料封裝至items物件中 item = SecondbloodItem() item['author'] = author item['content'] = content yield item#提交item到管道檔案（pipelines.py）

- items檔案：items.py

import scrapy


class SecondbloodItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() author = scrapy.Field() #儲存作者 content = scrapy.Field() #儲存段子內容

- 管道檔案：pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html class SecondbloodPipeline(object): #構造方法 def __init__(self): self.fp = None #定義一個檔案描述符屬性 　　#下列都是在重寫父類的方法： #開始爬蟲時，執行一次 def open_spider(self,spider): print('爬蟲開始') self.fp = open('./data.txt', 'w') 　　 #因為該方法會被執行呼叫多次，所以檔案的開啟和關閉操作寫在了另外兩個只會各自執行一次的方法中。 def process_item(self, item, spider): #將爬蟲程式提交的item進行持久化儲存 self.fp.write(item['author'] + ':' + item['content'] + '\n') return item #結束爬蟲時，執行一次 def close_spider(self,spider): self.fp.close() print('爬蟲結束')

- 配置檔案：settings.py

#開啟管道
ITEM_PIPELINES = {
    'secondblood.pipelines.SecondbloodPipeline': 300, #300表示為優先順序，值越小優先順序越高
}

2.1 基於mysql的管道儲存

小試牛刀案例中，在管道檔案裡將item物件中的資料值儲存到了磁碟中，如果將item資料寫入mysql資料庫的話，只需要將上述案例中的管道檔案修改成如下形式：

- pipelines.py檔案

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html #匯入資料庫的類 import pymysql class QiubaiproPipelineByMysql(object): conn = None #mysql的連線物件宣告 cursor = None#mysql遊標物件宣告 def open_spider(self,spider): print('開始爬蟲') #連結資料庫 self.conn = pymysql.Connect(host='127.0.0.1',port=3306,user='root',password='123456',db='qiubai') #編寫向資料庫中儲存資料的相關程式碼 def process_item(self, item, spider): #1.連結資料庫 #2.執行sql語句 sql = 'insert into qiubai values("%s","%s")'%(item['author'],item['content']) self.cursor = self.conn.cursor() #執行事務 try: self.cursor.execute(sql) self.conn.commit() except Exception as e: print(e) self.conn.rollback() return item def close_spider(self,spider): print('爬蟲結束') self.cursor.close() self.conn.close()

- settings.py

ITEM_PIPELINES = {
    'qiubaiPro.pipelines.QiubaiproPipelineByMysql': 300,
}

2.2 基於redis的管道儲存

小試牛刀案例中，在管道檔案裡將item物件中的資料值儲存到了磁碟中，如果將item資料寫入redis資料庫的話，只需要將上述案例中的管道檔案修改成如下形式：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html import redis class QiubaiproPipelineByRedis(object): conn = None def open_spider(self,spider): print('開始爬蟲') #建立連結物件 self.conn = redis.Redis(host='127.0.0.1',port=6379) def process_item(self, item, spider): dict = { 'author':item['author'], 'content':item['content'] } #寫入redis中 self.conn.lpush('data', dict) return item

- pipelines.py檔案

ITEM_PIPELINES = {
    'qiubaiPro.pipelines.QiubaiproPipelineByRedis': 300,
}

- 面試題：如果最終需要將爬取到的資料值一份儲存到磁碟檔案，一份儲存到資料庫中，則應該如何操作scrapy？　　

- 答：管道檔案中的程式碼為

#該類為管道類，該類中的process_item方法是用來實現持久化儲存操作的。
class DoublekillPipeline(object): def process_item(self, item, spider): #持久化操作程式碼 （方式1：寫入磁碟檔案） return item #如果想實現另一種形式的持久化操作，則可以再定製一個管道類： class DoublekillPipeline_db(object): def process_item(self, item, spider): #持久化操作程式碼 （方式1：寫入資料庫） return item

在settings.py開啟管道操作程式碼為：

#下列結構為字典，字典中的鍵值表示的是即將被啟用執行的管道檔案和其執行的優先順序。
ITEM_PIPELINES = {
   'doublekill.pipelines.DoublekillPipeline': 300,
    'doublekill.pipelines.DoublekillPipeline_db': 200, } #上述程式碼中，字典中的兩組鍵值分別表示會執行管道檔案中對應的兩個管道類中的process_item方法，實現兩種不同形式的持久化操作。



> 總結

基於管道持久化儲存的實現流程：
#1.獲取解析到的頁面資料
#2.在item類中進行相關屬性的宣告
#3.例項化一個item物件，將解析到的資料值儲存到該物件中
#4.將item提交給管道
#5.在管道檔案中編寫process_item方法（item中的值取出進行持久化儲存操作）
#6.在配置檔案中開啟管道

爬蟲-scrapy資料的持久化儲存

今日概要基於終端指令的持久化儲存基於管道的持久化儲存 1.基於終端指令的持久化儲存保證爬蟲檔案的parse方法中有可迭代型別物件（通常為列表or字典）的返回，該返回值可以通過終端指令的形式寫入指定格式的檔案中進行持久化操作。執行輸出指定格式進行儲存：將爬取到的資料

ios 資料持久化儲存

說到資料儲存，我們不得不先了解下蘋果的沙盒、如何獲取沙盒路徑和沙盒目錄下對應的檔案：一、沙盒(sandbox) 每一個App都有一個儲存空間。iOS系統為每個應用程式建立自己的目錄，每個應用程式只能訪問自己的目錄，不能相互通訊。沙盒主要包括下面幾個檔案：用模擬器執行 NS

[Xcode10 實際操作]七、檔案與資料-(11)資料持久化儲存框架CoreData的使用：建立CoreData實體並插入資料

本文將演示【CoreData】資料持久化儲存框架的使用。點選【Create a new Xcode project】建立一個新的專案 ->【Single View App】選擇建立一個簡單的單檢視應用->【Next】【Product Name】:CoreDataProject 勾選使用

[Xcode10 實際操作]七、檔案與資料-(12)資料持久化儲存框架CoreData的使用：查詢CoreData中的資料

本文將演示如何查詢資料持久化物件。在專案導航區，開啟檢視控制器的程式碼檔案【ViewController.swift】 1 import UIKit 2 //引入資料持久化儲存框架【CoreData】 3 import CoreData 4 5 class ViewContro

11.scrapy框架持久化儲存

今日概要基於終端指令的持久化儲存基於管道的持久化儲存今日詳情 1.基於終端指令的持久化儲存保證爬蟲檔案的parse方法中有可迭代型別物件（通常為列表or字典）的返回，該返回值可以通過終端指令的形式寫入指定格式的檔案中進行持久化操作。執行輸出指定格式進行儲存：將

python 基礎之資料持久化儲存

###資料持久化儲存 - 說明：持久化儲存方案，普通檔案、資料庫、序列化 - 示例： ```python import pickle class Person: def __init__(self, name, age): self.name = na

scrapy框架持久化儲存

概要基於終端指令的持久化儲存基於管道的持久化儲存 1.基於終端指令的持久化儲存保證爬蟲檔案的parse方法中有可迭代型別物件（通常為列表or字

【Scrapy框架持久化儲存】

基於終端指令的持久化儲存前提：保證爬蟲檔案中的parse方法的返回值為可迭代資料型別(通常為list/dict)。該返回值可以通過終端指令的形式寫入指定格式的檔案中進行持久化儲存。執行如下命令進行持久化儲存： scrapy crawl 應用名稱 -o

iOS資料持久化儲存:歸檔

在平時的iOS開發中，我們經常用到的資料持久化儲存方式大概主要有：NSUserDefaults（plist），檔案，資料庫，歸檔。。前三種比較經常用到，第四種歸檔我個人感覺用的還是比較少的，恰恰因為用的比較少，但是還是有地方要用到，所以今天再把歸檔解檔複習一遍吧。一、什麼是歸檔：　　物件歸檔是將物件以

eos原始碼賞析（十三）：EOS智慧合約資料持久化儲存（上）

前面的文章（eos原始碼賞析（十）：EOS智慧合約入門之區塊上鍊）中提到了fork_db，區塊生產之後會將區塊的狀態資訊等儲存在fork_db中，但是當這個動作完成之後，fork_db中的內容就會變化，用來儲存下一個區塊的狀態資訊，並不能實現對歷史區塊資訊的儲存。對於區塊鏈來

iOS開發——CoreData資料持久化儲存

coreData是用於對資料進行例項化處理的類首先在建立專案的時候需要勾選Use Core Data 在勾選了coreData之後會生成對應的.xcdatamodeld檔案。這種檔案在經過編譯之後會變成 .momd檔案然後選中這個檔案雙擊開啟點選下面的加號

OC-NSUserDefaults(簡單資料持久化儲存機制)

//將值放到一箇中間位置，任何物件都可以訪問該位置（單例，資料庫，檔案系統） // NSUserDefaults:使用者預設設定，可以作為簡單資料的持久化儲存機制，基於檔案系統（就是一直存在的） //NSUserDefa

餓了麼開源專案：便捷高效的Android資料持久化儲存框架

prometheus基於influxdb的監控資料持久化儲存方案

用prometheus在線上跑了兩年了，都是用的本地磁碟做資料儲存，磁碟空間有限，當空間不足時直接刪除資料檔案。近期監控系統正式上

爬蟲--Scrapy-持久化儲存操作

總體概況持久化儲存操作： a. 磁碟檔案 a) 基於終端指令 i. 保證parse方法返回一個可迭代型別的物件（儲存解析到的頁面內容） ii. 使用終端指令完成資料儲存到制定磁碟檔案中的操作 1. scrapy crawl 爬蟲檔名稱 –o 磁碟檔案.字尾

爬蟲--Scrapy-持久化儲存操作2

1、管道的高階操作需求：將爬取到的資料值分別儲存到本地磁碟、redis資料庫、mysql資料。　　1.需要在管道檔案中編寫對應平臺的管道類　　2.在配置檔案中對自定義的管道類進行生效操作 qiubai.py import scrapy from qiubaipro.items

Python爬蟲_資料儲存

文章目錄 HTML正文抽取多媒體檔案抽取 Email提醒 HTML正文抽取 HTML正文儲存主要分為兩種格式：JSON和CSV 儲存為JSON 需求：抽取小說標題、章節、章節名稱

Python爬蟲（二）：爬蟲獲取資料儲存到檔案

接上一篇文章：Python爬蟲（一）：編寫簡單爬蟲之新手入門前言：上一篇文章，我爬取到了豆瓣官網的頁面程式碼，我在想怎樣讓爬取到的頁面顯示出來呀，爬到的資料是html頁面程式碼，不如將爬取到的程式碼儲存到一個檔案中，檔案命名為html格式，那直接開啟這個檔案就可以在瀏覽器上看到爬取資料的

Android 資料持久化技術（即資料儲存方式）

在討論資料持久化技術之前我們先了解幾個概念？什麼是瞬時資料：儲存在記憶體當中，有可能會因為程式的關閉或其他原因導致記憶體被收回而丟失的資料。為什麼採用資料持久化技術：為了保證關鍵資料在程式退出時不被丟失。什麼是資料持久化技術：將記憶體中的瞬時資料

爬蟲資料的儲存

1，Json class JsonWithEncodingPipeline(object): #自定義json檔案的匯出 def __init__(self): self.file = codecs.open('article.json', 'w', e

爬蟲-scrapy資料的持久化儲存

1.基於終端指令的持久化儲存

2.基於管道的持久化儲存

小試牛刀：將糗事百科首頁中的段子和作者資料爬取下來，然後進行持久化儲存

2.1 基於mysql的管道儲存

2.2 基於redis的管道儲存

相關推薦