爬蟲--Scrapy-持久化儲存操作2

阿新 • • 發佈：2018-12-09

1、管道的高階操作

需求：將爬取到的資料值分別儲存到本地磁碟、redis資料庫、mysql資料。
　　1.需要在管道檔案中編寫對應平臺的管道類
　　2.在配置檔案中對自定義的管道類進行生效操作

qiubai.py

import scrapy
from qiubaipro.items import QiubaiproItem

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    #allowed_domains = ['www.qiushibaike.com/text']
    start_urls = [' 
https://www.qiushibaike.com/text/']

    def parse(self, response):
        # 建議大家使用xpath進行解析(框架集成了xpath解析的介面)
        div_list = response.xpath("//div[@id='content-left']/div")
        # 儲存到的解析到的頁面資料
        data_list = []
        for div in div_list:
            author = div.xpath('./div/a[2]/h2/text() 
').extract_first()
            #content = div.xpath(".//div[@class='content']/span/text()")
            content = div.xpath(".//div[@class='content']/span/text()").extract_first()
            # 1.將解析到資料值(author和content)儲存到items物件
            item = QiubaiproItem()
            item['author'] = author
            item[ 
'content'] = content
            # 2.將item物件提交給管道
            yield item

pipelines.py

import redis
import pymysql
class QiubaiproPipeline(object):
    conn = None
    def open_spider(self,spider):
        print('寫入到redis伺服器')
        print('開始爬蟲')
        # redis伺服器port
        self.conn = redis.Redis(host='127.0.0.1',port=6379)
    # 該方法可以接受爬蟲檔案中提交過來的item物件，並且對item物件的頁面資料進行持久化處理
    # 引數：item表示的就是接受到的item物件
    def process_item(self, item, spider):
        # 1.連結資料庫
        dict = {'author':item['author'],
                'content':item['content']}
        self.conn.lpush('data',dict)

        return item
    # 該方法只會在爬蟲結束的時候被呼叫一次
    def close_spider(self,spider):
        print('爬蟲結束')

# 實現將資料值存到本地磁碟中
class QiubaiByFiles(object):
    # 該方法可以接受爬蟲檔案中提交過來的item物件，並且對item物件的頁面資料進行持久化處理
    # 引數：item表示的就是接受到的item物件
    def open_spider(self,spider):
        print('寫入到本地磁碟中')
        print('開始爬蟲')
        self.fp = open('./qiubai_pipe.txt', 'w', encoding='utf-8')

    # 該方法可以接受爬蟲檔案中提交過來的item物件，並且對item物件的頁面資料進行持久化處理
    # 引數：item表示的就是接受到的item物件
    def process_item(self, item, spider):
        author = item['author']
        content  = item['content']

        # 持久化儲存io操作
        self.fp.write(author+':'+content+'\n\n\n')
        return item
    # 該方法只會在爬蟲結束的時候被呼叫一次
    def close_spider(self,spider):
        print('爬蟲結束')
        self.fp.close()

# 實現將資料值儲存到mysql資料庫中
class QiubaiByMysql(object):
    conn = None  # mysql的連線物件宣告
    cursor = None  # mysql遊標物件宣告
    def open_spider(self,spider):
        print('寫入到mysql資料庫中')
        print('開始爬蟲')

        # 連結資料庫
        # host 本機的ip地址
        # 在命令列輸入 ipconfig檢視
        self.conn = pymysql.Connect(host='10.10.40.140',port=3306,user='root',password='123',db='qiubai',charset='utf8')

    # 該方法可以接受爬蟲檔案中提交過來的item物件，並且對item物件的頁面資料進行持久化處理
    # 引數：item表示的就是接受到的item物件
    def process_item(self, item, spider):
        # 1.連結資料庫
        # 執行sql語句
        # 插入資料
        sql = 'insert into qiubai(author,content) values("%s","%s")'%(item['author'], item['content'])
        # 獲取遊標
        self.cursor = self.conn.cursor()
        try:
            self.cursor.execute(sql)
            self.conn.commit()
        except Exception as e:
            print(e)
            self.conn.rollback()

        # 提交事務
        return item
    # 該方法只會在爬蟲結束的時候被呼叫一次
    def close_spider(self,spider):
        print('爬蟲結束')
        self.cursor.close()
        self.conn.close()

在settings配置

#  數字表示優先順序,數字越大優先順序越高
ITEM_PIPELINES = {
   'qiubaipro.pipelines.QiubaiproPipeline': 300,
   'qiubaipro.pipelines.QiubaiByFiles':400,
   'qiubaipro.pipelines.QiubaiByMysql':500,
}

開啟終端，先進入檔案目錄

爬蟲--Scrapy-持久化儲存操作2

1、管道的高階操作需求：將爬取到的資料值分別儲存到本地磁碟、redis資料庫、mysql資料。　　1.需要在管道檔案中編寫對應平臺的管道類　　2.在配置檔案中對自定義的管道類進行生效操作 qiubai.py import scrapy from qiubaipro.items

爬蟲--Scrapy-持久化儲存操作

總體概況持久化儲存操作： a. 磁碟檔案 a) 基於終端指令 i. 保證parse方法返回一個可迭代型別的物件（儲存解析到的頁面內容） ii. 使用終端指令完成資料儲存到制定磁碟檔案中的操作 1. scrapy crawl 爬蟲檔名稱 –o 磁碟檔案.字尾

scrapy持久化儲存

持久化儲存操作： a.磁碟檔案　　a) 基於終端指令　　　　i. 保證parse方法返回一個可迭代型別的物件（儲存解析到的頁面內容）　　　　ii. 使用終端指令完成資料儲存到指定磁碟檔案的操作　　　　　　1. scrapy crawl&nb

爬蟲-scrapy資料的持久化儲存

今日概要基於終端指令的持久化儲存基於管道的持久化儲存 1.基於終端指令的持久化儲存保證爬蟲檔案的parse方法中有可迭代型別物件（通常為列表or字典）的返回，該返回值可以通過終端指令的形式寫入指定格式的檔案中進行持久化操作。執行輸出指定格式進行儲存：將爬取到的資料

第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄—獲取Scrapy框架Cookies

pid 設置 ade form 需要 span coo decode firefox 第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄模擬瀏覽器登錄 start_requests()方法，可以返回一個請求給爬蟲的起始網站，這個返回的請求相

python爬蟲Scrapy(一)-我爬了boss資料 MongoDB基本命令操作

一、概述學習python有一段時間了，最近了解了下Python的入門爬蟲框架Scrapy，參考了文章Python爬蟲框架Scrapy入門。本篇文章屬於初學經驗記錄，比較簡單，適合剛學習爬蟲的小夥伴。這次我選擇爬取的是boss直聘來資料，畢竟這個網站的

關於python在爬蟲scrapy框架，使用happybase方法連結hbase進行資料上傳操作

如果有叢集先將hbase的叢集啟起來 python程式碼如下 import happybase import MySQLdb #pipelines.py檔案裡面類覆蓋原有類 Pachong_qcwyPipeline class Pachong_qcwyPipelin

[Xcode10 實際操作]七、檔案與資料-(11)資料持久化儲存框架CoreData的使用：建立CoreData實體並插入資料

本文將演示【CoreData】資料持久化儲存框架的使用。點選【Create a new Xcode project】建立一個新的專案 ->【Single View App】選擇建立一個簡單的單檢視應用->【Next】【Product Name】:CoreDataProject 勾選使用

[Xcode10 實際操作]七、檔案與資料-(12)資料持久化儲存框架CoreData的使用：查詢CoreData中的資料

本文將演示如何查詢資料持久化物件。在專案導航區，開啟檢視控制器的程式碼檔案【ViewController.swift】 1 import UIKit 2 //引入資料持久化儲存框架【CoreData】 3 import CoreData 4 5 class ViewContro

11.scrapy框架持久化儲存

今日概要基於終端指令的持久化儲存基於管道的持久化儲存今日詳情 1.基於終端指令的持久化儲存保證爬蟲檔案的parse方法中有可迭代型別物件（通常為列表or字典）的返回，該返回值可以通過終端指令的形式寫入指定格式的檔案中進行持久化操作。執行輸出指定格式進行儲存：將

scrapy框架持久化儲存

概要基於終端指令的持久化儲存基於管道的持久化儲存 1.基於終端指令的持久化儲存保證爬蟲檔案的parse方法中有可迭代型別物件（通常為列表or字

【Scrapy框架持久化儲存】

基於終端指令的持久化儲存前提：保證爬蟲檔案中的parse方法的返回值為可迭代資料型別(通常為list/dict)。該返回值可以通過終端指令的形式寫入指定格式的檔案中進行持久化儲存。執行如下命令進行持久化儲存： scrapy crawl 應用名稱 -o

Scrapy框架的學習(2.scrapy入門，簡單爬取頁面，並使用管道(pipelines)儲存資料)

上個部落格寫了： Scrapy的概念以及Scrapy的詳細工作流程 https://blog.csdn.net/wei18791957243/article/details/86154068 1.scrapy的安裝 pip install scrapy

python爬蟲scrapy框架——人工識別登入知乎倒立文字驗證碼和數字英文驗證碼(2)

import scrapy import re import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhihu.com'] start_urls = ['http

Scrapy系列教程（2）------Item（結構化資料儲存結構）

擴充套件Item 您可以通過繼承原始的Item來擴充套件item(新增更多的欄位或者修改某些欄位的元資料)。例如: class DiscountedProduct(Product): discount_percent = scrapy.Field(serializer=str) di

scrapy框架的另一種分頁處理以及mongodb的持久化儲存以及from_crawler類方法的使用

Coding pca rom utf-8 ngs ODB 持久 same req 一.scrapy框架處理　　1.分頁處理　　　　以爬取亞馬遜為例　　　　爬蟲文件.py # -*- coding: utf-8 -*- import scrapy fro

<scrapy爬蟲>scrapy命令行操作

行操作名稱令行 rule pat 打開 tex log 數據 1.mysql數據庫 2.mongoDB數據庫 3.redis數據庫 1.創建項目 scrapy startproject myproject cd myproject 2.創

js屬性操作(2)

charset value onload set ext1 onclick utf-8 doctype 添加 <!DOCTYPE HTML><html><head><meta http-equiv="Content-Type" co

Mysql儲存過程2:變量定義與參數傳遞

變量定義 color ted lec mysq 傳遞參數傳遞 fault 可選 #儲存過程中的變量定義 declare 變量名類型可選類型 -- 跟建表差不多 create procedure p() begin declare age int de

文件操作[2]

oracl span mysql\ tell 二進制 acl nco 操作讀寫 1. 可讀可寫： r+ (讀寫) 1 #可讀可寫：r+ 寫的內容在文件內容的尾部 2 3 f = open(‘file2‘,‘r+‘,encoding=‘utf-8‘) 4 fo

爬蟲--Scrapy-持久化儲存操作2

1、管道的高階操作

相關推薦