scrapy資料儲存在mysql資料庫的兩種方式(同步和非同步)

阿新 • • 發佈：2020-02-20

方法一：同步操作

1.pipelines.py檔案（處理資料的python檔案）

import pymysql
 
class LvyouPipeline(object):
  def __init__(self):
    # connection database
    self.connect = pymysql.connect(host='XXX',user='root',passwd='XXX',db='scrapy_test') # 後面三個依次是資料庫連線名、資料庫密碼、資料庫名稱
    # get cursor
    self.cursor = self.connect.cursor()
    print("連線資料庫成功")
 
  def process_item(self,item,spider):
    # sql語句
    insert_sql = """
    insert into lvyou(name1,address,grade,score,price) VALUES (%s,%s,%s)
    """
    # 執行插入資料到資料庫操作
    self.cursor.execute(insert_sql,(item['Name'],item['Address'],item['Grade'],item['Score'],item['Price']))
    # 提交，不進行提交無法儲存到資料庫
    self.connect.commit()
 
  def close_spider(self,spider):
    # 關閉遊標和連線
    self.cursor.close()
    self.connect.close()

2.配置檔案中

scrapy資料儲存在mysql資料庫的兩種方式(同步和非同步)

方式二非同步儲存

pipelines.py檔案：

通過twisted實現資料庫非同步插入，twisted模組提供了 twisted.enterprise.adbapi

　　1. 匯入adbapi

　　2. 生成資料庫連線池

　　3. 執行資料資料庫插入操作

　　4. 列印錯誤資訊，並排錯

import pymysql
from twisted.enterprise import adbapi
# 非同步更新操作
class LvyouPipeline(object):
  def __init__(self,dbpool):
    self.dbpool = dbpool
 
  @classmethod
  def from_settings(cls,settings): # 函式名固定，會被scrapy呼叫，直接可用settings的值
    """
    資料庫建立連線
    :param settings: 配置引數
    :return: 例項化引數
    """
    adbparams = dict(
      host=settings['MYSQL_HOST'],db=settings['MYSQL_DBNAME'],user=settings['MYSQL_USER'],password=settings['MYSQL_PASSWORD'],cursorclass=pymysql.cursors.DictCursor  # 指定cursor型別
    )
 
    # 連線資料池ConnectionPool，使用pymysql或者Mysqldb連線
    dbpool = adbapi.ConnectionPool('pymysql',**adbparams)
    # 返回例項化引數
    return cls(dbpool)
 
  def process_item(self,spider):
    """
    使用twisted將MySQL插入變成非同步執行。通過連線池執行具體的sql操作，返回一個物件
    """
    query = self.dbpool.runInteraction(self.do_insert,item) # 指定操作方法和操作資料
    # 新增異常處理
    query.addCallback(self.handle_error) # 處理異常
 
  def do_insert(self,cursor,item):
    # 對資料庫進行插入操作，並不需要commit，twisted會自動commit
    insert_sql = """
    insert into lvyou(name1,%s)
    """
    self.cursor.execute(insert_sql,item['Price']))
 
  def handle_error(self,failure):
    if failure:
      # 列印錯誤資訊
      print(failure)

注意：

1、python 3.x 不再支援MySQLdb，它在py3的替代品是： import pymysql。

2、報錯pymysql.err.ProgrammingError: (1064,……

原因：當item['quotes']裡面含有引號時，可能會報上述錯誤

解決辦法：使用pymysql.escape_string()方法

例如：

sql = """INSERT INTO video_info(video_id,title) VALUES("%s","%s")""" % (video_info["id"],pymysql.escape_string(video_info["title"]))

3、存在中文的時候，連線需要新增charset='utf8'，否則中文顯示亂碼。

4、每執行一次爬蟲，就會將資料追加到資料庫中，如果多次的測試爬蟲，就會導致相同的資料不斷累積，怎麼實現增量爬取？

scrapy-deltafetch
scrapy-crawl-once（與1不同的是儲存的資料庫不同）
scrapy-redis
scrapy-redis-bloomfilter(3的增強版，儲存更多的url,查詢更快)

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

scrapy資料儲存在mysql資料庫的兩種方式(同步和非同步)

方法一：同步操作 1.pipelines.py檔案（處理資料的python檔案） import pymysql class LvyouPipeline(object):

Spring boot呼叫Oracle儲存過程的兩種方式及完整程式碼

前言因工作需要將公司SSH專案改為Spingboot專案，將專案中部分需要呼叫儲存過程的部分用entityManagerFactory.unwrap(SessionFactory.class).openSession()來獲取Session實現後發現專案訪問資料庫超過十次就會掛掉，

伺服器本地和docker資料庫兩種方式定時備份

建立上面兩個檔案（docker開頭是docker安裝的資料庫，local是本地安裝的資料庫）

位運算+資料庫兩種方式實現中介軟體許可權操作

1 資料庫實現許可權操作既是管理又是超級管理員的需要五表關聯 1.1 四表聯動

pycharm裡面連線匯入資料庫的兩種方式pymysql和sqlalchemy

技術標籤：pycharmmysqlpythonpycharm python裡面匯入資料庫有兩種方式，分別是pymysql和sqlalchemy

NAVICATE連線遠端資料庫兩種方式

navicate連線資料庫的兩種方式 1. 常規方式這種方式使用的登陸的MySQL所在環境的地址

介紹redis儲存物件的兩種方式

https://www.jianshu.com/p/c22954a9c37d redis儲存物件的兩種方式最近工作閒來無聊，寫寫部落格打發時間，說到redis儲存物件，我有著自己的小實驗，來驗證兩種方式，有興趣的童鞋可以小讀一下。

複製資料庫兩種方式第一種把備份集複製到目標資料庫

https://docs.oracle.com/database/121/BRADV/rcmdupdb.htm#BRADV010 在源庫生成一個備份，並複製到目標機器。rman target /

Python實現圖片裁剪的兩種方式(Pillow和OpenCV)

在這篇文章裡我們聊一下Python實現圖片裁剪的兩種方式，一種利用了Pillow，還有一種利用了OpenCV。兩種方式都需要簡單的幾行程式碼，這可能也就是現在Python那麼流行的原因吧。

WebService的兩種方式SOAP和REST，之間的區別與優缺點

什麼是SOAP? SOAP (Simple Object Access Protocol) 顧名思義，是一個嚴格定義的資訊交換協議，用於在Web Service中把遠端呼叫和返回封裝成機器可讀的格式化資料。事實上SOAP資料使用XML資料格式，定義了一整套複雜的

C#筆記-02：有關字串中查詢字元兩種方式————IndexOf和LastIndexOf的細微區別

　　首先，先說說這兩種查護照方式的基本特點。　　IndexOf()是查詢某個字元首次出現的位置，查詢順序是從左到右。

程序分配記憶體的兩種方式--brk() 和mmap()（不設計共享記憶體）

如何檢視程序發生缺頁中斷的次數？用ps -o majflt,minflt -C program命令檢視。

mysql清空表資料的兩種方式和區別解析

在MySQL中刪除資料有兩種方式： truncate（截短）屬於粗暴型的清空 delete屬於精細化的刪除

Python操作MySQL資料庫的兩種方式例項分析【pymysql和pandas】

本文例項講述了Python操作MySQL資料庫的兩種方式。分享給大家供大家參考，具體如下：

tomcat HttpServlet 的請求方式和域物件儲存資料的兩種方式

//請求：由瀏覽器客戶端向後端伺服器發起，有時會攜帶請求引數//響應：由後臺伺服器端向客戶端瀏覽器發起，有時也會攜帶響應資料HttpServlet 　　該類繼承了GenericServlet，把視角只聚焦在服務這一塊，那麼不必要的

資料庫資料轉樹形結構的兩種方式

通常資料庫儲存樹形資料一般採取這種形式：我們會建立一個對應的實體類 package cn.kanyun.build_tree;

MySQL資料庫授權的兩種方式

方法一：grant命令建立使用者並授權(針對只修改許可權) grant命令簡單語法如下：

PHP資料結構（九） ——圖的定義、儲存與兩種方式遍歷

PHP資料結構（九）——圖的定義、儲存與兩種方式遍歷（原創內容，轉載請註明來源，謝謝）

【jmeter系列】Jmeter將響應資料結果儲存到csv檔案的兩種方式（Bean Shell）

背景日常介面測試，需要將介面返回值對應的欄位資料儲存下來示例介面： post請求：

阿里雲伺服器手動實現mysql雙機熱備的兩種方式

一、概念 1、熱備份和備份的區別　　熱備份指的是：High Available（HA）即高可用，而備份指的是Backup，資料備份的一種。這是兩種不同的概念，應對的產品也是兩種功能上完全不同的產品。熱備份主要保障業務的連續性

scrapy資料儲存在mysql資料庫的兩種方式(同步和非同步)

相關推薦