scrapy爬蟲框架中資料庫（mysql）的非同步寫入

阿新 • • 發佈：2018-12-09

####資料庫的非同步寫入
scrapy爬蟲框架裡資料庫的非同步寫入與同步寫入在程式碼上的區別也就在pipelines.py檔案和settings.py問價的區別，其他的都是一樣的。本文就介紹一下pipelines.py和settings.py檔案裡面是如何配置的。
1、先到settings.py檔案裡面配置資料庫的相關欄位
這裡寫圖片描述
2、先在pipelines.py檔案裡面匯入相關模組

import pymysql
from scrapy.pipelines.images import ImagesPipeline
# twisted: 用於非同步寫入(包含資料庫)的框架，cursor.execute()是同步寫入
from twisted.enterprise import adbapi

3、資料庫寫入部分程式碼如下：
要在from_settings這個類方法裡面寫上載入配置資料的程式碼
然後建立一個數據庫連線池物件，裡面可以包含多個connect連線物件

class MySQLTwistedPipeline(object):
    def __init__(self, pool):
        self.dbpool = pool

    @classmethod
    def from_settings(cls, settings):
        """
        這個函式名稱是固定的，當爬蟲啟動的時候，scrapy會自動呼叫這些函式，載入配置資料。
        :param settings:
        :return:
        """
        params = dict(
            host=settings['MYSQL_HOST'],
            port=settings['MYSQL_PORT'],
            db=settings['MYSQL_DB'],
            user=settings['MYSQL_USER'],
            passwd=settings['MYSQL_PASSWD'],
            charset=settings['MYSQL_CHARSET'],
            cursorclass=pymysql.cursors.DictCursor
        )

        # 建立一個數據庫連線池物件，這個連線池中可以包含多個connect連線物件。
        # 引數1：操作資料庫的包名
        # 引數2：連結資料庫的引數
        db_connect_pool = adbapi.ConnectionPool('pymysql', **params)

        # 初始化這個類的物件
        obj = cls(db_connect_pool)
        return obj

    def process_item(self, item, spider):
        """
        在連線池中，開始執行資料的多執行緒寫入操作。
        :param item:
        :param spider:
        :return:
        """
        # 引數1：線上程中被執行的sql語句
        # 引數2：要儲存的資料
        result = self.dbpool.runInteraction(self.insert, item)
        # 給result繫結一個回撥函式，用於監聽錯誤資訊
        result.addErrback(self.error)

    def error(self, reason):
        print('--------', reason)
    # 線面這兩步分別是資料庫的插入語句，以及執行插入語句。這裡把插入的資料和sql語句分開寫了，跟何在一起寫效果是一樣的
    def insert(self, cursor, item):
        insert_sql = "INSERT INTO bole(bole_title, bole_date, bole_tag, bole_content, bole_dz, bole_sc, bole_pl, bole_img_src) VALUES (%s, %s, %s, %s, %s, %s, %s, %s)"
        cursor.execute(insert_sql, (item['bole_title'], item['bole_date'], item['bole_tag'], item['bole_content'], item['bole_dz'], item['bole_sc'], item['bole_pl'], item['bole_img_path']))
        # 不需要commit()

4、也就是最後一步了，在settings.py檔案裡面，先將系統預設的同步寫入的方式給註釋了，然後再寫入自己自定義的非同步寫入方式，不然pipeline.py檔案裡面寫的非同步寫入就執行不了了
這裡寫圖片描述

scrapy爬蟲框架中資料庫（mysql）的非同步寫入

scrapy爬蟲框架中資料庫（mysql）的非同步寫入

flask框架建立資料庫（MySQL）

ssm中mybatis處理資料庫（mysql）與pojo屬性中型別不一致（string轉date）

Scrapy(爬蟲框架)中，Spider類中parse()方法的工作機制

資料庫（mysql）業務使用者表批量造測試使用者密碼資料[方案]

jmeter配置連線資料庫（mysql）

jmeter如何建立資料庫（MySQL）測試

node學習(五)——連線資料庫（mysql）

Redis在三層服務框架中應用（一）——Redis與Model的結合

HeidiSQL中資料庫（*.sql）檔案匯入匯出

Android開發中資料庫（sqlite）的檢視及一些問題的解決方法

JFina連線資料庫（mysql）並執行增刪改操作+jsp（vue.js）

使用資料庫（mysql）欄位儲存檔案

ThinkPHP3.2框架中新增（add）或更新（save）時過濾某些欄位的問題

【蟲師--系列】使用JMeter建立資料庫（Mysql）測試

使用JMeter建立資料庫（Mysql）測試

scrapy爬蟲框架（四）：scrapy中 yield使用詳解

Python中scrapy爬蟲框架的資料儲存方式（包含：圖片、檔案的下載）

在scrapy爬蟲框架xpath中extract（）方法的使用

scrapy爬蟲框架（三）：爬取桌布儲存並命名

scrapy爬蟲框架中資料庫（mysql）的非同步寫入

相關推薦