使用Twisted框架實現非同步儲存資料到MySQL資料庫中

阿新 • • 發佈：2019-02-13

概述

以爬取豆瓣讀書Top250排行榜為例。

關鍵是使用Twisted框架的adbapi，建立資料庫連線池物件，然後使用這個資料庫連線池物件進行資料庫操作，
這樣就實現了資料儲存的非同步方案。

核心程式碼如下:
1.使用Twisted中的adbapi獲取資料庫連線池物件。
引數“pymsql”為使用的資料庫引擎名字，params與直接使用pymsql.connect(params)連線資料庫時相同
self.dbpool=adbapi.ConnectionPool('pymysql',**params)
2.使用資料庫連線池物件進行資料庫操作,自動傳遞cursor物件到資料庫操作方法的第一個引數，
query=self.dbpool.runInteraction(self.do_insert,item)

也可以設定出錯時的回撥方法,自動傳遞出錯訊息物件failure到錯誤處理方法的第一個引數
query.addErrback(self.on_error,spider)

程式碼

items.py

class DoubanbookItem(scrapy.Item):
    # 圖書詳情頁連結
    link=scrapy.Field()
    # 圖書名稱
    title=scrapy.Field()
    # 作者,出版資訊,價格等資訊
    info=scrapy.Field()
    # 豆瓣評分
    rating=scrapy.Field()
    # 引論 

    quote=scrapy.Field()

spider

# !/usr/bin/env python
# -*- coding:utf-8 -*-

import scrapy
from myscrapy.items import DoubanbookItem

class DoubanbookSpider(scrapy.Spider):
    """
    豆瓣讀書Top250爬蟲
        學習使用Twisted非同步框架的功能,實現非同步儲存資料到MySQL資料庫中
    """
    name = 'doubanbook'
    allowed_domains=['book.douban.com' 
]

    def start_requests(self):
        base_url='https://book.douban.com/top250?start='
        offset=0
        start_urls=[base_url+str((offset+x)*25) for x in range(10)]
        for start_url in start_urls:
            yield scrapy.Request(url=start_url,callback=self.parse)

    def parse(self, response):
        tr_nodes=response.xpath('//div[@class="indent"]//tr')

        for tr_node in tr_nodes:
            link=tr_node.xpath('.//div[@class="pl2"]/a/@href').extract_first()
            title=tr_node.xpath('.//div[@class="pl2"]/a/text()').re(r'\w+')[0]
            info=tr_node.xpath('.//p[@class="pl"]/text()').extract_first()
            rating=tr_node.xpath('.//span[@class="rating_nums"]/text()').extract_first()
            quote=tr_node.xpath('.//span[@class="inq"]/text()').extract_first()

            item=DoubanbookItem()
            item['link']=link
            item['title']=title
            item['info']=info
            item['rating']=rating
            item['quote']=quote
            yield item

pipelines.py

import pymysql
import scrapy
from twisted.enterprise import adbapi

class DoubanbookPipeline(object):
    """
    豆瓣讀書Top250 Item Pipeline
        create table doubanbook250(
            id int primary key auto_increment,
            link varchar(100) not null,
            title varchar(200) not null,
            info varchar(500) not null,
            rating varchar(10) not null,
            quote varchar(200) not null);
    """

    def __init__(self,host,user,password,db):
        params=dict(
            host = host,
            user = user,
            password = password,
            db = db,
            charset = 'utf8',  # 不能用utf-8
            cursorclass = pymysql.cursors.DictCursor
        )
        # 使用Twisted中的adbapi獲取資料庫連線池物件
        self.dbpool=adbapi.ConnectionPool('pymysql',**params)

    @classmethod
    def from_crawler(cls,crawler):
        # 獲取settings檔案中的配置
        host=crawler.settings.get('HOST')
        user=crawler.settings.get('USER')
        password=crawler.settings.get('PASSWORD')
        db=crawler.settings.get('DB')
        return cls(host,user,password,db)

    def process_item(self,item,spider):
        # 使用資料庫連線池物件進行資料庫操作,自動傳遞cursor物件到第一個引數
        query=self.dbpool.runInteraction(self.do_insert,item)
        # 設定出錯時的回撥方法,自動傳遞出錯訊息物件failure到第一個引數
        query.addErrback(self.on_error,spider)
        return item

    def do_insert(self,cursor,item):
        sql='insert into doubanbook250(link,title,info,rating,quote) values(%s,%s,%s,%s,%s)'
        args=(item['link'],item['title'],item['info'],item['rating'],item['quote'])
        cursor.execute(sql,args)

    def on_error(self,failure,spider):
        spider.logger.error(failure)

settings.py

# -*- coding: utf-8 -*-

BOT_NAME = 'myscrapy'

SPIDER_MODULES = ['myscrapy.spiders']
NEWSPIDER_MODULE = 'myscrapy.spiders'

# scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# 配置下載延時
DOWNLOAD_DELAY = 1

DOWNLOADER_MIDDLEWARES = {
    'myscrapy.middlewares.UserAgentDownloaderMiddleware': 99,
}

ITEM_PIPELINES = {
    'myscrapy.pipelines.DoubanbookPipeline': 300,
}

# MySQL資料庫引數
HOST = 'localhost'
USER = 'root'
PASSWORD = '123456'
DB = 'mydb'

執行結果

這裡寫圖片描述

使用Twisted框架實現非同步儲存資料到MySQL資料庫中

概述以爬取豆瓣讀書Top250排行榜為例。關鍵是使用Twisted框架的adbapi，建立資料庫連線池物件，然後使用這個資料庫連線池物件進行資料庫操作，這樣就實現了資料儲存的非同步方案。

【Python爬蟲】輕鬆幾步將 scrapy 框架獲取得到的資料儲存到 MySQL 資料庫中

以下操作是在一個完整的 scrapy 專案中新增程式碼: 中介軟體和 spiders 中的程式碼都不需要修改只需要做下面兩件事就可以將資料儲存到資料庫了，不過在寫程式碼之前我們要先：在終端執行命令：net star

python爬蟲系列(4.3-資料儲存到mysql資料庫中)

一、如果你對mysql資料庫還不太熟悉二、基本操作 1、在python中使用pymysql連線mysql 2、安裝包 pip3 install pymysql 3、定義一個建立資料庫的方法(或者手動、SQL語句建立資料庫) # 定義一個建立資料庫的函

scrapy----將資料儲存到MySQL資料庫中

1.在pipelines.py中自定義自己的pipelineimport pymysql class PymysqlPipeline(object): def __init__(self): # 連線資料庫 self.connect =

使用python爬蟲抓取頁面之後，將頁面儲存到Mysql資料庫中

#首先抓取html頁面內容，為了安全起見，有關url內容和mysql連線內容都以星號代替 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/

在ThinkPHP5框架下引入Ueditor並實現向七牛雲物件儲存上傳圖片同時將圖片資訊儲存到MySQL資料庫，同時實現lazyload懶載入

這是我花了很多天的時間才得以真正實現的一組需求。文章後面有完整Demo的GitHub連結。一、需求描述 1. 應用是基於ThinkPHP5開發的； 2. 伺服器環境是LNMP，PHP版本是7.2，資料庫是MySQL5.6； 3. 由使用者（包括管理員）上傳的圖片一類的媒體檔案不能直接上傳到應用

MySQL操作的時候，發現輸入當前資料，資料庫中儲存的資料總比輸入的要小8個小時

在使用mybatis進行MySQL操作的時候，發現輸入當前資料，資料庫中儲存的資料總比輸入的要小8個小時，幾經搜尋找到了原因，原來是因為mybatis配置檔案中 <property name="url" value="jdbc:mysql://localhost:3306/mybatisD

cheerio爬取網頁資料，儲存到MySQL資料庫

最近在做物流專案成本分析，需要爬取柴油價格資料，使用到了cheerio，cheerio實現了jQuery核心的一個子集。以下為爬取程式碼。 //getHtml.js，獲取HTML頁面資料 var http = require("http"); function gethtml(url,

python爬取拉勾網資料儲存到mysql資料庫

環境:python3 相關包:requests , json , pymysql 思路:1.通過chrome F12找到拉鉤請求介面,分析request的各項引數 2.模擬瀏覽器請求拉鉤介面 3.預設返回的json不是標準格式 ,

Python爬蟲-利用百度地圖API介面爬取資料並儲存至MySQL資料庫

首先，我這裡有一份相關城市以及該城市的公園數量的txt檔案：其次，利用百度地圖API提供的介面爬取城市公園的相關資訊。所利用的API介面有兩個： 1、http://api.map.baidu.com/place/v2/search?q=公園&

如何在python3中將網頁爬蟲資料儲存到mysql資料庫

前兩篇文章都在說在py中用BeautfulSoup爬取本地網頁的事情，本來準備去真實網頁試一下的，但是老林說不如把你之前學的mysql資料庫溫習一下，順道學著把你現在爬到的網頁存取到mysql資料庫之中~ 由此本文的主題就出現了: 如何在python3中將網頁爬蟲資料儲存到mysql資

用java實現對MySql資料庫中資料的讀取、插入、修改和刪除

目標： 1、實現eclipse同資料庫的連線 2、在eclipse中用java實現對資料庫的控制初學java和資料庫，本文是參考這篇文章的思路的學習筆記，程式碼實現了將4個控制函式（讀取、插入、修改和刪除）分別寫成4個靜態方法呼叫。 1. 關於java和MySQL的連

Java向Mysql資料庫中儲存圖片等二進位制檔案的實現，以及常見報錯的解決！

Mysql資料庫的功能很強大，除了能儲存字元等常見資料以外，它同樣可以儲存圖片等二進位制檔案，本文以儲存照片為例。一、Mysql儲存二進位制檔案常見報錯有： 1.com.mysql.jdbc.PacketTooBigException: Packet for query

爬取資料儲存至mysql資料庫

做爬蟲，免不了將抓取下來的資料儲存到資料庫，但是如何儲存到資料庫呢，下面我通過我工作中抓取的一個網站來展示，程式碼有點多，但是邏輯很簡單，此例是將view Details的連結儲存在了mysql中，先看看網站是什麼樣子：下邊這個圖是頁碼網站是這個

Pyspider例項之抓取資料並儲存到MySQL資料庫

本次主要是在Pyspider例項之抓取小米眾籌產品的基礎上修改的，本來想直接在之前那篇文章修改的，但是感覺有點長了，所以決定另外寫一篇。閒話少說，直接進入正題： 1、在Pyspider的指令碼開頭引入： from pyspider.databas

JSP實現HTML網頁對Mysql資料庫的資料修改

<% request.setCharacterEncoding("utf-8"); String msg=""; String msg1=""; boolean error=false; 獲取網址中傳遞的Id String origId = request.getParameter("pid"); S

MySQL資料庫中的儲存引擎

與其他資料庫軟體不同，MySQL資料庫提供了一種名為儲存引擎的概念。儲存引擎是MySQL資料庫管理系統的一個重要特徵，在具體開發中，為了提高MySQL資料庫管理系統的使用效率和靈活性，可以根據實際情況來選擇儲存引擎。簡單的說資料庫是用一張張表來儲存資訊的，那麼必然就會存在有的表簡單，有的

解決查詢MySQL資料庫中重複資料的問題

今天遇到一個問題，需求是查詢新採集資料中重複資料的條數。在採集完資料對資料進行去重查詢時sql結果不正確，因為有一部分sql是在業務程式碼中進行拼接的： “SELECT COUNT(*) FROM (“ + sql + “)_AA；” 之前的sql：SELECT 1 FROM TAB

python爬蟲系統(4.4-資料儲存到mongodb資料庫中)

一、如果你對mongodb不太熟悉的可以參考二、將爬取的資料直接存入到mongodb資料庫中 1、在python中使用pymongo連線mongodb pip3 install pymongo 三、依然將之前爬取農產品產品資訊的資料存入mongodb中

mysql資料庫中的bit是何種資料型別？

Bit稱為位資料型別，其資料有兩種取值：0和1，長度為1位。在輸入0以外的其他值時，系統均把它們當1看待。這種資料型別常作為邏輯變數使用，用來表示真、假或是、否等二值選擇。 SQL Server中儲存資料的一種型別，只能儲存true/false，程式讀取資料庫出來之後的表現形式是true或者fals

使用Twisted框架實現非同步儲存資料到MySQL資料庫中

概述

程式碼

執行結果

相關推薦