在Scrapy中使用Django的ORM非同步儲存資料

阿新 • • 發佈：2020-12-04

在Scrapy中使用Django的ORM非同步儲存資料

django的orm可以脫離django使用，只要我們將django的環境舒適化就可以了。

在scrapy中使用

首先我們的建立一個django專案，然後在建立一個scrapy專案。

然後再scrapy中初始化django的環境

一般我們在scrapy的專案的__init__.py裡面初始化

import django
import os
import sys

# 將django的專案路徑加入到當前的環境
sys.path.insert(0, os.path.dirname(os.getcwd()))

# django專案舒適化
os.environ.setdefault('DJANGO_SETTINGS_MODULE', 'djangoProject.settings')

django.setup()

初始化完成之後，我們就可以直接在scrapy中匯入django的orm並使用了。

非同步儲存

因為scrapy是非同步的爬蟲框架，如果我們在裡面直接使用django的orm會有io阻塞的操作。這時候我們就藉助asyncio這個包來幫助我們在scrapy中運行同步阻塞的程式碼。

因為我們scrapy中處理資料都放在pipline中處理，所以我放在pipline中展示

from concurrent.futures import ThreadPoolExecutor
import asyncio
from goods import models
from . import items


class WebspidersPipeline:
    '''todo 非同步儲存'''
    
    # 建立事件迴圈物件
    loop = asyncio.get_event_loop()
    # 建立執行緒池
    executor = ThreadPoolExecutor()
    # 任務佇列
    tasks = []
	
    # 處理不同的pipline
    async def process_item(self, item, spider):
        if isinstance(item, items.GoodsItem):
            return self.process_goods_item(item, spider)
        elif isinstance(item, items.GoodsSizeItem):
            return self.process_goods_size_item(item, spider)
        elif isinstance(item, items.GoodsStockItem):
            return self.process_goods_stock_item(item, spider)
        return item
	
    def process_goods_item(self, item, spider):
        '''將儲存資料的處理方法加入到任務佇列'''
        task = self.loop.run_in_executor(self.executor, self.executor_func(models.Goods, item), )
        self.tasks.append(task)
        return item

    def process_goods_size_item(self, item, spider):
        task = self.loop.run_in_executor(self.executor, self.executor_func(models.GoodsSize, item), )
        self.tasks.append(task)
        return item

    def process_goods_stock_item(self, item, spider):
        task = self.loop.run_in_executor(self.executor, self.executor_func(models.GoodsStock, item), )
        self.tasks.append(task)
        return item

    @staticmethod
    def executor_func(model, item):
        '''主要作用是將有引數的函式轉換為無引數的函式返回,方便run_in_executor方法呼叫,這個方法它只接受位置傳參，不接受關鍵字傳參'''
        def func():
            return model.objects.create(**item)

        return func

    def close_spider(self, spider):
        '''當爬蟲關閉的時候呼叫這個方法儲存資料'''
        self.loop.run_until_complete(asyncio.wait(self.tasks))

執行結果

之前直接使用同步的方法儲存的時候，2000個請求+資料儲存花費了大約10分鐘（sqlite3）

後面使用非同步儲存的時候，使用sqlite3會報錯，因為sqlite3是單執行緒的，我們是一個執行緒池物件，併發儲存會被sqlite3拒絕（database was locked）

後面改用了mysql儲存，2000個請求+資料儲存花費了大約40s，這個提升量還是很驚人的。

後面分析了一下，在scrapy中使用同步的方式儲存會導致scrapy的非同步請求會等待同步的儲存完成之後才去執行，大量的時間浪費了等待上面。

後面單獨執行網路請求部分，沒有資料儲存，2000個請求花費了大約25s旁邊。

在Scrapy中使用Django的ORM非同步儲存資料

在Scrapy中使用Django的ORM非同步儲存資料 django的orm可以脫離django使用，只要我們將django的環境舒適化就可以了。

淺談Java中的集合儲存資料後,輸出資料的有序和無序問題

HashSet,TreeSet,無序是指儲存資料的順序和取出資料的順序不一致；但是TreeSet 是按照指定的順序排個序出來；

如何使用scrapy中的ItemLoader提取資料

1. 簡述我們在用scrapy爬取資料時，首先就要明確我們要爬取什麼資料。scrapy提供了Item物件這種簡單的容器，我們可以通過Item定義提取資料的格式，需要爬取哪些欄位，其提供了類似於字典的API以及用於宣告可用欄位

C#中bigint 型別儲存資料大於17位後js取值不精確

可以將long型別序列化為字串 namespace KKBM.Tools.JsonConverters { public class LongToStringConvert : JsonConverter

利用scrapy將爬到的資料儲存到mysql（防止重複）

前言本文主要給大家介紹了關於scrapy爬到的資料儲存到mysql（防止重複）的相關內容，分享出來供大家參考學習，下面話不多說了，來一起看看詳細的介紹吧。

ETCD使用中需要注意的問題--自動壓縮--最大位元組數--儲存資料大小

ETCD使用中需要注意的問題我們在實際生產中使用ETCD儲存元資料，　起初叢集規模不大的時候元資料資訊不多沒有發現什麼問題。　隨著叢集規模越來越大問題逐漸暴露了

vuex外掛、前端儲存資料、前後臺互動方式、axios外掛、同源策略 - 跨域問題、前後臺分離專案互動流程、非同步請求細節、element-ui外掛、jq+bs外掛、bs環境搭建、Django國際化配置

```python\"\"\"第三方外掛：1）vuex：元件間互動的（移動端）2）axios - 前後臺（django）：ajax3）element-ui：頁面佈局4）jq+bs：jQuery+BootStrap\"\"\"```### vuex外掛：可以完成任意元件間資訊互動（移動端）

在Scrapy中如何利用Xpath選擇器從網頁中採集目標資料——詳細教程（上篇）

點選上方“Python爬蟲與資料探勘”，進行關注回覆“書籍”即可獲贈Python從入門到進階共10本電子書

Scrapy爬蟲(七)：爬蟲資料儲存例項

Scrapy爬蟲(七)：爬蟲資料儲存例項 Scrapy爬蟲七爬蟲資料儲存例項資料儲存配置mysql服務

實戰｜手把手教你用Python爬取儲存資料，還能自動在Excel中視覺化！

大家好，在之前我們講過如何用Python構建一個帶有GUI的爬蟲小程式，很多本文將迎合熱點，延續上次的NBA爬蟲GUI，探討如何爬取虎撲NBA官網資料。並且將資料寫入Excel中同時自動生成折線圖，主要有以下幾個步驟

Properties集合。使用Properties集合儲存資料，遍歷取出Properties集合中的資料。store與load方法的使用

package com.chunzhi.Test07Prop; import java.io.FileReader; import java.io.FileWriter; import java.io.IOException;

Numpy中常用的儲存與讀取資料的方法

技術標籤：人工智慧tensorflowpytorch神經網路深度學習在遇到經常性的讀取數值檔案的時候，比如在做深度學習處理的資料，將原始資料轉為Numpy格式的資料，然後使用Numpy直接讀取，這樣可以加快資料的讀取速度，

組合語言：計算data段中的第一組資料的3次方，結果儲存在後面一組的dword單元中

技術標籤：彙編文章目錄計算立方的子程式整體程式執行結果計算立方的子程式

在Unity中使用SQLite儲存配置表資料(For Lua)

在Lua中使用sqlite Lua版本Sqlite文件：http://lua.sqlite.org/index.cgi/doc/tip/doc/lsqlite3.wiki

handsontable vue 資料載入_【第七期】使用 vueasynmanager 管理 Vue 應用中的非同步呼叫...

技術標籤：handsontable vue 資料載入不知道大家對 React Suspense 是否有過關注，也許 Suspense 讓人比較激動的是在服務端的流式渲染，然而從目前來看，React Suspense 的功能其實就是個 Loadable。當然啦這

for迴圈中有非同步操作導致資料順序錯亂的問題

經常會遇到for迴圈裡有非同步操作，比如某些條件下要去請求資料，某些條件下只是靜態資料。最終得到的結果和預期的不一致。

Ubuntu中修改MySQL5.7資料儲存路徑

修改原因最近寫一個專案需要用MySQL儲存資料，本人只是按照預設方式更新MySQL，但是我的Linux的root目錄只分配了8G，隨著MySQL資料庫中的資料增加出現的以下問題：

資料中臺的“自動化資料治理”時代已來

中臺，我理解是能力的下沉，資料處理能力下沉為加工平臺，資料處理結果下沉為資料資產。那麼資料治理能否下沉？可以下沉出什麼東西？

Android通過ViewModel儲存資料實現多頁面的資料共享功能

通過ViewModel實現的資料共享符合Android的MVC設計模式，將資料獨立出來實現的Demo

python中aioysql(非同步操作MySQL)的方法

python非同步IO初探探索非同步IO執之前，先說說IO的種類 1.阻塞IO最簡單，即讀寫資料時，需要等待操作完成，才能繼續執行。進階的做法就是用多執行緒來處理需要IO的部分，缺點是開銷會有些大。

在Scrapy中使用Django的ORM非同步儲存資料