scrapy pipline 將資料存入不同的資料庫

阿新 • • 發佈：2018-12-11

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.exporters import CsvItemExporter
from datetime import datetime
import json
import pymongo
import redis


class  ToutiaoPipeline(object):
    def process_item(self, item, spider):
        item['source'] = spider.name
        item['utc_time'] = str(datetime.utcnow())
        return item


class ToutiaoJsonPipeline(object):
    def open_spider(self, spider):
        self.filename = open("data.json", "w")

    def process_item(self, item, spider):
        content = json.dumps(dict(item)) + ",\n"
        self.filename.write(content)
        return item

    def close_spider(self, spider):
        self.filename.close()


class ToutiaoCsvPipeline(object):
    def open_spider(self, spider):
        self.filename = open("data.csv", "wb")
        # 建立一個csv檔案讀寫物件，引數是需要儲存資料的csv檔案物件
        self.csv_exporter = CsvItemExporter(self.filename)
        # 表示開始進行資料寫入
        self.csv_exporter.start_exporting()

    def process_item(self, item, spider):
        self.csv_exporter.export_item(item)
        return item

    def close_spider(self, spider):
        # 表示結束資料寫入
        self.csv_exporter.finish_exporting()
        self.filename.close()


class ToutiaoMongoPipeline(object):
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(host="192.168.xx.xx", port=27017)
        self.db = self.client['toutiao']
        self.collection = self.db['content_data']

    def process_item(self, item, spider):
        self.collection.insert(dict(item))
        return item


class ToutiaoRedisPipeline(object):
    def open_spider(self, spider):
        self.client = redis.Redis(host="127.0.0.1", port=6379)

    def process_item(self, item, spider):
        content = json.dumps(dict(item))
        self.client.lpush("TOUTIAO_ITEM", content)
        return item

scrapy pipline 將資料存入不同的資料庫

# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrap

morphia將資料存入mongodb資料庫，報錯：···morphia.mapping. ···No usable constructor for com.XX.XX.XX

morphia操作mongodb報錯： org.mongodb.morphia.mapping.MappingException: No usable constructor for com.XX.XX.model.User 原因：是因為User這個類沒有可用的構造器，也

5.使用者模組：註冊將資料存入到資料庫

1、頁面上傳過來的沒有狀態和啟用碼，編寫生成隨機數字的類用來取得啟用碼UUIDUtils.java package cn.xdy.shop.util; import java.util.UUID;

將scrapy爬蟲框架爬取到的資料存入mysql資料庫

使用scrapy爬取網站資料，是一個目前來說比較主流的一個爬蟲框架，也非常簡單。 1、建立好專案之後現在settings.py裡面把ROBOTSTXT_OBEY的值改為False，不然的話會預設遵循robots協議，你將爬取不到任何資料。 2、在爬蟲檔案裡開始寫

Python以太坊互動將區塊鏈資料存入sql資料庫

關於區塊鏈介紹性的研討會通常以易於理解的點對點網路和銀行分類賬這類故事開頭，然後直接跳到編寫智慧合約，這顯得非常突兀。因此，想象自己走進叢林，想象以太坊區塊鏈是一個你即將研究的奇怪生物。今天我們將觀察該生物，並與其進行互動然後將有關它的所有資料收集到一個集中儲存中供自己使用。進行第一次設

動態解析JSON字串，將資料存入資料庫

我在使用netty時候，由於不同裝置發出的JSON字串不一樣，我需要一個動態解析JSON字串方法去解決，我的思路是先將json字串通過gson這個類轉成map,由於在執行期間無法得知T的具體型別，對這個類的物件進行序列化和反序列化都不能正常進行。Gson通過藉助TypeTok

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述以下的程式碼是使用python實現的網路爬蟲，抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。本人對於Python學習建立了一個小小的學習圈子，為各位提供了

scrapy爬蟲資料存入mysql資料庫

上篇部落格使用scrapy框架爬取豆瓣電影top250資訊將各種資訊通過json存在檔案中，不過對資料的進一步使用顯然放在資料庫中更加方便，這裡將資料存入mysql資料庫以便以後利用。執行環境： 1. win7-64bit 2. python 3.5.

java讀取資料庫資料，並將資料存入陣列返回

// 查詢資料庫內手機線上狀態的裝置資訊，得到的是List<Map<>>格式 // 例如[{udid=7b45c30, version=7.1.1, phonename=MiNote3}, {udid=UYT7N17B16002687, vers

使用POI將資料匯入匯出資料庫。

POI將資料匯入匯出資料庫。（採用ssm框架） 1.前臺列表的展示 <script type="text/javascript"> //進行資料的全選 function selectAll(){ var ids=document.get

用python在後端將資料寫入到資料庫並讀取

用python在後端將資料寫入到資料庫： # coding:utf-8 import pandas as pd from sqlalchemy import create_engine # 初始化資料庫連線，使用pymysql模組 # MySQL的使用者：root, 密碼:147369, 埠：

shell指令碼連線資料庫新增資料查詢資料連線不同資料庫 shell日期獲取格式三分鐘前上週昨天修改

註釋：shell 單括號運算子號：a=$(date);等同於：a=`date` 雙括號運算子:a=$((1+2));echo $a;等同於：a=`expr 1 + 2` 東西有點多，就一起都講了。日期格式：獲取當前日期：1，date "+%Y-%m-%d %

Shell_mysql命令以及將資料匯入Mysql資料庫

連線MYSQL資料庫 mysql -h${db_ip} -u${db_user} -p${db_pawd} -P${db_port} -D${db_name} -s -e "${sql}" 　　db_ip：主機地址　　db_user ：資料庫使用者名稱　　db_pwd：密碼　　db

C/C++從鍵盤讀入連續輸入的資料（以回車結束），並將資料存入連結串列。

要求新建一個連結串列，連結串列從鍵盤讀取一組連續輸入的資料，每個資料之間以一個空格分隔，當遇到換行符時，停止讀取。下面是自己總結的比較簡單的實現方法。 C: #include <stdio.h> typedef struct ListNode *node; s

將資料存入mysql中

import pymysql import warnings # 忽略警告 warnings.filterwarnings("ignore") # 連線資料庫 db = pymysql.connect("localhost", 'root', "123456", charset="utf8") #

利用pandas的to_sql將資料插入MySQL資料庫和所踩過的坑

前言最近做一個Django web的專案要把爬取的一些資料存入MySQL中，資料儲存為csv格式，想到pandas中有to_sql這個方法，就採用它了準備：連線MySQL資料庫所需的第三方包pymysql、sqlalchemy（pip安裝即可）實現 from sql

字串長度超過4000字元的資料存入oracle資料庫裡clob型別的欄位裡，並之後做前臺查詢展示

這個過程會產生的問題有： 1. 因為oracle的兩個單引號之間字元長度不能超過4000，字串長度超過4000字元後或報字元過長的錯，無法直接insert或update進資料庫，必須得轉換成clob型別。 2.查出來的clob資料不是字串，無法直接展示。我在ssm框架

python中CSV檔案資料存入mysql資料庫

使用pandas讀取檔案自定義函式新增資料 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/20 10:32 # @Author : deli Guo # @Site :

Django 使用ORM將資料批量插入資料庫之bulk_create()

在Django中需要向資料庫中插入多條資料（list）。使用如下方法，每次save()的時候都會訪問一次資料庫。導致效能問題 for i in resultlist: p = Account(name=i) p.save() 1 2 3 4

Oracle11g之實用技術將資料插入Oracle資料庫時如何得到其rowId

Oracle11g之實用技術--將資料插入Oracle資料庫時如何得到其rowIdOracle11g有諸多的新特性，相信各位已經從很多渠道瞭解到了(注：還不清楚的請訪問http://wmdata.com.cn/oracle/11g/index.asp?froms=blog)，

scrapy pipline 將資料存入不同的資料庫

相關推薦