第九篇數據表設計和保存item到json文件

阿新 • • 發佈：2017-10-05

初始 self pycha cti ensure comment 項目 div init

上節說到Pipeline會攔截item，根據設置的優先級，item會依次經過這些Pipeline，所以可以通過Pipeline來保存文件到json、數據庫等等。

下面是自定義json

#存儲item到json文件
class JsonWithEncodingPipeline(object):
    def __init__(self):
        #使用codecs模塊來打開文件，可以幫我們解決很多編碼問題,下面先初始化打開一個json文件
        import codecs
        self.file = codecs.open(‘article.json‘,‘w‘ 
,encoding=‘utf-8‘)
    #接著創建process_item方法執行item的具體的動作
    def process_item(self, item, spider):
        import json
        #註意ensure_ascii入參設置成False，否則在存儲非英文的字符會報錯
        lines = json.dumps(dict(item),ensure_ascii=False) + "\n"
        self.file.write(lines)
        #註意最後需要返回item，因為可能後面的Pipeline會調用它 

        return item
    #最後關閉文件
    def spider_close(self,spider):
        self.file.close()

scrapy內置了json方法：

from scrapy.exporters import JsonItemExporter

技術分享

除了JsonItemExporter，scrapy提供了多種類型的exporter

class JsonExporterPipeline(object):
    #調用scrapy提供的json export導出json文件
    def __init__(self):
         
#打開一個json文件
        self.file = open(‘articleexport.json‘,‘wb‘)
        #創建一個exporter實例,入參分別是下面三個，類似前面的自定義導出json
        self.exporter = JsonItemExporter(self.file,encoding=‘utf-8‘,ensure_ascii=False)
        #開始導出
        self.exporter.start_exporting()
    def close_spider(self,spider):
        #完成導出
        self.exporter.finish_exporting()
        #關閉文件
        self.file.close()
    #最後也需要調用process_item返回item
    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

和自定義json相比，存的文件由【】

技術分享

通過源碼可以看到如下：

技術分享

接著是如何把數據存儲到mysql，我這開發環境是ubuntu，支持的mysql-client工具不多，免費的就用Mysql Workbench,也可以使用navicat（要收費）

spider要創建的一張表，和ArticleSpider項目裏的item一一對應就行。

技術分享

然後接下來是配置程序連接mysql

這裏我使用第三方庫pymysql來連接mysql，安裝方式很簡單，可以使用pycharm內置的包安裝，也可以在虛擬環境用pip安裝

技術分享

然後直接在pipline裏創建mysql的pipline

import pymysql
class MysqlPipeline(object):
    def __init__(self):
        """
        初始化，建立mysql連接conn，並創建遊標cursor
        """
        self.conn = pymysql.connect(
            host=‘localhost‘,
            database=‘spider‘,
            user=‘root‘,
            passwd=‘123456‘,
            charset=‘utf8‘,
            use_unicode=True
        )
        self.cursor = self.conn.cursor()
    def process_item(self,item,spider):
        #要執行的sql語句
        insert_sql = """
            insert into jobbole_article(title,create_date,url,url_object_id,
            front_image_url,front_image_path,praise_num,comment_num,fav_num,tags,content)
            VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)
        """
        #使用遊標的execute方法執行sql
        self.cursor.execute(insert_sql,(item["title"],item[‘create_date‘],
                                        item[‘url‘],item[‘url_object_id‘],
                                        item[‘front_image_url‘],item[‘front_image_path‘],
                                        item[‘praise_num‘],item[‘comment_num‘],item[‘fav_num‘],
                                        item[‘tags‘],item[‘content‘]))
        #commit提交才能生效
        self.conn.commit()
        return item

上面的這種mysql存儲方式是同步的，也就是execute和commit不執行玩，是不能繼續存儲數據的，而且明顯的scrapy爬取速度會比數據存儲到mysql的速度快些，

所以scrapy提供了另外一種異步的數據存儲方法（一種異步的容器，還是需要使用pymysql）

首先把mysql的配置連接信息寫進setting配置文件，方便後期修改

MYSQL_HOST = "localhost"
MYSQL_DBNAME = ‘spider‘
MYSQL_USER = "root"
MYSQL_PASSWORD = "123456"

接著在pipeline中導入scrapy提供的異步的接口：adbapi

from twisted.enterprise import adbapi

完整的pipeline如下：

class MysqlTwistedPipeline(object):
    #下面這兩個函數完成了在啟動spider的時候，就把dbpool傳入進來了
    def __init__(self,dbpool):
        self.dbpool = dbpool

    #通過下面這種方式，可以很方便的拿到setting配置信息
    @classmethod
    def from_settings(cls,setting):
        dbparms = dict(
        host = setting[‘MYSQL_HOST‘],
        db = setting[‘MYSQL_DBNAME‘],
        user = setting[‘MYSQL_USER‘],
        password = setting[‘MYSQL_PASSWORD‘],
        charset = ‘utf8‘,
        #cursorclass = pymysql.cursors.DictCursor,

        use_unicode = True,

        )

        #創建連接池，
        dbpool = adbapi.ConnectionPool("pymysql",**dbparms)

        return cls(dbpool)

    # 使用twisted將mysql插入變成異步執行
    def process_item(self, item, spider):
        # 指定操作方法和操作的數據
        query = self.dbpool.runInteraction(self.do_insert,item)
        #處理可能存在的異常，hangdle_error是自定義的方法
        query.addErrback(self.handle_error,item,spider)

    def handle_error(self,failure,item,spider):
        print(failure)

    def do_insert(self,cursor,item):
        #執行具體的插入
        # 根據不同的item 構建不同的sql語句並插入到mysql中
        insert_sql = """
                       insert into jobbole_article(title,create_date,url,url_object_id,
                       front_image_url,front_image_path,praise_num,comment_num,fav_num,tags,content)
                       VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)
                   """
        # 使用遊標的execute方法執行sql
        cursor.execute(insert_sql, (item["title"], item[‘create_date‘],
                                         item[‘url‘], item[‘url_object_id‘],
                                         item[‘front_image_url‘], item[‘front_image_path‘],
                                         item[‘praise_num‘], item[‘comment_num‘], item[‘fav_num‘],
                                         item[‘tags‘], item[‘content‘]))

註意：導入pymysql需要單獨導入cursors

import pymysql
import pymysql.cursors

一般我們只需要修改do_insert方法內容就行

還有，傳遞給的item要和數據表的字段對應上，不能以為不傳值就會自動默認為空（但是存儲到json文件就是這樣）

第九篇數據表設計和保存item到json文件

初始 self pycha cti ensure comment 項目 div init 上節說到Pipeline會攔截item，根據設置的優先級，item會依次經過這些Pipeline，所以可以通過Pipeline來保存文件到json、數據庫等等。下面是自定義json

數據結構化和保存

ret url mode rst spl pri HA AD itl 1. 將新聞的正文內容保存到文本文件。 newscontent=soup.select(‘.show-content‘)[0].textf=open(‘new.txt‘,‘w‘)f.write(newsc

第九篇：用spring boot整合swagger2建立API文件

簡介： Swagger的目標是為REST APIs 定義一個標準的，與語言無關的介面，使人和計算機在看不到原始碼或者看不到文件或者不能通過網路流量檢測的情況下能發現和理解各種服務的功能。當服務通過Swagger定義，消費者就能與遠端的服務互動通過少量的實現邏輯。類似於低階程

第9講++數據表的管理和操作

ima val mar pan image add 學生專業 http 實例1：在學生情況表xsqk中，增加三列：　　　　“籍貫”字段，char(12)，默認值為“重慶”；　　　　“email”字段，varchar(30) ，不能重復；　　　　“序號”列，

第8講++數據表和約束的創建(實訓)

play 序號創建 lda 數據庫切換 tro 約束 http ast 動手操作1：創建kc表和表約束(續) create database xscj go --表示一個批的結束。go 只能獨自占用一行 use xscj

數據庫設計和多表查詢

分享圖片 rim empty 我們兩個相關缺點 upd 全部 #1、首先明確一點：分組發生在where之後，即分組是基於where之後得到的記錄而進行的 #2、分組指的是：將所有記錄按照某個相同字段進行歸類，比如針對員工信息表的職位分組，或者按照性別進行分組等

SAP 常用業務數據表設計

xsl sid 表頭狀態缺省物料用戶方式 arc 表的要求表中使用的字段請盡量參照各模塊的SAP字段標準使用習慣；例："ZXSLRZX銷售組織對應的利潤中心"中的銷售組織應該使用VKORG、利潤中心應該使用PRCTR。根據表的用途，需確定是否屬於配置目的、還是

語法》第九章數據類型轉換

系統 exp 加法 bject int() 返回對象減法這樣的報錯第二部分語法 ************第九章數據類型轉換 *************** JavaScript 是一種動態類型語言，變量沒有類型限制，可以隨時賦予任意值。雖然變量沒有類

通訊錄數據表設計v0.5

聯系 sch body varchar com style 註冊賬號姓名通訊用戶表：存放系統的賬號信息; 表名: Users 名稱列名數據類型是否為主鍵外鍵是否為空註釋用戶名稱 UsersName nvarch

權限管理數據表設計說明

徹底 mis 情況添加權限多個讓我行數依次權限管理數據表設計說明 B/S系統中的權限比C/S中的更顯的重要，C/S系統因為具有特殊的客戶端，所以訪問用戶的權限檢測可以通過客戶端實現或通過客戶端+服務器檢測實現，而B/S中，瀏覽器是每一臺計算機都已具備的，如果不

第九章數據查詢基礎

表之間運算 date() ade 信息 edi 特定 rand() 數據查詢一. 數據查詢基礎 1. 查詢所有數據 select * from 表名 2. 根據限制條件查詢數據 select * from 表名 where 限制條件 3. 根據

MySQL修改數據表名和表字段命令行

esc www. modify 類型 sql code 什麽 ren rip 有時候我們有需要更改數據表名和表字段，那麽通過什麽命令行更改數據表的名稱，表的字段更改，增加，刪除，下面詳細說說操作數據表的方法 1，修改表的名稱命令行 ALTER TABL

第九章數據管理

nts mount ntp args span lee pre bsp bus 9.1 Volume 　　Pod是短暫的，Pod在銷毀時，保存在容器內部的文件系統各種的數據會被清除。　　為了持久化保存容器中的的數據，可以使用K8s Volume。　　9.1.1 empt

數據表設計常用規範

mysql utf-8 style class 統一 .html 單詞表設計 spa 1、每個表都有自己的主鍵 2、表名以"tb_"作為前綴 3、表示是否激活、是否啟動這種，字段以"is_"作為前綴 4、數據庫字段統一小寫，單詞之間使用下劃線分隔 5、表字符集

第3章數據類型和運算符

劃線分隔 3.1 標識多行自動類型轉換基本類型 bsp 算數運算第3章數據類型和運算符 3.1 註釋 3.1.1 單行註釋和多行註釋 3.1.2 文檔註釋

15套java互聯網架構師、高並發、集群、負載均衡、高可用、數據庫設計、緩存、性能優化、大型分布式項目實戰視頻教程

二階並發支持線程並發 important http 系統架構四十 mongodb入門 * { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架構師、集群、高可用、高可擴

使用oracle數據庫和MySQL數據庫時hibernate的映射文件.hbm.xml的不同

生成 hbm.xml con -a data 自己 column data- 並且假設是使用oracle數據庫。那麽hibernate的映射文件.hbm.xml例如以下： <id name="xuehao" column="xuehao"> </id

MySQL數據庫MyISAM和InnoDB存儲引擎的對比

MyISAM InnoDB MyISAM ① 不支持事務（事務是指邏輯上的一組操作，組成這組操作的各個單元，要麽全部成功要麽全部失敗）。 ② 表級鎖定（更新時鎖整個表） ③ 讀寫互相阻塞：不僅會在寫入的時候阻塞讀取，MyISAM還會在讀取的時候阻塞寫入，但讀本身不會阻塞另外的讀。 ④

關於 redis 的數據類型和內存模型

模型 red weixin 文章記錄 tps LV 進行 redis 該文章是在讀了公眾號： java 後端技術之後做的一個小記錄原文網址： https://mp.weixin.qq.com/s/mI3nDtQdlVlLv2uUTxJegA

rman數據庫恢復；關鍵/非重要文件、影像副本、控制文件、還原點、非歸檔、增量、新數據庫、災難性回復

mod sse nom 恢復文件增量 ase control def 裝載運行全然恢復：在 ARCHIVELOG 模式下丟失了系統重要數據文件: 假設某個數據文件丟失或損壞。且該文件屬於 SYSTEM 或 UNDO 表空間，請運行下面步驟： 1. 實例可能會也可

第九篇 數據表設計和保存item到json文件

相關推薦

第九篇數據表設計和保存item到json文件