python---scrapy之MySQL同步存儲

阿新 • • 發佈：2017-08-18

相關操作 ces comment 操作數字典爬取 drop pre var

假設我們已經能獲取到item裏定義的字段的數據,接下來就需要保存item的數據到mysql數據庫.

pipeline用來存儲item中的數據,將爬取到的數據進行二次處理

首先,要做的準備的工作,安裝MySQLdb,我安裝的是Python-MySQL1.2.5模塊.

自定義一個pipeline用mysql來存儲item中的數據

class MySQLPipeline(object):
    #自定義一個pipeline用mysql來存儲item中的數據
    def __init__(self):
        # 代碼連接數據庫
        # 1)連接
        # 連接的數據庫必須存在 

        db = MySQLdb.Connect(host=‘localhost‘, user=‘root‘, passwd=‘123456‘, db=‘testdb‘, charset=‘utf8‘,use_unicode=True)
        # 遊標/指針
        cursor = db.cursor()
        self.db=db
        self.cursor=cursor
        #先刪除表

        sql="drop table IF EXISTS test"
        self.cursor.execute(sql)
        self.db.commit()


        sql  
= "create table if not exists test (id INT PRIMARY KEY auto_increment NOT NULL , title VARCHAR(50) NOT NULL,category_name VARCHAR (100),date_time VARCHAR (20) NOT NULL ,likes INT DEFAULT 0,content longtext ,comment INT DEFAULT 0,collect INT DEFAULT 0,detail_url VARCHAR (255) UNIQUE,src VARCHAR (255))"
        # 
 參數1:query,填寫sql語句
        # 參數2:args,參數,默認是空,填寫元組
        self.cursor.execute(sql)
        self.db.commit()

    def process_item(self, item, spider):

        #2)執行相關操作

        # #3)關閉連接,先關cursor,再關db
        # cursor.close()
        # db.close()

        #如果要給所有列添加數據,列名可以不寫
        try:
            sql="insert into test (title,category_name, date_time,likes,content, comment,collect, detail_url,src) VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s)"
            self.cursor.execute(sql, (item[‘title‘],item[‘category_name‘],item[‘date_time‘],item[‘likes‘], item[‘content‘],item[‘comment‘], item[‘collect‘],item[‘detail_url‘],item[‘src‘][0]))
            self.db.commit()
        except:
            print u‘數據重復忽略不計‘

        return item


    def __del__(self):

        self.cursor.close()
        self.db.close()

process_item(self,item,spider)這個方法會被每個item pipeline組件調用,並且該方法必須返回一個字典數據,item或者拋出一個DropItem異常.

在settings註冊下

ITEM_PIPELINES = {

    #MySQL同步寫入
    "JobboleSpider.pipelines.MySQLPipeline": 2,


}

還有可以直接通過模型對象操作數據庫的方式稱為ORM

特點:不需要寫sql語句,可以直接操作數據庫

添加:item.save(),

刪除:item.delete()

............................

python---scrapy之MySQL同步存儲

相關操作 ces comment 操作數字典爬取 drop pre var 假設我們已經能獲取到item裏定義的字段的數據,接下來就需要保存item的數據到mysql數據庫. pipeline用來存儲item中的數據,將爬取到的數據進行二次處理首先,要做的準備的工作,

python 基礎之變量存儲緩存機制與數據駐留小數據池

集合分享圖片 font img 以及默認效率 com pytho 一：變量存儲的緩存機制在同一文件(模塊)裏,變量存儲的緩存機制 (僅對python3.x版本負責），那麽 --對於Number （int bool float complex） 1.對於整型而言

數據庫面試系列之五：mysql的存儲引擎

當前查看 efault 表鎖 blog 如果 show 事務測試 mysql的默認存儲引擎是innoDB,是唯一一個支持事務和支持外鍵的存儲引擎，可以通過：show variables like ‘default_storage_engine‘;查看當前數據庫到默認引

（2.6）Mysql之SQL基礎——存儲引擎的查看與修改

char arc lte %s table sel mysql ike like （2.6）Mysql之SQL基礎——存儲引擎的查看與修改可以使用　　show engines; 查看數據庫支持的所有的存儲引擎；目錄：　　 1、數據庫級別存儲引擎　　1.1查看現在

mysql使用存儲過程插入數據後，參數為中文的為？或亂碼

做了 cnblogs 現象顯示題解中文原因 png 操作最近了解了一下mysql存儲過程，之前版本的mysql不支持存儲過程，5.0版本後就可以支持存儲過程的使用；恰好筆者下載使用版本為5.6.20：做了一個給表插入數據的簡單存儲過程，發現打開表後漢字全部

mysql server-存儲引擎

memory server 數據庫 mysql 在線 mysql server系統架構邏輯模塊組成：mysql邏輯模塊可以分為兩層架構，第一層是sql layer主要包括權限判斷、sql解析、執行計劃優化、query cache的處理等；第二

Python基礎之Mysql

數據 obj 調用 cnblogs 基礎 execute inf wrr sel 1.MySQLdb 是用於Python鏈接Mysql數據庫的接口，它實現了 Python 數據庫 API 規範 V2.0，基於 MySQL C API 上建立的。 2.Python下MySQL

MySQL 基於存儲過程實現數據統計按日、周、月份統計模板

ont sql 數據過程 %x tail art bar 變量存儲過程developer_count 是根據傳入參數searchType 決定是使用那種查詢方式，本存儲過程中包含的其他的參數是{起始時間：startime,結束時間：endtime} [ht

cocos2dX 之數據存儲

金幣能夠 cpp 存儲 red 發現 eas hello false 今天我們來看cocos2dX裏面的數據存儲類, CCUserDefault, 如今的遊戲基本都會把用戶信息保存下來, 以便於再次進入遊戲的時候讀取, 為了方便起見，有時我們也能夠用CCUse

04-MySQL的存儲引擎和列的常用類型

回滾 src max-width font 磁盤空間應用不同的性能整體 1. MySQL中的數據庫分類 2. MySQL中的存儲引擎　　MySQL中的數據用各種不同的技術存儲在文件（或者內存）中。這些技術中的每一種技術都使用不同的存儲機制、索引技巧、

Android學習——數據存儲之文件存儲

file 方法 amr view 運行 toa lns 運行程序 util 將數據存儲到文件中並讀取數據 1、新建FilePersistenceTest項目，並修改activity_main.xml中的代碼，如下：（只加入了EditText，用於輸入文本內容，不管輸入什麽按

cache數據庫之表的存儲結構

pretty wid data location 圖片 rip art tracking 通過 1.我們已經建了一個person類，接下來就是表的存儲結構 2.打開Inspector,先輸入rowid名字為p_RowID,選class->Stor

MySQL怎樣存儲IP地址

pan 基本 pre 速度 light 數字簡單的 .cn 可變這兩天面試，借貸寶面試官有問到你之前的項目是如何存儲ip地址的，我的回答是，存儲為varchar字符串類型（事實上我之前參與的項目中的確是采用varchar類型來存儲的，但現在想想，當時的場景也僅僅是記錄用

【精】C語言之變量存儲類型

art 技術分享 .net ont alt enter fill img 分享【精】C語言之變量存儲類型

mysql使用存儲過程&函數實現批量插入

tar max commit mysq like until code 插入數據 call 寫這邊文章的目的，是想結合mysql 存儲過程+函數完成一個批量刪除的功能吧...正好也好加深下對procedure和function的熟練操作吧...廢話不多說，我就直接上表結構啦

mysql表情存儲報錯問題

ring character 移動端 clas utf-8 def linux 查看找到 mysql采用utf-8字符編碼，但在移動端使用輸入法的表情並存儲數據庫的時候，出現錯誤。 java.sql.SQLException: Incorrect string value

微信小程序開發之數據存儲參數傳遞數據緩存

for 小程序開發 goto rom tle margin fill alt start 微信小程序開發內測一個月.數據傳遞的方式很少.經常遇到頁面銷毀後回傳參數的問題,小程序中並沒有類似Android的startActivityForResult的方法,也沒有類似廣播這樣

Mysql ==》存儲引擎

主鍵有一種 windows innodb net nothing double 技術分享 head 一、什麽是存儲引擎？ mysql中建立的表==》文件夾庫中建立的表==》文件現實生活中我們用來存儲數據的文件應該有不同的類型：比如：存文本用的txt類型，存表格用的

Hive之數據存儲

加載過程包含 creat 是否數據存儲同時 nal hash 語句首先，Hive 沒有專門的數據存儲格式，也沒有為數據建立索引，用戶可以非常自由的組織 Hive 中的表，只需要在創建表的時候告訴 Hive 數據中的列分隔符和行分隔符，Hive 就可以解析數據。

SpringMVC之數據存儲

alt string servle nat 參數 urn row lan map類型 1、使用request域對象存儲數據：將請求中的參數存儲在request中，使用setAttribute（）方法可以在jsp頁面訪問該屬性。 @RequestMapping("/te

python---scrapy之MySQL同步存儲

相關推薦