Scrapy之爬取結果匯出為Excel的快速指南

阿新 • • 發佈：2019-01-02

引言

基於Scrapy來爬取資料只是手段，這些爬取的結果需要按照一定的方式匯出或者儲存到資料庫中，excel是在日常工作中使用最為廣泛的工具之一，本文介紹如何來講爬取結果儲存excel檔案。

環境介紹

Python 3.6.1 Scrapy 1.5.0

定義Domain物件

定義爬取資料物件的實體類：

import scrapy
class EnrolldataItem(scrapy.Item):
    schoolName = scrapy.Field()
    currentBatch = scrapy.Field()
    totalNumberInPlan = scrapy.Field 
()
    majorName = scrapy.Field()
    categoryName = scrapy.Field()
    numberInPlan = scrapy.Field()
    note = scrapy.Field()

這裡的Field表示其在Scrapy爬取的實體欄位，無關乎型別。

定義Pipelines

from scrapy.exporters import CsvItemExporter

class EnrolldataPipeline(object):
    def open_spider(self, spider):
        self.file = open("/home/bladestone/enrolldata.csv" 
, "wb")
        self.exporter = CsvItemExporter(self.file,       
        fields_to_export=["schoolName", "currentBatch", "totalNumberInPlan"])
        self.exporter.start_exporting()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def close_spider 
(self, spider):
        self.exporter.finish_exporting()
        self.file.close()

這裡使用了scrapy自帶的CsvItemExporter儲存爬取的結果。
open_spider()和close_spider()兩個方法都來在spider啟動和結束的時候，執行一些初始化和清理工作，對於pipeline操作而言：

open_spider(): 執行檔案建立，然後初始化exporter，並啟動start_exporting()，開始接收Item
close_spider(): 結束exporter的exporting，關閉檔案流。
export_item()：用來將item儲存到輸出結果中。

process_item()為pipeline中定義的方法，在pipeline在settings.py中註冊之後，將會被呼叫。

註冊pipeline

在settings.py檔案中註冊pipeline:

ITEM_PIPELINES = {
‘enrolldata.pipelines.EnrolldataPipeline’: 300,
}

spider中返回item

在spider中一般通過yield的方式實現非同步返回結果，此為spider中定義的響應處理方法。具體的示例如下：

def parse_data():
    item = EnrolldataItem()
    item['majorName'] = major_name
    item['categoryName'] = major_category
    item['numberInPlan'] = major_number
    item['note'] = major_note
    item['schoolName'] = school_name
    item['currentBatch'] = current_batch
    item['totalNumberInPlan'] = total_number

    yield item

執行crawler

scrapy crawl enrolldata

enrolldata為專案的名稱。

總結

在Scrapy中提供了多種結果輸出方式，目前支援的有: xml, json, csv, pickle等多種方式，對於資料的支援也是非常方便的，這方面的內容將在後續的內容中進行詳細介紹。

Scrapy之爬取結果匯出為Excel的快速指南

引言基於Scrapy來爬取資料只是手段，這些爬取的結果需要按照一定的方式匯出或者儲存到資料庫中，excel是在日常工作中使用最為廣泛的工具之一，本文介紹如何來講爬取結果儲存excel檔案。環境介紹 Python 3.6.1 Scrapy 1.5.

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。先看mylian

Python的scrapy之爬取鏈家網房價信息並保存到本地

width gif pat lse idt ext tst maximum spa 因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並保存到本地。先看鏈家網的源碼。。房價信息都保存在 ul 下的li 裏面 ? 爬蟲結構： ? 其中封裝了一

Python的scrapy之爬取boss直聘

在我們的專案中，單單分析一個51job網站的工作職位可能爬取結果不太理想，所以我又爬取了boss直聘網的工作，不過boss直聘的網站一次只能展示300個職位，所以我們一次也只能爬取300個職位。 jobbossspider.py: # -*- coding: utf-8 -*- import

Python的scrapy之爬取6毛小說網

閒來無事想看個小說，打算下載到電腦上看，找了半天，沒找到可以下載的網站，於是就想自己爬取一下小說內容並儲存到本地聖墟第一章沙漠中的彼岸花 - 辰東 - 6毛小說網 http://www.6mao.com/html/40/40184/12601161.html 這是要爬取的網

Python的scrapy之爬取6毛小說網的聖墟

閒來無事想看個小說，打算下載到電腦上看，找了半天，沒找到可以下載的網站，於是就想自己爬取一下小說內容並儲存到本地聖墟第一章沙漠中的彼岸花 - 辰東 - 6毛小說網 http://www.6mao.com/html/40/40184/12601161.html 這是要爬取的網頁觀察結構下一章然

Python的scrapy之爬取boss直聘網站

在我們的專案中，單單分析一個51job網站的工作職位可能爬取結果不太理想，所以我又爬取了boss直聘網的工作，不過boss直聘的網站一次只能展示300個職位，所以我們一次也只能爬取300個職位。 jobbossspider.py: # -*- coding: utf-8 -*- import scrapy

python爬取資料儲存為Excel格式

#encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time import xlrd import xlwt from xlutils.copy impo

select結果匯出為excel

（方式1）在cmd中執行命令，格式如下： mysql -hxx -uxx -pxx -e "query statement" dbName > file 　　-h：後面跟的是連結的host（主機）　　-u:後面跟的是使用者名稱　　-p:後面跟的是密碼

Mysql查詢結果匯出為Excel的幾種方法

本想直接轉發，奈何密碼忘記了。原文複製過來吧。原文地址：https://www.cnblogs.com/qiaoyihang/p/6398673.html 【我使用的是方法二】本文地址：http://www.cnblogs.com/qiaoyihang/p/6398

scrapy初探之爬取武sir首頁博客

scrapy一、爬蟲網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。二、scrapy框架 Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

Scrapy將爬取的段落整合為字符串

遇到 col text esp con 爬取換行符單位 tex 使用Scrapy框架爬取文章的時候，經常會遇到要爬取多個段落的問題，如果這個時候使用的是： text = response.xpath("......").extract() 那麽會發現爬取下來的文章是

Scrapy將爬取的段落整合為字串

使用Scrapy框架爬取文章的時候，經常會遇到要爬取多個段落的問題，如果這個時候使用的是： text = response.xpath("......").extract() 那麼會發現爬取下來的文章是以段落為單位的list，不方便直接展示。這個時候可以將list轉化為字串，具體語法如下：

python+scrapy入門教程之爬取騰訊招聘職位資訊

我是用的IDE是pycharm,要想使用scrapy我們先安裝模組file-settings-project Interpreter 安裝完成之後我們開啟Terminal 在終端輸入：scrapy startproject tencent 建立spiders我們需要進入spi

scrapy框架爬取微博之spider檔案

# -*- coding: utf-8 -*- import scrapy from scrapy.settings import default_settings import json from ..items import WeiboItem import

Python3網路爬蟲：Scrapy入門實戰之爬取動態網頁圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二 Scrapy相關方法介紹 1 搭建Scrapy專案 2 shell分析三網頁分析

利用HttpClient傳送post請求京東介面並將結果用POI匯出為 Excel表格

package com.zhongsou.demo; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.Fil

python3爬蟲之使用Scrapy框架爬取性感女神美女照片

使用Scrapy框架爬取性感女神美女照片其實很簡單哦，只需要5分鐘，爬取上萬張性感女神照片。先給大家看一下成果吧：激不激動，興不興奮，那就快來學一下吧：開始專案前需要安裝python3和Scrapy，不會的自行百度，這裡就不具體介紹了接下來是程式碼

Scrapy之爬取結果匯出為Excel的快速指南

引言

環境介紹

定義Domain物件

定義Pipelines

註冊pipeline

spider中返回item

執行crawler

總結

相關推薦