scrapy爬蟲框架（二）：建立一個scrapy爬蟲

阿新 • • 發佈：2018-11-08

在建立新的scrapy爬蟲之前，我們需要先了解一下建立一個scrapy爬蟲的基本步驟

一、確定要爬取的資料

以爬取豆瓣電影資料為例：
每部電影所要爬取的資訊有：

片名:《頭號玩家》
導演: 史蒂文·斯皮爾伯格
編劇: 扎克·佩恩 / 恩斯特·克萊恩
主演: 泰伊·謝里丹 / 奧利維亞·庫克 / 本·門德爾森 / 馬克·裡朗斯 / 麗娜·維特 / 更多...
型別: 動作 / 科幻 / 冒險

所以items檔案的程式碼如下：

#items.py

import scrapy

class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    movie_name = scrapy.Field()
    movie_dir = scrapy.Field()
    movie_editors = scrapy.Field()
    movie_actors = scrapy.Field()
    movie_type = scrapy.Field()

二、爬取所需的資訊

確定了要爬取的資訊後，就可以開始寫爬蟲的程式碼了。

首先，我們建立一個爬蟲檔案。

在命令列中輸入如下命令（必須在爬蟲專案的資料夾裡）：

scrapy genspider spidername "domain"
#spidername是要建立的爬蟲的名字，必須是唯一的，而且不能和爬蟲專案名相同
#domain是要爬取的網站的 host，即你所要爬取的網站的域名,如：www.baidu.com

建立好爬蟲檔案後，開啟爬蟲專案下的spiders資料夾，用編輯器開啟我們剛剛建立的爬蟲檔案。

檔案裡已經定義好了start_urls，這是我們執行爬蟲時要訪問的連結。

注意這是一個列表，可以放入多個url。

當爬蟲執行時就會一個一個地訪問 start_urls裡的連結，然後將返回的響應做為引數傳遞給 parse函式。

在 parse函式裡，我們可以來對網頁中的資訊進行提取。

示例只爬取一個頁面（頭號玩家的詳情頁），程式碼如下：

# -*- coding: utf-8 -*-
#movieInfoSpider.py
import scrapy
#匯入DouBanItem類
from douban.items import DoubanItem

class MovieinfoSpider(scrapy.Spider):
    name = 'movieInfo'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/subject/4920389/?from=showing']

    def parse(self, response):
        #建立DoubanItem類
        item = DoubanItem()

        item['movie_name'] = response.xpath('//title/text()').extract()[0]
        item['movie_dir'] = '導演:' + '/'.join(response.xpath('//div[@id="info"]/span[1]/span/a/text()').extract())
        item['movie_editors'] = '編劇:' + '/'.join(response.xpath('//div[@id="info"]/span[2]/span/a/text()').extract())
        item['movie_actors'] = '主演:' + '/'.join(response.xpath('//div[@id="info"]/span[3]/span/a/text()').extract())
        item['movie_type'] = '型別:' + '/'.join(response.xpath('//div[@id="info"]/span[@property=

        yield item

提取到所需的資訊後，用 yield 關鍵字將 item傳遞給 pipelines.py進行進一步的處理

三、對提取到的資訊進行儲存

pipelines.py檔案獲得item後將會呼叫管道函式來對item進行處理，這裡我們把電影的資訊儲存到 txt檔案中去，程式碼如下：

# -*- coding: utf-8 -*-
#pipelines.py

class DoubanPipeline(object):
    def __init__(self):
        self.fo = open('info.txt', 'wb')

    def process_item(self, item, spider):
        self.fo.write((item['movie_name'] + '\n').encode('utf-8'))
        self.fo.write((item['movie_dir'] + '\n').encode('utf-8'))
        self.fo.write((item['movie_editor'] + '\n').encode('utf-8'))
        self.fo.write((item['movie_actors'] + '\n').encode('utf-8'))
        self.fo.write((item['movie_type'] + '\n').encode('utf-8'))

        #這裡必須返回item，否則程式會一直等待，直到返回item為止
        return item

    def close_spider(self, spider):
        self.fo.close()
    #__init__, 和close_spider 函式相當於c++裡的建構函式和解構函式

四、在 setting.py裡開啟 DoubanPipeline管道

這裡只擷取部分相關的程式碼：

# Obey robots.txt rules
#是否遵循網站對爬蟲的規則，一般設為False，但預設為True
ROBOTSTXT_OBEY = False

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'douban.pipelines.DoubanPipeline': 300,
}

#設定請求頭，模擬瀏覽器
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'Cookie': 'bid=uzUipzgnxdY; ll="118267"; __utmc=30149280; __utmz=30149280.1523088054.4.4.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmc=223695111; __utmz=223695111.1523088054.1.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __yadk_uid=u46EFxFlzD46PvWysMULc80N9s8k2pp4; _vwo_uuid_v2=DC94F00058615E2C6A432CB494EEB894B|64bbcc3ac402b9490e5de18ce3216c5f; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1523092410%2C%22https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DFIqLEYPF6UnylF-ja19vuuKZ51u3u5gGYJHpVJ5MRTO-oLkJ_C84HBgYi5OulPwl%26wd%3D%26eqid%3Dd260482b00005bbb000000055ac87ab2%22%5D; _pk_id.100001.4cf6=cbf515d686eadc0b.1523088053.2.1523092410.1523088087.; _pk_ses.100001.4cf6=*; __utma=30149280.1054682088.1514545233.1523088054.1523092410.5; __utmb=30149280.0.10.1523092410; __utma=223695111.979367240.1523088054.1523088054.1523092410.2; __utmb=223695111.0.10.1523092410',
'Host': 'movie.douban.com',
'Upgrade-Insecure-Requests': '1',
}

五、執行爬蟲

進入到爬蟲專案的資料夾裡執行如下命令：

scrapy crawl movieInfoSpider

總結：scrapy爬蟲構建順序 items.py-->spiders-->pipelines.py-->settings.py

原文： https://blog.csdn.net/qq_40695895/article/details/79842502

scrapy爬蟲框架（二）：建立一個scrapy爬蟲

在建立新的scrapy爬蟲之前，我們需要先了解一下建立一個scrapy爬蟲的基本步驟一、確定要爬取的資料以爬取豆瓣電影資料為例：每部電影所要爬取的資訊有：片名:《頭號玩家》導演: 史蒂文·斯皮爾伯格編劇: 扎克·佩恩 / 恩斯特·克萊

手把手做一個JSP入門程式（二）：建立一個專案（JSP）

建立一個專案我們使用Eclipse和Web伺服器的Tomcat進行開發。Eclipse我們需要用“Eclipse IDE for Java EE Developers”（Eclipse為java EE 開發者準備的一個IDE工具），可以點選這裡到官網下載最新

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

scrapy爬蟲框架（一）：scrapy框架簡介

一、安裝scrapy框架 #開啟命令列輸入如下命令： pip install scrapy 二、建立一個scrapy專案安裝完成後，python會自動將 scrapy命令新增到環境變數中去，這時我們就可以使用 scrapy命令來建立我們的第一個 scrapy專案了。

scrapy爬蟲框架（四）：scrapy中 yield使用詳解

開始前的準備工作： MySQL下載：點我 python MySQL驅動下載：pymysql（pyMySql，直接用pip方式安裝）全部安裝好之後，我們來熟悉一下pymysql模組 import pymysql #建立連結物件 connection = pymysql

很easy的js雙向綁定框架（二）：控制器繼承

rst data 發出 sim 跟著 cti exec mar spa 初衷上一篇已經實現了數據的雙向綁定，但model的控制範圍是整個文檔。在實際project中必需要有作用範圍，以便做ui模塊的拆分。這一篇，我們希望實現像angularjs一

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

[翻譯]pytest測試框架（二）：使用

此文已由作者吳琪惠授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。呼叫pytest 呼叫命令： python -m pytest [...] 上面的命令相當於在命令列直接呼叫指令碼 pytest [...]（前提是python已經加入環境變數）一些幫

Java類集框架（二）：List子介面

List子介面最大的功能是裡面儲存的資料可以存在重複的內容。List介面在對Collection介面擴充的方法如下： - public E get(int index)：普通，取得索引編號的內容 - public E set(int index, E element)：普通，修改指定索引

Python爬蟲開發（二）：整站爬蟲與Web挖掘

0×00 介紹在網際網路這個複雜的環境中，搜尋引擎本身的爬蟲，出於個人目的的爬蟲，商業爬蟲肆意橫行，肆意掠奪網上的或者公共或者私人的資源。顯然資料的收集並不是為所欲為，有一些協議或者原則還是需要每一個人注意。本文主要介紹關於爬蟲的一些理論和約定協議，然後相對完整完成一個爬蟲的基本功能。本

java Restful框架（二）：jersey請求對映和頁面傳值

jersey的webservice開發基本上都是使用註解,接下來學習常用註解. 一.根資源類 [email protected]註解 @Path("/hello") public class HelloWorldController { @G

React Native在window下的環境搭建（二）：建立新專案

React Native建立一個新專案： react-native init TestAndroidApp提示：你可以使用--version引數（注意是兩個槓）建立指定版本的專案。例如react-native init TestAndroidApp --version 0.44.3。注意版本號必須精確

2 Lucene筆記（二）：建立LuceneUtils工具

publicclass LuceneUtils { public LuceneUtils() {} private static Directory directory; private static Version versio

UI層自動化測試框架（二）：Appium基礎

申明：本章節引用很多第三方資料和網上的教程，在參考資料tab中我都有備註，請理解。由於該框架是基於Appium的，所以先講講appium的基礎知識一：Appium介紹 Appium是由nodejs的express框架寫的Http Server

Composer筆記（二）：建立自己的PHP類庫

一、在建立類庫之前，你必須有一個github的賬號，作為程式碼託管，github是非常好的一個選擇 >github主頁：https://github.com 二、在windows下載並安裝gi

webpack4系列教程（二）：建立專案，打包第一個JS檔案

傳送門： webpack4系列教程（一）：初識webpack 1. 建立專案 1.1 初始化一個專案首先安裝nodejs，開啟 nodeJs官網直接下載安裝即可，安裝完畢後開啟命令列工具，進入你的專案資料夾，執行 npm init 進

Hyperledger Fabric開發（二）：建立網路

執行fabric-samples專案中的一個例子：first-network，建立第一個網路（Building Your First Network）。該網路共有4個peer節點，劃分為2個組織（organizations），以及1個單獨的orde

activiti自定義流程之Spring整合activiti-modeler5.16例項（二）：建立流程模型

1.maven導包，這裡就沒有什麼多的好說了，直接程式碼： <dependencies> <dependency> <groupId>junit</groupId> <artifact

Magnolia-cms（二）：建立hello Mognolia

本文將介紹如何建立一個基礎的專案。按照國際慣例，先從hello Mognolia開始。下面是效果圖：在上一講中，已經安裝並配置好了Mognolia-bundle，目錄結構為tomcat+light-modules。建立專案進入light-modules，在該位置

yii2框架（二）：控制器和檢視

1、檔案目錄 controllers 控制層 views 檢視層 2、在controllers檔案下新建 TestController.php 檔案。 <?php na

scrapy爬蟲框架（二）：建立一個scrapy爬蟲

一、確定要爬取的資料

二、爬取所需的資訊

三、對提取到的資訊進行儲存

四、在 setting.py裡開啟 DoubanPipeline管道

五、執行爬蟲

總結：scrapy爬蟲構建順序 items.py-->spiders-->pipelines.py-->settings.py

相關推薦