scrapy spider及其子類

阿新 • • 發佈：2018-06-30

level __init__ 常用 mit read none them csv sna

1.spider傳參

　　在運行 crawl 時添加 -a 可以傳遞Spider參數:

scrapy crawl myspider -a category=electronics

　　Spider在構造器(constructor)中獲取參數:

import scrapy

class MySpider(Spider):
    name = ‘myspider‘

    def __init__(self, category=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self.start_urls  
= [‘http://www.example.com/categories/%s‘ % category]
        # ...

2.class scrapy.spider.Spider

　　常用方法：name

　　　　　　　allowed_domains

　　　　　　　start_urls

　　　　　　　custom_settings

　　　　　　　crawler

　　　　　　　settings

　　　　　　　from_crawler(crawler, *args, **kwargs)

　　　　　　　start_requests()

　　　　　　　make_requests_from_url

(url)

　　　　　　　parse(response)

　　　　　　　log(message[, level, component])

　　　　　　　closed(reason)

　　　　表單請求：

def start_requests(self):
    return [scrapy.FormRequest("http://www.example.com/login",
                               formdata={‘user‘: ‘john‘, ‘pass‘: ‘secret‘},
                               callback 
=self.logged_in)]

def logged_in(self, response):
    # here you would extract links to follow and return Requests for
    # each of them, with another callback
    pass

import scrapy

class MySpider(scrapy.Spider):
    name = ‘example.com‘
    allowed_domains = [‘example.com‘]
    start_urls = [
        ‘http://www.example.com/1.html‘,
        ‘http://www.example.com/2.html‘,
        ‘http://www.example.com/3.html‘,
    ]

    def parse(self, response):
        self.log(‘A response from %s just arrived!‘ % response.url)

import scrapy

class MySpider(scrapy.Spider):
    name = ‘example.com‘
    allowed_domains = [‘example.com‘]
    start_urls = [
        ‘http://www.example.com/1.html‘,
        ‘http://www.example.com/2.html‘,
        ‘http://www.example.com/3.html‘,
    ]

    def parse(self, response):
        self.log(‘A response from %s just arrived!‘ % response.url)

3.class scrapy.contrib.spiders.CrawlSpider

　　新屬性：rules

　　新方法：parse_start_url(response)

　class scrapy.contrib.spiders.Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)

import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor

class MySpider(CrawlSpider):
    name = ‘example.com‘
    allowed_domains = [‘example.com‘]
    start_urls = [‘http://www.example.com‘]

    rules = (
        # 提取匹配 ‘category.php‘ (但不匹配 ‘subsection.php‘) 的鏈接並跟進鏈接(沒有callback意味著follow默認為True)
        Rule(LinkExtractor(allow=(‘category\.php‘, ), deny=(‘subsection\.php‘, ))),

        # 提取匹配 ‘item.php‘ 的鏈接並使用spider的parse_item方法進行分析
        Rule(LinkExtractor(allow=(‘item\.php‘, )), callback=‘parse_item‘),
    )

    def parse_item(self, response):
        self.log(‘Hi, this is an item page! %s‘ % response.url)

        item = scrapy.Item()
        item[‘id‘] = response.xpath(‘//td[@id="item_id"]/text()‘).re(r‘ID: (\d+)‘)
        item[‘name‘] = response.xpath(‘//td[@id="item_name"]/text()‘).extract()
        item[‘description‘] = response.xpath(‘//td[@id="item_description"]/text()‘).extract()
        return item

4.XMLFeedSpider

class scrapy.contrib.spiders.XMLFeedSpider

from scrapy import log
from scrapy.contrib.spiders import XMLFeedSpider
from myproject.items import TestItem

class MySpider(XMLFeedSpider):
    name = ‘example.com‘
    allowed_domains = [‘example.com‘]
    start_urls = [‘http://www.example.com/feed.xml‘]
    iterator = ‘iternodes‘ # This is actually unnecessary, since it‘s the default value
    itertag = ‘item‘

    def parse_node(self, response, node):
        log.msg(‘Hi, this is a <%s> node!: %s‘ % (self.itertag, ‘‘.join(node.extract())))

        item = TestItem()
        item[‘id‘] = node.xpath(‘@id‘).extract()
        item[‘name‘] = node.xpath(‘name‘).extract()
        item[‘description‘] = node.xpath(‘description‘).extract()
        return item

5.CSVFeedSpider

class scrapy.contrib.spiders.CSVFeedSpider

from scrapy import log
from scrapy.contrib.spiders import CSVFeedSpider
from myproject.items import TestItem

class MySpider(CSVFeedSpider):
    name = ‘example.com‘
    allowed_domains = [‘example.com‘]
    start_urls = [‘http://www.example.com/feed.csv‘]
    delimiter = ‘;‘
    quotechar = "‘"
    headers = [‘id‘, ‘name‘, ‘description‘]

    def parse_row(self, response, row):
        log.msg(‘Hi, this is a row!: %r‘ % row)

        item = TestItem()
        item[‘id‘] = row[‘id‘]
        item[‘name‘] = row[‘name‘]
        item[‘description‘] = row[‘description‘]
        return item

6.SitemapSpider

class scrapy.contrib.spiders.SitemapSpider

from scrapy.contrib.spiders import SitemapSpider

class MySpider(SitemapSpider):
    sitemap_urls = [‘http://www.example.com/sitemap.xml‘]
    sitemap_rules = [
        (‘/product/‘, ‘parse_product‘),
        (‘/category/‘, ‘parse_category‘),
    ]

    def parse_product(self, response):
        pass # ... scrape product ...

    def parse_category(self, response):
        pass # ... scrape category ...

from scrapy.contrib.spiders import SitemapSpider

class MySpider(SitemapSpider):
    sitemap_urls = [‘http://www.example.com/robots.txt‘]
    sitemap_rules = [
        (‘/shop/‘, ‘parse_shop‘),
    ]

    other_urls = [‘http://www.example.com/about‘]

    def start_requests(self):
        requests = list(super(MySpider, self).start_requests())
        requests += [scrapy.Request(x, self.parse_other) for x in self.other_urls]
        return requests

    def parse_shop(self, response):
        pass # ... scrape shop here ...

    def parse_other(self, response):
        pass # ... scrape other here ...

scrapy spider及其子類

level __init__ 常用 mit read none them csv sna 1.spider傳參　　在運行 crawl 時添加 -a 可以傳遞Spider參數: scrapy crawl myspider -a category=electronics

SRS學習筆記10-SrsConnection及其子類分析

when red ins parse discovery bsp for port std SrsConnection類代表一個client的連接,其中封裝了st thread,用於在一個單獨的st thread裏處理一個client的服務請求. SrsConnection

UI組件之AdapterView及其子類（四）Gallery畫廊控件使用

convert cal instance ram scaletype 循環 reat targe 外觀聽說 Gallery如今已經不使用了，API使用ViewPaper取代了，以後再學專研ViewPaper吧如今說說Gallery畫廊，就是不停顯示圖片的意思 Gall

UI組件：TextView及其子類

時間 raw 界面 realtime 字體框圖相對 mage 導入　　TextView（文本框）　　一、TextView作用類似於JLable用於在界面上顯示文本　　二、TextView沒有邊框，如果需要邊框可以導入背景框的圖片，背景框可以自定義為背景顏色漸變

UI組件：ImageView及其子類

button 聯系人 round span 按鈕界面 bad -a color 　　ImageView 　　　　用於顯示所有Drawable對象　ImageButton(圖片按鈕) 註意點：和Button的區別是：Button可以顯示文字，而ImageButton不

Java 集合-Set接口及其子類

允許 ret ins ict amp println out ++ || 2017-10-31 19:20:45 Set：無序且唯一實現子類：HashSet， HashSet 此類實現 Set 接口，由哈希表（實際上是一個 HashMap 實例）支持。它不保

Scope及其子類介紹

AR ica oat 元素 equal mco ans font style 之前寫的文章：關於作用域範圍Scope Scope及相關的子類如下：同時有些Scope還繼承了Scope.ScopeListener類，如下： 1、StarImportSco

27-集合--Set及其子類（HashSet+LinkedHashSet+TreeSet）+二叉樹+Comparable+Comparator+雜湊表+HashSet儲存自定義物件+判斷元素唯一的方式

一、Set 1、Set：元素不可以重複，是無序的（存入和取出的順序不一致） 2、Set介面中的方法和Collection中的方法一致 3、Set集合的元素取出方式只有一種：迭代器iterator() Set set = new HashSet(); I

阻塞佇列BlockingQueue及其子類的使用

BlockingQueues在java.util.concurrent包下，提供了執行緒安全的佇列訪問方式，當阻塞佇列插入資料時，如果佇列已經滿了，執行緒則會阻塞等待佇列中元素被取出後在插入，當從阻塞佇列中取資料時，如果佇列是空的，則執行緒會阻塞等待佇列中有新元素。本文詳細介紹了BlockingQu

Java中Map集合及其子類

Collection集合的特點是每次進行單個物件的儲存，如果現在要進行一對物件的儲存，就只能用Map集合來完成，即Map集合中會一次性儲存兩個物件，且這兩個物件的關係：key = value結構。這種結構的最大特點是可以通過key找到對應的value內容。1.Map介面Map

List介面與Set介面及其子類的詳細用法。Collection介面簡介。ArraList，LinkedList，Vector

（一）連結串列的特點：（1）這種節點關係的處理操作，核心需要一個Node類（儲存資料，設定引用）（2）在進行連結串列資料的查詢，刪除的時候需要equals（）方法的支援。在實際的開發中對於這些資料的使用都有一些共性的特點：儲存進去而後取。（二）Jav

Android Activity原理以及其子類描述

簡介 Activity是Android應用程式元件，實現一個使用者互動視窗，我們可以實現佈局填充螢幕，也可以實現懸浮視窗。一個app由很多個Actvitiy組合而成，它們之間用intent-filter區別主次關係。下面將簡單介紹Activity以及其子類和其

UIView及其子類

- (BOOL)application:(UIApplication *)application didFinishLaunchingWithOptions:(NSDictionary *)launchOptions { // Override poin

CharSequence及其子類用法總結

本文分析CharSequence及其幾個子類，如String、StringBuilder、StringBuffer、Editable。 1、通過反編譯來比較String和StringBuilder效能反編譯：通過對可執行程式逆向分析，推匯出他人軟體的結構、思路、演算法、原

Android之AdapterView及其子類的介紹

Apater是介面卡 AdapterView 顯示一堆資料 —AbsListView —-ListView,GridView —AbsSpinner —-Gallery,Spinner ListView

定義一個圖形類及其子類（三角形類和矩形類），分別計算其面積和周長。（第十週）

/* * 定義一個圖形類及其子類（三角形類和矩形類），分別計算其面積和周長。 */ class Graphical {//父類public double width;//成員變數public double length;public double area;public double Perimeter;

java中關於collection和map及其子類

collection（集合）是一個根介面，用來描述一組物件的集合。JDK並沒有直接提供對個介面的實現，而是提供了對她的子介面的實現例如set和list等。在collection介面中用的最多的兩種基本方法是：add和

AdapterView及其子類之二：使用ListActivity及ArrayAdapter建立列表

見歸檔專案ListActivityDemo.zip。基本步驟如下： 1、建立一個TextView，用於指定每一個ListView的格式 <?xml version="1.0" encodin

Android技術——列表呈現，AdapterView及其子類（下）

八：用Adapter向GridView提供資料 1、GridView用於在介面上安行列分佈的方式顯示子項。 2、GridView與ListView有共同父類：ABSListView，因此它們高度相似，它們都是用於呈現列表項。它們的唯一區別是：ListView只顯示一列，Gr

Spring MVC過濾器-上下文資訊過濾器（AbstractRequestLoggingFilter及其子類）

AbstractRequestLoggingFilter類定義了兩個方法beforeRequest和afterRequest分別用於設定過濾前後執行的操作，它有三個子類，分別是CommonsRequestLoggingFilter、ServletContex

scrapy spider及其子類

相關推薦