scrapy.Spider的屬性和方法

阿新 • • 發佈：2017-07-02

ted 爬蟲 rules 類方法使用 cto component 記錄日誌 settings

scrapy.Spider的屬性和方法
屬性:
name:spider的名稱,要求唯一
allowed_domains:允許的域名,限制爬蟲的範圍
start_urls:初始urls
custom_settings:個性化設置,會覆蓋全局的設置
crawler:抓取器,spider將綁定到它上面
custom_settings:配置實例,包含工程中所有的配置變量
logger:日誌實例,打印調試信息

方法:
from_crawler(crawler, *args, **kwargs):類方法,用於創建spider
start_requests():生成初始的requests
make_requests_from_url(url):遍歷urls,生成一個個request
parse(response):用來解析網頁內容
log(message[,level.component]):用來記錄日誌,這裏請使用logger屬性記錄日誌,self.logger.info( 
‘visited success‘)
closed(reason):當spider關閉時調用的方法

子類:
主要CrawlSpider
1:最常用的spider,用於抓取普通的網頁
2:增加了兩個成員
1)rules:定義了一些抓取規則--鏈接怎麽跟蹤,使用哪一個parse函數解析此鏈接
2)parse_start_url(response):解析初始url的相應
實例:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class 
 MySpider(CrawlSpider):
    name = ‘example.com‘
    allowed_domains = [‘example.com‘]
    start_urls = [‘http://www.example.com‘]

    rules = (
        # Extract links matching ‘category.php‘ (but not matching ‘subsection.php‘)
        # and follow links from them (since no callback means follow=True by default). 

        Rule(LinkExtractor(allow=(‘category\.php‘, ), deny=(‘subsection\.php‘, ))),

        # Extract links matching ‘item.php‘ and parse them with the spider‘s method parse_item
        Rule(LinkExtractor(allow=(‘item\.php‘, )), callback=‘parse_item‘),
    )

    def parse_item(self, response):
        self.logger.info(‘Hi, this is an item page! %s‘, response.url)
        item = scrapy.Item()
        item[‘id‘] = response.xpath(‘//td[@id="item_id"]/text()‘).re(r‘ID: (\d+)‘)
        item[‘name‘] = response.xpath(‘//td[@id="item_name"]/text()‘).extract()
        item[‘description‘] = response.xpath(‘//td[@id="item_description"]/text()‘).extract()
        return item

scrapy.Spider的屬性和方法

ted 爬蟲 rules 類方法使用 cto component 記錄日誌 settings scrapy.Spider的屬性和方法屬性: name:spider的名稱,要求唯一 allowed_domains:允許的域名,限制爬蟲的範圍 start_urls:初始u

函數屬性和方法:length和prototype

scrip spa ont pan div blog 屬性 col 方法 ECMAScript中的函數是對象，因此函數也有屬性和方法。每個函數都包含兩個屬性：ength和prototype。其中， length屬性表示函數希望接收的命名參數的個數 . function

jQuery事件對象的屬性和方法

行為 class down 接受觸發觸發事件 this 右鍵 lan jQuery事件對象的屬性和方法事件對象的屬於與方法有很多，但是我們經常用的只有那麽幾個，這裏我主要說下作用與區別 event.type：獲取事件的類型觸發元素的事件類型 $("a").cli

JavaScript的String對象的屬性和方法

charat() match ace 屬性 -- ast 一個 unicode rep ---恢復內容開始--- 屬性: length 字符串的長度 prototype 字符串的原型對象 constructor 字符串

JavaScript 字符串屬性和方法

length last 字符串 slice 第一次 prototype bstr 找到 earch 字符串屬性：　　　constructor : 返回創建字符串屬性的函數; 　　length : 返回字符串的長度; 　　prototype : 允許您向對象添加屬性和方法;

利用反射操作bean的屬性和方法

兩個決定 dto epo cts 強制多選通過報表今天在開發中碰到這樣一個場景：當請求添加項目下的目錄時，傳過來的是一個IndexModel，這個Model裏有關於這個目錄字段的詳細信息，包括基礎報表，實時，漏鬥等信息（這些字段類型都是boolean），對應於頁面

form表單的應用：form對象自帶屬性和方法及提交時提交的數據.....

uil nsf fileread tex class dataurl asd who accept 1.html中含有form表單（1）html <form id="picLoad" class="lt" style="width: 230px;" enctype=

JS遍歷屬性和方法

asc == itl 方法 archive items += ron arch 引用原文：http://www.cnblogs.com/lishenglyx/archive/2008/12/08/1350573.html#undefined <script l

Android零基礎入門第22節：ImageView的屬性和方法大全

子類 parent ide eight odin 使用詳解統架構討論架構通過前面幾期的學習，TextView控件及其子控件基本學習完成，可以在Android屏幕上顯示一些文字或者按鈕，那麽從本期開始來學習如何在進行圖片展示，這就是涉及到另外一個非常重要的控件家族，那

[轉]Ext.grid常用屬性和方法

生效沒有 not find nco ctr type sco asc 原文地址:http://blog.csdn.net/fm19901229/article/details/8113969 1、Ext.grid.GridPanel 主要配置項： store：表格的數

Vue屬性和方法

vue屬性和方法<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title>屬性和方法</title> </head&g

淺析JavaScript訪問對象屬性和方法及區別

cti on() 對象方法編寫程序因此 brush new 函數 name 屬性是一個變量，用來表示一個對象的特征，如顏色、大小、重量等；方法是一個函數，用來表示對象的操作，如奔跑、呼吸、跳躍等。在JavaScript中通常使用”."運算符來存取對象的屬性的值。或者使

python—類的屬性和方法總結

python一、類的屬性總結（類的屬性定義在方法外，對象的屬性定義在方法內）理解：類的（靜態）屬性：（人類的五官，理解為變量）類的（動態）方法：（人類吃穿住行，理解為一個函數，至少帶一個參數self，指向類本身）對象：類的實例化，之後才能有屬性和方法1）類的屬性，也是公有屬性；類的私有屬性2）對象的公有屬性；

String對象的屬性和方法

圖片 indexof () mat art 分享圖片 spa sea string對象創建字符串的兩種方法：　　1.直接量：var str = ""; 　　2.字符串對象創建： new String(""); String對象的屬性　　1.constrcuto

c# 類屬性和方法

value node str 關鍵字 write art 方法可變參訪問器屬性 public 類字段就相當於c#裏面暴露給外面的屬性類似nodejs的 module.exports 但是屬性又不同於普通的字段，屬性只是外部包裝字段沒有自己的任何含量類似退換

Python 學習之文件對象的屬性和方法簡介

bject order 直接 rsyslogd cep com except pri and python的文件處理和相關輸入輸出能力。介紹文件對象(它的內建函數，內建方法和屬性)，標準文件，同時討論文件系統的訪問方法，文件執行，以及相關文件模塊。一、內建函數open

Vue（十二）vue實例的屬性和方法

destroy blog $delete $watch efs lba val $set vue vue實例的屬性和方法 1. 屬性 vm.$el vm.$data vm.$options vm.$refs 2. 方法 vm

第191天：js---Array常用屬性和方法總結

rip 所有數組排序添加總結合並擴展方法 class 字符串 Array---常用屬性和方法總結 1、Array對象構造函數 1 /*Array對象構造函數*/ 2 3 /*組合記憶 shift unshift pop push 4 添

事件對象的使用、屬性和方法

事件對象的使用、屬性和方法事件對象的使用、屬性和方法1 event.target代表當前觸發事件的元素，可以通過當前元素對象的一系列屬性來判斷是不是我們想要的元素2 target屬性可以是註冊事件時的元素或者子元素，通常用於比較event.target和this來確定是不是由於冒泡而觸發的

Python的實例定屬性和方法或類綁定方法

Python一、給實例對象綁定屬性和方法：1、給實例綁定屬性：先定義一個Student類 #!/usr/bin/python class Student(object): pass 然後綁定屬性： s = Student() s.name = ‘AAA‘ # 動態給實例綁定一個屬性 print(

scrapy.Spider的屬性和方法

相關推薦