scrapy中Request中常用參數
阿新 • • 發佈:2017-05-07
wow64 doc ant headers loop 錯誤 win cep accept
url: 就是需要請求,並進行下一步處理的url callback: 指定該請求返回的Response,由那個函數來處理。 method: 一般不需要指定,使用默認GET方法請求即可 headers: 請求時,包含的頭文件。一般不需要。內容一般如下:使用 urllib2 自己寫過爬蟲的肯定知道 Host: media.readthedocs.org User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0 Accept: text/css,*/*;q=0.1 Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3 Accept-Encoding: gzip, deflate Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/ Cookie: _ga=GA1.2.1612165614.1415584110; Connection: keep-alive If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT Cache-Control: max-age=0 meta: 比較常用,在不同的請求之間傳遞數據使用的。字典dict型 request_with_cookies= Request(url="http://www.example.com", cookies={‘currency‘: ‘USD‘, ‘country‘: ‘UY‘}, meta={‘dont_merge_cookies‘: True}) encoding: 使用默認的 ‘utf-8‘ 就行。 dont_filter: indicates that this request should not be filtered by the scheduler. Thisis used when you want to perform an identical request multiple times, to ignore the duplicates filter. Use it with care, or you will get into crawling loops. Default to False. errback: 指定錯誤處理函數
scrapy中Request中常用參數