spider 爬蟲文件基本參數(3)

阿新 • • 發佈：2019-04-26

參數詳解 util 返回取數 tin 形式 use col __init__

一代碼

# -*- coding: utf-8 -*-
import scrapy


class ZhihuSpider(scrapy.Spider):
    # 爬蟲名字,名字唯一,允許自定義
    name = ‘zhihu‘
    # 允許爬取的域名,scrapy每次發起的url爬取數據,先回進行域名檢測,檢測通過就爬取
    allowed_domains = [‘zhihu.com‘]
    #發起的起始url地址,scrapy項目啟動自動調用start_request()方法,把start_urls
    # url的作為請求url發起請求,把獲取到的response交給回調函數,回調函數傳遞給parse 

    # 解析數據
    start_urls = [‘http://zhihu.com/‘]

    custom_settings = {
        # 請求頭
        ‘user-agent‘: None,
        # 請求來源
        # ‘referer‘: ‘https://www.zhihu.com/‘,
    }

    def start_requests(self):
        ‘重寫start_requests方法‘
        for url in self.start_urls:
             
#自定義解析方法
            yield scrapy.Request(url=url,method=‘Get‘,callback=self.define_parse)



    def parse(self, response):
        pass

    def define_parse(self,response):
        print(response)
        #輸出狀態碼
        self.logger.info(response.status)

二參數詳解

custom_settings

1 settings 文件中默認請求頭 DEFAULT_REQUEST_HEADERS
2 spider文件中請求頭參數 custom_settings
- 　　必須以類變量形式存在
- 優先級別高與全局

訪問知乎不攜帶請求參數,返回400

技術分享圖片

兩種請求頭的書寫方式如下(左:spisder, 右:settings.py)

技術分享圖片

allowed_domains

　　允許爬取的域名,scrapy每次發起的url爬取數據,先回進行域名檢測,檢測通過就爬取

start_urls

　　發起的起始url地址,scrapy項目啟動自動調用start_request()方法,把start_urlsurl的作為請求url發起請求,把獲取到的response交給回調函數,回調函數傳遞給parse解析數據

settings

　　全局的配置文件

logger

　　日誌信息,使用=python自帶的log模塊

start_requests（）

class MySpider(scrapy.Spider):
    name = ‘myspider‘

    def start_requests(self):
        #使用FormRequest提交數據
        return [scrapy.FormRequest("http://www.example.com/login",
                                   formdata={‘user‘: ‘john‘, ‘pass‘: ‘secret‘},
                                   callback=self.logged_in)]

    def logged_in(self, response):
        pass

post 請求

parse(response)

　　參數：response（Response） - 對解析的響應

指定解析函數,可以擴展多個函數,多層次的解析方法.

技術分享圖片

spider 啟動參數配置

import scrapy

class MySpider(scrapy.Spider):
    name = ‘myspider‘

    def __init__(self, category=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self.start_urls = [‘http://www.example.com/categories/%s‘ % category]

命令行中調用

scrapy crawl myspider -a category=electronics

spider 爬蟲文件基本參數(3)

參數詳解 util 返回取數 tin 形式 use col __init__ 一代碼 # -*- coding: utf-8 -*- import scrapy class ZhihuSpider(scrapy.Spider): #

Apache httpd.conf配置文件AllowOverride參數詳解

put tracking 指令 utf 逗號 browser write icon directory AllowOverride從字面上解釋是允許覆蓋的意思，即Apache允許另一配置文件覆蓋現有配置文件。我們通常利用Apache的rewrite模塊對URL進行重寫，r

AngularCLI介紹及配置文件主要參數含義解析

prefix 域名最佳實踐 netem cin 存儲 ng- idt 還需使用Angular CLI可以快速，簡單的搭建一個angular2或angular4項目，是只要掌握幾行命令就能構建出前端架構的最佳實踐，它本質也是使用了webpack來編譯，打包，壓縮等構建的事

Oracle Database 口令文件與參數文件管理

pwd pre acl sele false ring ora als AR 創建口令文件 [oracle@king01 ~]$ orapwd file=/u01/app/oracle/product/11.2.0/db_1/dbs/orapwking password=o

PHP獲取音頻mp3文件時長或音頻文件其它參數屬性

second 遇到 this led hub 我們解決方案服務引入今天在開發項目中遇到一個問題，要獲取到上傳音頻的時長，從而展示在前端頁面最後找到解決方案： 1、首先，我們需要先下載一份PHP類—getid3 　　 https://codeload.github.

sublime text 3基本參數設置及插件使用

修改使用 text ont 顏色調色板 log shift images sublime text 3常用基本設置，包括插件，字體等一些配置。寫個隨筆，備忘。 soda主題：特別喜歡；插件：Color Highlighter輸入顏色時，可以看到顏色。在Color

【網絡爬蟲入門05】分布式文件存儲數據庫MongoDB的基本操作與爬蟲應用

數據庫的操作理解 src web 文件存儲學習 json格式關系型 log 【網絡爬蟲入門05】分布式文件存儲數據庫MongoDB的基本操作與爬蟲應用廣東職業技術學院歐浩源 1、引言網絡爬蟲往往需要將大量的數據存儲到數據庫中，常用的有MySQL、Mon

Linux允許打開最大文件句柄數的參數調優-"too many open files"問題

方式描述 pip lsof 允許出現有效 stack awk 都知道Linux系統的特性，一切皆文件，所有在運行zabbix這樣的服務時，其中重要的一個調優就是調整linux系統的最大文件句柄數，解決“too many open files”的問題，增大程序運行允許打

GIS程式設計（七）實現基本向量圖形系統的文件和檢視（3）實現向量圖形系統的檢視

GIS程式設計（七）實現基本向量圖形系統的文件和檢視（3）實現向量圖形系統的檢視本節將在上兩節的基礎之上，實現向量圖形系統的檢視，完成向量圖形系統的圖形元素繪製功能。1、建立座標系在組織一幅圖形時，採用哪一種映像方式組織向量圖形系統的座標系值得進行研究。在本向量圖形系統中，可

由於想要實現下載的文件可以進行選擇，而不是通過<a>標簽寫死下載文件的參數，所以一直想要使用JFinal結合ajax實現文件下載，但是ajax實現的文件下載並不能觸發瀏覽器的下載文件彈出框，這裏通過模擬表單提交實現同樣的效果。

clas exists sele val 完整 nload lec script icon 由於想要實現下載的文件可以進行選擇，而不是通過<a>標簽寫死下載文件的參數，所以一直想要使用JFinal結合ajax實現文件下載（這樣的話ajax可以傳遞不

linux文件基本操作管理

基本操作基本 mov 交互使用操作強制復制文件遞歸復制文件、目錄 1、使用cp(copy的意思)命令復制文件或者目錄　　cp源文件（文件夾）目標文件（文件夾）常用參數：　　-r 遞歸復制整個目錄樹（復制文件夾用）　　-v顯示詳細信息 2、使用mv（m

將文件寫進數據庫的方法

local () nbsp roo conn content oot utf8 導入數據 1。讀取文件的內容 2. 獲得文件的長度 3.數據庫的連接（設置字符集和選擇要操作的數據庫） 4. 將文件的內容的字符串轉化為數組（循環，執行sql語句） 5.關閉數據庫 &l

MAC通過配置文件連接數據庫

創建 nbsp 輸入格式 fileinput sys pro 文件內容換行 1、準備配置文件： 1? 直接在項目裏面建配置文件：在src文件夾同級，創建一個 conf 文件夾，專門來管理配置文件的； 2? 創建文件 xxx.properties，然後將需要配置的信息

Python基礎day-5[字符編碼,文件處理,函數]

一個狀態 asc 國際文件處理調用文字 read font 字符編碼: 　　為什麽要有字符編碼?字符編碼是為了讓計算機能識別我們人寫的字符,因為計算機只認識高低電平,也就是二進制數"0","1". 　　字符編碼其實就是在完成一件,字符====>數字的翻譯過程.

用到了base64轉圖片文件的函數，記錄一下

base64 圖片 import java.io.*; import sun.misc.*; //對圖片文件進行Base64編碼 public String getImagebase64(String imgFileName) { byte[] data = null

C# Winform將控件作為參數傳遞

text win listview 簡單的每次方便 list ext 空間名最近做個Winform 的程序設計，需要將窗體的控件作為參數傳遞到另外一個類的函數中去使用，每次都會忘記，簡單的記下來，以備即時查看。 1. 設置控件的modifier屬性設置為public

linux->windows主動推送文件同步目錄數據 linux-windows數據目錄同步

ssh服務器 class 地址 gen tps fig style spa config 1 .windows下安裝openssh for windows工具，下載地址 https://www.mls-software.com/opensshd.html 2.修改op

html文件基本結構

開發網頁 itl 容器是什麽 meta 程序 htm 顯示方便 <html> 根標簽，所有網頁的標簽都放在此 <head></head>　用於定義文檔頭部，它是所有頭部元素的容器 <body></body>　

函數、文件操作實現數據增刪改查---low版本

腳本 python 首先說明這個腳本很low，目前水平有限，只能實現使用固定的語法對數據進行增刪改查。但是現在腳本不low，怎麽讓明年的我來嘲笑今年的自己需求 a.可進行模糊查詢，語法至少支持下面3種: 　　 select name,age from staff_table where

【轉】Linux下查看進程打開的文件句柄數

art blog targe 時間 ase 響應時間 nbsp lin repl ---查看系統默認的最大文件句柄數，系統默認是1024 # ulimit -n 1024 ----查看當前進程打開了多少句柄數 # lsof -n|awk ‘{print $2}‘|sort

spider 爬蟲文件基本參數(3)

一 代碼

二 參數詳解

custom_settings

相關推薦

一代碼

二參數詳解