第十八節：Scrapy爬蟲框架之settings文件詳解

阿新 • • 發佈：2019-04-15

system tle 下載 cati 項目 spi 設置 com 服務器

# -*- coding: utf-8 -*-

# Scrapy settings for maoyan project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html 

#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

# #Scrapy項目的名字,這將用來構造默認 User-Agent
BOT_NAME = ‘BLZX‘

SPIDER_MODULES = [‘BLZX.spiders‘]         # Scrapy搜索spider的模塊列表 默認: [xxx.spiders]
NEWSPIDER_MODULE = ‘BLZX.spiders‘         # 使用 genspider 命令創建新spider的模塊。默認: ‘xxx.spiders‘

# 通過在用戶代理上標識您自己（和您的網站）來負責地爬行 

# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = ‘maoyan (+http://www.yourdomain.com)‘

# Obey robots.txt rules    遵守robots.txt規則
ROBOTSTXT_OBEY = False

# 配置Scrapy執行的最大並發請求（默認值：16）
# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32 


# 同一網站的請求配置延遲（默認值：0）
# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
# 下載延遲
#DOWNLOAD_DELAY = 3

# 下載延遲設置將僅滿足以下條件之一(二選一)
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16            # 每個域的並發請求的最大值
#CONCURRENT_REQUESTS_PER_IP = 16                # 對單個IP進行並發請求的最大值

# 禁用cookie（默認情況下啟用）
# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# 禁用telnet控制臺（默認啟用）
# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# 覆蓋默認請求頭
# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
#   ‘Accept-Language‘: ‘en‘,
#}

# 啟用或禁用蜘蛛中間件
# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html

# =======================Spider Middleware=============================
#SPIDER_MIDDLEWARES = {
#    ‘maoyan.middlewares.MaoyanSpiderMiddleware‘: 543,
#}


# 啟用或禁用下載器中間件
# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html

# =====================Downloader Middleware===========================
# DOWNLOADER_MIDDLEWARES = {
   # ‘maoyan.middlewares.MaoyanDownloaderMiddleware‘: 543,
# }

# 啟用或禁用擴展
# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    ‘scrapy.extensions.telnet.TelnetConsole‘: None,
#}

# 管道配置項目
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
#ITEM_PIPELINES = {
#    ‘maoyan.pipelines.MaoyanPipeline‘: 300,
#}

# 啟用和配置AutoThrottle擴展（默認情況下禁用）
# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True

# 初始下載延遲
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5

# 在高延遲情況下設置的最大下載延遲
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60

# Scrapy平均請求數應與每個遠程服務器並行發送
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# 啟用和配置HTTP緩存（默認情況下禁用）
# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = ‘httpcache‘
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = ‘scrapy.extensions.httpcache.FilesystemCacheStorage‘

system tle 下載 cati 項目 spi 設置 com 服務器 # -*- coding: utf-8 -*-# Scrapy settings for maoyan project## For simplicity, this file contains onl

第十七節：Scrapy爬蟲框架之Middleware文件詳解

cookies yield 啟動 urn 響應 HERE 返回 === one # -*- coding: utf-8 -*-# 在這裏定義蜘蛛中間件的模型# Define here the models for your spider middleware## See d

Redis集群之配置文件詳解（待完善）

enable ice local ise bare config 停止 databases end 運維Redis集群的核心任務就是配置文件Redis.conf 命令行將現使用的Redis配置參數導出到 redis.conf.bak文件 grep ‘^[^#]‘ /etc

Mysql 之配置文件詳解

symbol -s link socket rep con times default mat [client]port=3306 socket=/tmp/mysql.sock[mysqld]user = mysql

Elasticsearch 學習之配置文件詳解

服務器 elastic 設置 .org settings filter ESS 通用其它 Elasticsearch配置文件##################### Elasticsearch Configuration Example ################

RPM包制作之Spec文件詳解

res name centos7 source orm group ica xsl configure 看這篇文章的人基本都有一個想法，就是：“勞資不想用YUM的安裝！不是版本太低就是文件分布太野路子”，此時我們需要自己訂制軟件包的需求，我們會把一些源碼包按照我們的需求來做

第四十章：Spring MVC框架之傳統增刪改查06

傳統CRUD 列表頁面：新增頁面：編輯頁面：刪除操作：匯入SpringMVC jar包 commons-logging-1.1.3.jar spring-aop-4.0.0.RELEASE.jar spring-beans-4.0.0.RELEAS

第四十章：Spring MVC框架之多IOC容器整合15

多IOC容器整合 SSM整合方式 Spring、SpringMVC、MyBatis SpringMVC的核心Servlet會啟動一個IOC容器，而ContextLoaderListener也會啟動一個IOC容器。 web.xml <?xml version="1.

第四十章：Spring MVC框架之資料校驗14

第十二章資料校驗在Web應用三層架構體系中，表述層負責接收瀏覽器提交的資料，業務邏輯層負責資料的處理。為了能夠讓業務邏輯層基於正確的資料進行處理，我們需要在表述層對資料進行檢查，將錯誤的資料隔絕在業務邏輯層之外。 1.校驗概述 JSR 303是Java為Bean資料合法性

第四十章：Spring MVC框架之型別轉換13

SpringMVC將“把請求引數注入到POJO物件”這個操作稱為“資料繫結”。資料型別的轉換和格式化就發生在資料繫結的過程中。型別轉換和格式化是密不可分的兩個過程，很多帶格式的資料必須明確指定格式之後才可以進行型別轉換。最典型的就是日期型別。 1.使用SpringMVC內建的型

第四十章：Spring MVC框架之執行原理12

第十章 SpringMVC執行原理找到一篇寫的不錯的部落格，大家可以看看第一節幾個重要元件 1.HandlerMapping 代表請求地址到handler之間的對映。 2.HandlerExecutionChain handler的執行鏈物件，由handler物件和所有ha

第四十章：Spring MVC框架之Ajax11

第九章 Ajax Ajax程式和伺服器資料傳輸在進行Ajax操作時，SpringMVC會需要將JSON資料和Java實體類進行相互轉換，為了實現這個效果需要額外加入jackson-all-1.9.11.jar 1.從瀏覽器傳送資料給handler方法 1請求引數分散提交頁面

第四十章：Spring MVC框架之攔截器10

第八章攔截器攔截器最典型的用法是檢查使用者是否登入，登入後可以執行目標handler方法，未登入則跳轉到登入頁面。這樣的操作要是在每個攔截器內部來寫就太麻煩了，統一提取到攔截器中是明智之舉。 1.HandlerInterceptor介面 ①preHandle()方法簽名：b

第四十章：Spring MVC框架之細節瞭解16

第十四章瞭解內容 1.SpringMVC配置檔案可以放在WEB-INF下 ①命名規範：[servlet-name]-servlet.xml ②位置：/WEB-INF目錄下 ③示例：/WEB-INF/springDispatcherServlet-servlet.xml ④使用預設配

學習筆記第十八節：卡特蘭數

前話本樓主是蒟蒻，居然最近才搞懂了卡特蘭數，在這裡總結一下，最基礎的總結。正題定義卡特蘭數為：卡特蘭數的遞推式是：

豹哥嵌入式講堂：ARM Cortex-M開發之文件詳解（7）- 反匯編文件(.s/.lst/.dump)

work cfi text1 翻譯 memory 進制數補充就是 datatable 　　大家好，我是豹哥，獵豹的豹，犀利哥的哥。今天豹哥給大家講的是嵌入式開發裏的反匯編文件(.s, .lst, .dump)。　　豹哥在第四、五、六節課分別介紹了編譯器/鏈接器生成的

小程序學習筆記二：頁面文件詳解之 .json文件

fresh 小程序整體屬性 spa hit rbac style mdi 頁面配置文件—— pageName.json 每一個小程序頁面可以使用.json文件來對本頁面的窗口表現進行配置，頁面中配置項會覆蓋 app.json 的 window 中相同的配置

豹哥嵌入式講堂：ARM Cortex-M開發之文件詳解（8）- 鏡像文件(.bin/.hex/.s19)

linker 未定義公司編輯器 ascii 輔助 oca ddr ext 　　大家好，我是豹哥，獵豹的豹，犀利哥的哥。今天豹哥給大家講的是嵌入式開發裏的image文件(.bin, .hex, .s19)。　　今天這節課是豹哥《ARM Cortex-M開發之文件詳解》

hibernate框架學習筆記2：配置文件詳解

格式化 version validate ret root 主鍵生成策略 -m color 格式實體類： package domain; public class Customer { private Long cust_id; priva

第211天：git和github的區別和使用詳解

報錯 window 回歸技術分享出現信息 -s nload 指定一、git 1、什麽是git 它是一個源代碼管理工具，在一個項目中，凡是由開發人員編寫的都算是源代碼，源代碼有必要管理起來，讓源代碼可以被追溯，主要記錄每次變更了什麽，誰主導這次變化。人為的維護比較麻煩

第十八節：Scrapy爬蟲框架之settings文件詳解

相關推薦