python爬蟲-scrapy下載中介軟體
阿新 • • 發佈:2022-03-25
下載中介軟體
在每一個scrapy工程中都有一個名為 middlewares.py 的檔案,這個就是中介軟體檔案
其中下載中介軟體的類為 XxxDownloaderMiddleware
其中有這麼幾個方法
def process_request(self, request, spider):
return None
def process_response(self, request, response, spider):
return response
def process_exception(self, request, exception, spider): pass
process_request
這個方法是用來攔截請求的,我們可以將UA偽裝寫在這個方法中。
UA池這個屬性需要自己編寫
def process_request(self, request, spider):
# UA偽裝,從UA池隨機一個
request.headers['User-Agent'] = random.choice(self.user_agent_list)
return None
process_response
這個方法是用來攔截響應的,我們可以在這裡篡改響應資料。
如果我們將selenium和scrapy結合就可以請求那些動態載入的資料了。
def process_response(self, request, response, spider): # 瀏覽器物件 bro = spider.bro # 引數spider是爬蟲物件 # 挑選出指定響應物件進行篡改url->request->response bro.get(request.url) page_text = bro.page_source # 包含了動態載入的資料 # 針對定位到的response篡改 # 例項化新的響應物件(包含動態載入的資料) response = HtmlResponse(url=bro.current_url, body=page_text, encoding='utf-8', request=request) return response
在爬蟲檔案中需要預先建立selenium的瀏覽器物件
import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import ChromeOptions
class XxxSpider(scrapy.Spider):
name = 'xxx'
# allowed_domains = ['www.xxx.com']
start_urls = ['……']
def __init__(self):
service = Service('/Users/soutsukyou/PyCharm_Workspace/網路爬蟲/study_selenium/chromedriver')
chrome_options = ChromeOptions()
# 規避檢測
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 例項化瀏覽器
self.bro = webdriver.Chrome(service=service, options=chrome_options)
process_exception
這是用來攔截髮生異常的請求物件,一般我們可以在這裡寫代理ip。
兩個代理ip池屬性需要自己編寫
def process_exception(self, request, exception, spider):
# 可以設定代理ip
if request.url.split(':')[0] == 'http':
request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)
if request.url.split(':')[0] == 'https':
request.meta['proxy'] = 'https://'+random.choice(self.PROXY_https)
# 重新請求傳送
return request
其它
我們需要在settings.py中開啟下載中介軟體才能使其生效
# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
'xxx.middlewares.XxxDownloaderMiddleware': 543,
}