scrapy 一些設置和問題

阿新 • • 發佈：2019-02-17

add cal referer rap load word com ddl 2.0

scrapy設置ua池

設置後在setting啟用

DOWNLOADER_MIDDLEWARES = {
   ‘laogou.middlewares.LaogouDownloaderMiddleware‘: 543,
   ‘laogou.middlewares.randomUserAgentMiddleware‘: 400,
   ‘laogou.middlewares.randomProxyMiddleware‘: 400，

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

class randomUserAgentMiddleware(UserAgentMiddleware):

     
def __init__(self,user_agent=‘‘):
        self.user_agent = user_agent

    def process_request(self, request, spider):
        ua = random.choice(self.user_agent_list)
        if ua:
            request.headers.setdefault(‘User-Agent‘, ua)
    user_agent_list = [         "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1 
"         "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",         "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",         "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6 
",         "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",         "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",         "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",         "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",         "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",         "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",         "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",         "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",         "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",         "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",         "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",         "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",         "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]

scrapy設置ip池

from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware

class randomHttpProxyMiddleware(HttpProxyMiddleware):
    def __init__(self,ip = ‘‘):
        self.ip = ip
    def process_request(self, request, spider):
        ip = random.choice(self.ip_list)
        if ip:
            request.meta[‘proxy‘] = ip
    ip_list = [
        ‘https://182.122.176.49:9999‘,
        ‘https://125.123.141.20:9999‘
    ]

scrapy 設置自定義cookie：class LaogouwangSpider(scrapy.Spider):

　　 name = ‘laogouwang‘    
　　 # allowed_domains = [‘www.laogou.com‘]    
　　 # start_urls = [‘http://www.laogou.com/‘]

    def start_requests(self):
        url = ‘https://www.lagou.com/‘
        yield scrapy.Request(url=url,callback=self.parse,meta={‘cookiejar‘:1})

    def parse(self, response):
        print(response.request.headers.getlist(‘Cookie‘))
        print(response.headers.getlist(‘Set-Cookie‘))
        url = ‘https://www.lagou.com/jobs/list_‘+ str(settings.keys) +‘?city=‘+ str(settings.cidy) +‘&cl=false&fromSearch=true&labelWords=&suginput=‘
        print(response.meta[‘cookiejar‘])

        yield scrapy.Request(url=url,callback=self.download,meta={‘cookiejar‘:response.meta[‘cookiejar‘]，‘id‘:1},dont_filter=True)
　　 def download(self, response):

    # print(response.text)
    print(response.request.headers.getlist(‘Cookie‘))
    print(response.headers.getlist(‘Set-Cookie‘))
    i = response.meta.get(‘id‘)
    file = ‘false‘
    if i == 1:
        file = ‘true‘
    data = {
        "first":file,
        "pn":str(i),
        "kd":str(settings.keys)
    }
    headers_post = {
        ‘Accept‘: ‘application/json, text/javascript, */*; q=0.01‘,
        ‘Content-Type‘: ‘application/x-www-form-urlencoded; charset=UTF-8‘,
        ‘Content-Length‘: str(len(urllib.parse.urlencode(data))),
        ‘Connection‘: ‘keep-alive‘,
        ‘Referer‘:str(response.url),
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0‘,
   }
    print(headers_post)
    print(str(response.url))
    print(data)
    url = ‘https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false‘

    yield scrapy.FormRequest(url=url,formdata=data,headers=headers_post,callback=self.files,dont_filter=True,meta={‘cookiejar‘:True,‘dont_redirect‘: True,‘handle_httpstatus_list‘: [301,302]})

meta={‘cookiejar‘:1}這個是啟動cookei記錄，在後面的請求中使用‘cookiejar‘:response.meta[‘cookiejar‘]可以更新cookie。
註意，需要在setting中設置COOKIES_ENABLED = True

獲取請求cookies是response.request.headers.getlist(‘Cookie‘)，響應cookies是response.headers.getlist(‘Set-Cookie‘)。
靜止重定向dont_filter=True。
在meta裏使用‘dont_redirect‘: True,‘handle_httpstatus_list‘: [301,302]可以在當前scrapy請求裏禁用重定向。

scrapy 一些設置和問題

add cal referer rap load word com ddl 2.0 scrapy設置ua池設置後在setting啟用 DOWNLOADER_MIDDLEWARES = { ‘laogou.middlewares.LaogouDownloaderMidd

關於Android手機MTP模式連接的一些設置（win7和ubuntu下，以紅米1s為例）

sta start .net eno bcm htm web date ati 有些手機的MTP模式在電腦上識別不了，須要一些設置才幹夠，以下就網上收集來的一些設置方法集中貼過來：一、 win7下參考：http://blog.ammrli.com/?p=11

centos7 和 Ubuntu server 16為虛擬化做的一些設置

啟動虛擬化嵌套做的平臺 ble 程序 face 開發網卡名在虛擬化技術快速發展的今天，我們往往在虛擬機中搭建一套雲平臺，因此虛擬化嵌套支持就不得不開啟，下面講解如何在主流的centos7以及Ubuntu server16操作系統上開啟嵌套虛擬化。同時，修改網卡命名

每天一個JavaScript實例-展示設置和獲取CSS樣式設置

width func height nts style scrip meta on() 屬性 <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" conte

《Eclipse的設置和第一個小程序的編寫》

不能點擊 reference 版本 servers 進行 ext .cn nco 前言：本次Eclipse操作必須是完成JDK環境變量的配置、Toccat的下載和配置後，才能夠順利進行的。如果在本次操作中遇到困難可以留言。一、編碼前對Eclipse的設置　　1.點擊W

Unity3D 中 Generic 動畫導入設置和 Root Motion 之間的關系

出現 efi 主題之前理解就會 runt 設置 clip Unity3D 的 Mecanim 動畫系統可以直接復用 3DS MAX 中制作的動畫文件中的位移，這個就是通過 applyRootMotion 來達成的，我們只需要在使用 Animator 控制動畫播放的同時

Java反射設置和訪問私有屬性值

測試類 username 反射 public 結果第一個 declare field name 越學習到後面，越感覺java反射機制很重要，必須精通，要不框架那塊比較難自己動手實現，回過頭溫習一下反射機制，查漏補缺今天嘗試了一下通過反射訪問和設置類的私有屬性（不設置s

eclipse中的字體大小設置和背景色設置

技術分享 -1 image ply logs .cn lips app cnblogs 1.字體大小設置在basic下選擇最後一個TextFont 護眼背景色設置添加到自定義顏色後點確定最後一步點apply eclipse中的字體大小設置和背景色設

【IDE】Code::Blocks 16.01安裝、設置和使用

blog nbsp deb org sub ads sublime def 集成開發　　發現Code::Blocks和Sublime Text一樣，都是很簡單好使的IDE(集成開發環境)，一看微軟家的VS2015，現在出到2017了，安裝包就是好幾十個G，C盤真是吃不消

c# 設置和取消文件夾共享及執行Dos命令

urn cati 如果 llc seo value close 輸出 dos命令 /// <summary> /// 設置文件夾共享 /// </summary> /// <pa

scrapy框架設置代理

ase param his utf-8 httpproxy down json eth head 網易音樂在單ip請求下經常會遇到網頁返回碼503的情況經查詢，503為單個ip請求流量超限，猜測是網易音樂的一種反扒方式因原音樂下載程序采用scrapy框架，所以需要在scra

PHP-CLI環境變量的設置和讀取

... 目的 running 指令 and clas 文檔 ini文件 href http://luokr.com/p/30 通常我們在維護PHP線上項目的時候，為了隔離配置和代碼，會使用fastcgi_param的形式將環境變量定義在Nginx的配置文件中（A

SQL PROMPT5.3.4.1的一些設置選項

param 存儲過程 f11 彈出 stand val fur -s 摘自：http://www.cnblogs.com/furenjian/p/4519426.html sql prompt這個工具安裝好之後就可以在SSMS裏使用代碼提示功能園子裏非常多的文章：例如

easyui-linkbutton 設置和獲取text文本

.text nsa bsp con easy text href ref button <a id="butTransagt" href="#" class="easyui-linkbutton" icon="icon-zj" title="電話轉接"

meta標簽的一些設置說明

rds hand sap highlight 新版本 friendly desc win tina <head>  <meta charset=‘utf-8‘> <!-- 優

關於pycharm 的一些設置

isp tin close Coding lin nbsp utf 依次 sed 一、關於默認的設置依次點擊：File->Settings->Editor->File and Code Templete #-*- co

PyCharm的一些設置

使用技術分享 tor python tao arm 文件頭文件 nbsp 設置使用UTF-8 在任何情況下：設置寫python腳本，新建腳本的時候默認加的頭文件。PyCharm的一些設置

jQuery的DOM操作之設置和獲取HTML、文本和值 html（）text（）val（）

java fontsize doc .text cti checkbox .net mar jsb 1. html()方法: 此方法類似於JavaScript中的innerHTML屬性，可以用來讀取或者設置某個元素中的html內容。 <html> <h

Nginx proxy buffer相關的設置和解釋

設置都是緩沖單獨很大的服務接收同時客戶端 proxy_buffer_size 4k; proxy_buffering on;proxy_buffers 4 4k;proxy_busy_buffers_size 8k;proxy_max_temp_file_s

Java web實驗 LoginInfor.jsp session屬性設置和獲取

org charset exceptio src req content urn meta tab <%@ page language="java" contentType="text/html; charset=UTF-8"%><!DOCTYPE htm

scrapy 一些設置和問題

相關推薦