python爬蟲之scrapy中user agent淺談（兩種方法）

阿新 • • 發佈：2019-02-17

user agent簡述

User Agent中文名為使用者代理，簡稱 UA，它是一個特殊字串頭，使得伺服器能夠識別客戶使用的作業系統及版本、CPU 型別、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器外掛等。

開始（測試不同型別user agent返回值）

手機user agent 測試：Mozilla/5.0 (Linux; U; Android 0.5; en-us) AppleWebKit/522 (KHTML, like Gecko) Safari/419.3

電腦user agent 測試：Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36

1.新建一個scrapy專案(以百度做案例):

scrapy startproject myspider

scrapy genspider bdspider www.baidu.com

2.在settings中開啟user agent

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'testspider (+http://www.yourdomain.com)'

將手機與電腦user agent 分別修改（手機訪問返回的內容比電腦訪問的要少，所以隨便拿個len（）判斷一下就可以）

3.spider編寫與user agent對比

class MyspiderSpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        print(len(response.text))

明顯可以看出手機和電腦的區別，這也表明百度通過user agent來判斷終端類別然後返回不同內容

那麼重點來了，對於爬蟲來說為了防止觸發反爬一個user agent肯定不行了

那麼該如何掛大量的user agent呢

處理方法有很多，這裡主要介紹兩種：

一、在setings中寫一個user agent列表並設定隨機方法（讓setings替我們選擇）

二、在settings中寫列表，在middleware.py中建立類，在downloadmiddleware中呼叫（讓中介軟體完成選擇）

一、settings 隨機選擇user agnet（第一種方法）

settings建立user agent表，

匯入random，隨機用choise函式呼叫user agent

import random
# user agent 列表
USER_AGENT_LIST = [
    'MSIE (MSIE 6.0; X11; Linux; i686) Opera 7.23',
    'Opera/9.20 (Macintosh; Intel Mac OS X; U; en)',
    'Opera/9.0 (Macintosh; PPC Mac OS X; U; en)',
    'iTunes/9.0.3 (Macintosh; U; Intel Mac OS X 10_6_2; en-ca)',
    'Mozilla/4.76 [en_jp] (X11; U; SunOS 5.8 sun4u)',
    'iTunes/4.2 (Macintosh; U; PPC Mac OS X 10.2)',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:5.0) Gecko/20100101 Firefox/5.0',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:9.0) Gecko/20100101 Firefox/9.0',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:16.0) Gecko/20120813 Firefox/16.0',
    'Mozilla/4.77 [en] (X11; I; IRIX;64 6.5 IP30)',
    'Mozilla/4.8 [en] (X11; U; SunOS; 5.7 sun4u)'
]
# 隨機生成user agent
USER_AGENT = random.choice(USER_AGENT_LIST)

編寫spider：

# -*- coding: utf-8 -*-
import scrapy

class MyspiderSpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com']

    def parse(self, response):
        print(response.request.headers['User-Agent'])

結果對比

執行結果可以明顯發現每次呼叫的user agent不一樣

二、在middleware中呼叫user agent（第二種方法）

在setting中註釋user agent 防止干擾

在middlewares中建立類

import random
class UserAgentMiddleware(object):
    def __init__(self):
        self.user_agent_list = [
            'MSIE (MSIE 6.0; X11; Linux; i686) Opera 7.23',
            'Opera/9.20 (Macintosh; Intel Mac OS X; U; en)',
            'Opera/9.0 (Macintosh; PPC Mac OS X; U; en)',
            'iTunes/9.0.3 (Macintosh; U; Intel Mac OS X 10_6_2; en-ca)',
            'Mozilla/4.76 [en_jp] (X11; U; SunOS 5.8 sun4u)',
            'iTunes/4.2 (Macintosh; U; PPC Mac OS X 10.2)',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:5.0) Gecko/20100101 Firefox/5.0',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:9.0) Gecko/20100101 Firefox/9.0',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:16.0) Gecko/20120813 Firefox/16.0',
            'Mozilla/4.77 [en] (X11; I; IRIX;64 6.5 IP30)',
            'Mozilla/4.8 [en] (X11; U; SunOS; 5.7 sun4u)'
        ]
    def process_request(self,request,spider):
        request.headers['USER_AGENT']=random.choice(self.user_agent_list)

啟用downloader middleware

DOWNLOADER_MIDDLEWARES = {
    'testspider.middlewares.UserAgentMiddleware': 300
}

開始測試，對別結果

好了兩種方法結束了...........................

python爬蟲之scrapy中user agent淺談（兩種方法）

user agent簡述 User Agent中文名為使用者代理，簡稱 UA，它是一個特殊字串頭，使得伺服器能夠識別客戶使用的作業系統及版本、CPU 型別、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器外掛等。開始（測試不同型別user agent返回值）手機use

Java小程式之句子每個單詞首字母大寫（兩種方法）

題目：用Java編寫一個將輸入的英文句子每個單詞首字母變為大寫的小程式。程式碼如下: 檔名:CapitalizeTheFirstLetter.java public class CapitalizeTheFirstLetter { /**

python計算一個字串中所有數字的和（特簡單方法）

直接上程式碼 ''' 計算字串中所有數字的和 1.字串中只有小寫字母和數字 2.數字可能連續，也可能不連續 3.連續數字要當做一個數處理如：'12abc34dc5' => 12 + 34 + 5 => 51 ''' s = '12ab100c34de5f' def sum_

轉載：在ASP.net 3.5中用JSON序列化對象（兩種方法）

for pep 技術分享 contract arr static returns web memory asp.net3.5中已經集成了序列化對象為json的方法。 1:System.Runtime.Serialization.Json; 2:Syst

Android之列印長日誌（兩種方法）

//第一種方式 //列印長的日誌 public static void LongLoge(String str){ int max_str_length=2001-NOTGREENDAO.length(); //大於4000時

執行緒之建立（兩種方法）和啟動

java使用Thread類代表執行緒，所有的執行緒物件都必須是Thread 類或者子類的例項。每個執行緒的任務是完成一定的任務，就是執行一段程式流。目前有兩種建立方式（第三種後續補充）一種是繼承Thread類一種是實現Runnable介面` 一、繼承Thread類 1.定

執行緒之建立（兩種方法）和啟動

java使用Thread類代表執行緒，所有的執行緒物件都必須是Thread 類或者子類的例項。每個執行緒的任務是完成一定的任務，就是執行一段程式流。目前有兩種建立方式（第三種後續補充）一種是繼承Thread類一種是實現Runnable介面` 一、繼承Th

資料結構實驗之圖論八：歐拉回路（兩種方法）

資料結構實驗之圖論八：歐拉回路 Time Limit: 1000 ms Memory Limit: 65536 KiB Problem Description 在哥尼斯堡的一個公園裡，有七座橋將普雷格爾河中兩個島及島與河岸連線起來。能否走過這樣的七

在一個字串中查詢子字串出現的次數（兩種方法）（遍歷查詢和切割判斷）

/** * 思路：開始找，如果返回-1，結束程式 * 否則，計數+1，再繼續從新的位置開始找，直到找不到 */ String str = "www.baidu.com/www.sina.com"; String s

LeetCode第39題之Combination Sum（兩種方法）

思路：兩種方法都是利用遞歸回溯，第二方法在第一種方法的基礎上對原始資料先進行排序，這樣可以剪枝，加快計算速度。第一種方法在LeetCode上測試執行的時間是24ms，第二種方法執行時間為16ms。方

c實現求一個數組中最大子序列的和（兩種方法）

||_ 題目描述 ||_ 分析本題的核心是計算出一個序列的所有子序列中元素和為最大時的值，不要求輸出對應的子序列是什麼，而只要求輸出和的最大值是多少。法一：我們把序列分成兩半（左邊

C#實現向已存在的Excel檔案中寫入資料例項（兩種方法）

//新增引用 using Excel = Microsoft.Office.Interop.Excel; using System.Reflection; 方法一：將識別結果寫入到Excel表格中（根據指定模版寫入，並將其以當前儲存時間命名另存）

在VC中匯出excel表格（兩種方法）

相關資料可以參考http://blog.csdn.net/Augusdi/article/category/704352 1.利用ODBC void CGroupPanel::OnExportChannelinfo() { CGroupManager * pGroupMg

python爬蟲之Scrapy框架:兩種隨機選擇User-Agent的方法

修改請求時的User-Agent一般有兩種思路:一是修改setting中的User-Agent變數(適用於極少量的agent更換,一般不採用);另一種就是通過Downloader Middleware的process_request()方法來修改,即在middlewares.

python爬蟲之Scrapy框架中的Item Pipeline用法

RoCE 執行 ise inf 優先執行 sin .com 如果 ica 當Item在Spider中被收集之後, 就會被傳遞到Item Pipeline中進行處理. 每個item pipeline組件是實現了簡單的方法的python類, 負責接收到item並通過它執行一些

python爬蟲之scrapy的pipeline的使用

python爬蟲 pre ram .py pid cati port 目錄自動創建 scrapy的pipeline是一個非常重要的模塊，主要作用是將return的items寫入到數據庫、文件等持久化模塊，下面我們就簡單的了解一下pipelines的用法。案例一：　　

python爬蟲之scrapy文件下載

files 下載 item toc mat spider color pid 一點我們在寫普通腳本的時候，從一個網站拿到一個文件的下載url，然後下載，直接將數據寫入文件或者保存下來，但是這個需要我們自己一點一點的寫出來，而且反復利用率並不高，為了不重復造輪子，scra

python爬蟲之scrapy模擬登錄

這不 eight 搜索頁面 response dom cookie值知乎 blog 背景：　　初來乍到的pythoner，剛開始的時候覺得所有的網站無非就是分析HTML、json數據，但是忽略了很多的一個問題，有很多的網站為了反爬蟲，除了需要高可用代理IP地址池外，還

python爬蟲之url中的中文問題

識別 read ext wow 你好 pytho htm apple pri 在python的爬蟲學習中,我們的url經常出現中文的問題,我們想要訪問的url就需要對url進行拼接,變成瀏覽器可以識別的url在python中已經有了這樣的模塊了,這就是urlencodeur

2018 - Python 3.7 爬蟲之 Scrapy 框架的安裝及配置（一）

一，安裝 Python3.7 二，安裝 pip 三，安裝 pywin32 四，安裝 pyOpenSSL 五，安裝 lxml 六，安裝 zope.interface 七，安裝 twisted 八，安裝 Scrapy 九，一鍵升級所有庫，Python 3.7親測可用，建立

python爬蟲之scrapy中user agent淺談（兩種方法）

user agent簡述

開始（測試不同型別user agent返回值）

1.新建一個scrapy專案(以百度做案例):

2.在settings中開啟user agent

3.spider編寫與user agent對比

一、settings 隨機選擇user agnet（第一種方法）

settings建立user agent表，

編寫spider：

結果對比

二、在middleware中呼叫user agent（第二種方法）

在middlewares中建立類

啟用downloader middleware

開始測試，對別結果

相關推薦