爬取網站時請求被拒絕？scrapy輕松解決請求頭設置！就是不講道理

阿新 • • 發佈：2018-06-23

scrapy 就是 setting 頁面效果 useragent 基本生效 request

默認請求頭

命令行執行，新建爬蟲

scrapy startproject myspidercd myspider scrapy genspider scrapy_spider httpbin.org

我們通過對 https://httpbin.org/get?show_env=1 的請求，查看本次請求的瀏覽器信息，可以打開看一看是否是自己的瀏覽器信息

將返回的文本復制到 https://www.json.cn/ 格式化成便於查看的json格式，下面操作亦然，不再贅述。

修改請求頭

既然這樣的話，那我們修改下請求頭，達到偽造的效果

打開下面的鏈接，選一個自己喜歡的請求頭

http://www.useragentstring.com/pages/useragentstring.php?name=Chrome

這裏使用chrome瀏覽器請求頭

再次訪問，發現我們的請求頭已經成功更換

"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",

方式三：鏈接設置

此方法對單個鏈接生效, 只是此次請求的這個鏈接享受

在Request方法中設置headers參數

方法四：中間件設置

此方法可以從整個項目中去修改請求頭的設置規則，變化多端，不同的寫法，可以配置出不同的設置方式，下面是一個比較簡單的示例

我們參考scrapy默認處理請求頭的中間件

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

編寫中間件

作用優先級

如果作如下設置

# settings.pyUSER_AGENT = "settings"

# scrapy_spider.pycustom_settings = { "USER_AGENT": "custom_settings", }headers={"User-Agent": "header"}

運行效果為：

"User-Agent":"header"

註釋掉headers

"User-Agent":"custom_settings"

註釋掉custom_settings

"User-Agent":"custom_settings"

註釋掉settings

"User-Agent":"Scrapy/1.1.2 (+http://scrapy.org)"

可見優先級為：

headers > custom_settings > settings.py > Scrapy默認

註意

註意User-Agent參數的寫法

headers={"User-Agent": USER_AGENT})

如果寫錯了，很可能發生奇怪的事情

headers={"User_Agent": USER_AGENT}

請求頭中多了Scrapy…

"User-Agent":"Scrapy/1.1.2 (+http://scrapy.org),Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",

其實，很好區分：

User-Agent：瀏覽器請求頭參數，html代碼中經常用-

USER_AGENT: python變量

建議：

每次寫瀏覽器參數，如果怕寫錯就打開自己的瀏覽器，隨便測試一個頁面，從裏邊復制

作為從入門到實戰的我，踩過不少坑，此文做了簡單的總結，也分享了幾個比較實用的網站。希望此文的分享能給大家提供一個少走彎路的捷徑，那麽此文的價值也就體現了。

順便打個廣告

最近想寫一個開源庫，chinesename中文取名，已經實現基本的取名，不過名字需要優化，如果有想一起搞事情的同學，可以一起

爬取網站時請求被拒絕？scrapy輕松解決請求頭設置！就是不講道理

scrapy 就是 setting 頁面效果 useragent 基本生效 request 默認請求頭命令行執行，新建爬蟲 scrapy startproject myspidercd myspider scrapy genspider scrapy_spid

Java 關於爬取網站資料遇到csrf-token的分析與解決

問題描述在爬取某網站的時候遇到了問題，因為網站的避免CSRF攻擊機制，無法獲取到目標頁面資料，而是跳轉到一個預設頁面。關於CSRF 1、伺服器傳送給客戶端一個token。 2、客戶端提交的表單中帶著這個token。 3、如果這

scrapy框架用post 爬取網站資料的兩種方法區別

post請求，一定要重新呼叫父類的 start_requests(self)方法方法1：（推薦）重構start_requests def start_requests(self): data = { 'source': 'index_na

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python3.5：爬取網站上電影數據

x64 沒有 () nbsp 運行 lpar target __init__ doc 首先我們導入幾個pyhton3的庫: from urllib import requestimport urllibfrom html.parser import HTMLParser 在

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

Python 利用 BeautifulSoup 爬取網站獲取新聞流

lxml odi creat times 對比文件中 lse win 危機 0. 引言　　介紹下 Python 用 Beautiful Soup 周期性爬取 xxx 網站獲取新聞流；圖 1 項目介紹 1. 開發環境　　Python：　　　　

Request爬取網站（seo.chinaz.com）百度權重的查詢結果

save 網址 gecko rom 圖片頁面隨機數 user gen 一：腳本需求利用Python3查詢網站權重並自動存儲在本地數據庫（Mysql數據庫）中，同時導出一份網站權重查詢結果的EXCEL表格數據庫類型：MySql 數據庫表單名稱：website_w

Day11 (黑客成長日記) 爬取網站圖片

#匯入第三方庫# coding:utf-8import requests,re#找到需要爬取的網站'http://www.qqjia.com/sucai/sucai1210.htm'#1>獲取網站 2>正則表示式匹配不同圖片的地址 3>找到所有圖片的URL#開發講究見名識意#1.1 定

import requests from bs4 import BeautifulSoup url = 'http://quote.eastmoney.com/stocklist.html' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Wind

簡單爬蟲之爬取網站圖片

這裡選取的網址是 http://www.doutula.com 目的：爬取其中的圖片並且翻頁爬取首頁圖片的規則 <img src="https://ws3.sinaimg.cn/bmiddle/6af89bc8gw1f

爬取網站小豬短租的少量資訊及詳細介紹--爬蟲案例篇

#!/usr/bin/env python # -*- coding:utf-8 -*- # @Time : 18-10-10 下午9:21 import requests #匯入requests包;發請求網頁 from bs4 import BeautifulSoup #匯入bs4包;

Python爬蟲：爬取網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例，程式碼如下： 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo

Python爬取網站美女照片

上次無意之中看到一個網站，裡面全是美女的照片，我就心想，哪天有時間了得把這網站的所有美女照片都得爬下來。今天有時間，寫了點程式碼，爬去了網站的所有照片。附上戰果！圖片實在是太多了，爬了一個多小時，還在爬.... 先附上所有的原始碼： # -*- coding: utf-8 -*-

使用urllib爬取圖片時出現的錯誤urllib.error.ContentTooShortError

urllib.error.ContentTooShortError: <urlopen error retrieval incomplete 這是因為urlretrieve下載檔案不完整造成的可以接受這種異常重新寫一個方法處理這個問題，可以在去呼叫這個方法重新去下載，也可以重新用

PHP 結合前端 ajax 爬取網站信息後, 向指定用戶發送指定短信;

icloud identity coo 請求頭 array -type aid 前端之前 <?php /** * Description * @authors Your Name ([email protected]) * # 根據時時彩的最新一期的號碼

PHP 結合前端 ajax 爬取網站資訊後, 向指定使用者傳送指定簡訊;

<?php /** * Description * @authors Your Name ([email protected]) * # 根據時時彩的最新一期的號碼, 判斷如果為首尾同號則傳送簡訊 * - phpQuery 分析網頁, 獲得網頁資料, 獲得html資料 *

利用linux curl爬取網站資料

看到一個看球網站的以下截圖紅色框資料，想爬取下來，通常爬取網站資料一般都會從java或者python爬取，但本人這兩個都不會，只會shell指令碼，於是硬著頭皮試一下用shell爬取，方法很笨重，但旨在結果嘛，呵呵。 2.首先利用curl工具後者wget工具把整個網站資料爬取下來 &nbs

利用linux curl爬取網站數據

sed 紅色 9.png 規則 pad 內容 zha 執行 wget 看到一個看球網站的以下截圖紅色框數據，想爬取下來，通常爬取網站數據一般都會從java或者python爬取，但本人這兩個都不會，只會shell腳本，於是硬著頭皮試一下用shell爬取，方法很笨重，但旨在

爬取網站時請求被拒絕？scrapy輕松解決請求頭設置！就是不講道理

默認請求頭

修改請求頭

相關推薦