scrapy爬蟲實戰：偽裝headers構造假IP騙過ip138.com

阿新 • • 發佈：2018-12-11

scrapy爬蟲實戰：偽裝headers構造假IP騙過ip138.com

Middleware 中介軟體偽造Header

Util.py
middlewares.py
settings.py
ip138.py

我們在爬蟲的過程中，經常遇到IP被封的情況，那麼有沒有偽裝IP的方案呢，對於一些簡單的網站我們只要偽造一下headers就可以了。

我們一般來說想知道自己的IP，只需要訪問一下 http://www.ip138.com/ 就可以知道自己的IP了

使用瀏覽器檢查工具，具體檢視一下

就可以發現，實際上，IP資訊來源於

http://2018.ip138.com/ic.asp
即

最終來說就是，我們只需要訪問 http://2018.ip138.com/ic.asp 就可以知道自己的IP了。那麼我們今天的目標就是偽造一下headers騙過 ip138.com

Middleware 中介軟體偽造Header

Util.py

編寫一個可以動態偽造ip和agent的工具類

#! /usr/bin/env python3
# -*- coding:utf-8 -*-

import random
from tutorial.settings import USER_AGENT_LIST

class Util(object 
):
    def get_header(host='www.baidu.com',ip=None):
        if ip is None:
            ip = str(random.choice(list(range(255)))) + '.' + str(random.choice(list(range(255)))) + '.' + str(
                random.choice(list(range(255)))) + '.' + str(random.choice(list(range(255))))
        return {
            'Host' 
: host,
            'User-Agent': random.choice(USER_AGENT_LIST),
            'server-addr': '',
            'remote_user': '',
            'X-Client-IP': ip,
            'X-Remote-IP': ip,
            'X-Remote-Addr': ip,
            'X-Originating-IP': ip,
            'x-forwarded-for': ip,
            'Origin': 'http:/' + host,
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
            "Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.5,en;q=0.3",
            "Accept-Encoding": "gzip, deflate",
            "Referer": "http://" + host + "/",
            'Content-Length': '0',
            "Connection": "keep-alive"
        }

middlewares.py

middlewares.py 設定動態headers

from scrapy import signals
from backend.libs.Util import Util
from scrapy.http.headers import Headers

class TutorialDownloaderMiddleware(object):
    def process_request(self, request, spider):
        request.headers = Headers(Util.get_header('2018.ip138.com'))

settings.py

settings.py 配置動態Agent 啟用middlewares

USER_AGENT_LIST=[
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    'tutorial.middlewares.TutorialDownloaderMiddleware': 1,
}

ip138.py

# -*- coding: utf-8 -*-
import scrapy

class Ip138Spider(scrapy.Spider):
    name = 'ip138'
    allowed_domains = ['www.ip138.com','2018.ip138.com']
    start_urls = ['http://2018.ip138.com/ic.asp']
    
    def parse(self, response):
        print("*" * 40)
        print("response text: %s" % response.text)
        print("response headers: %s" % response.headers)
        print("response meta: %s" % response.meta)
        print("request headers: %s" % response.request.headers)
        print("request cookies: %s" % response.request.cookies)
        print("request meta: %s" % response.request.meta)

執行檢視效果
在這裡插入圖片描述

偽造成功。

GitHub原始碼

scrapy爬蟲實戰：偽裝headers構造假IP騙過ip138.com

scrapy爬蟲實戰：偽裝headers構造假IP騙過ip138.com Middleware 中介軟體偽造Header Util.py middlewares.py settings.py ip138.py

Scrapy爬蟲實戰：使用代理訪問

Scapy爬蟲實戰：使用代理訪問 Middleware 中介軟體設定代理 middlewares.py settings.py spider 配置meta使用proxy 快代理前面我們簡單的設定了h

Scrapy爬蟲實戰：百度搜索找到自己

Scrapy爬蟲實戰：百度搜索找到自己背景分析怎麼才算找到了自己怎麼才能拿到百度搜索標題怎麼爬取更多頁面 baidu_search.py 宣告BaiDuSearchItem Items

python爬蟲實戰：利用scrapy，短短50行代碼下載整站短視頻

start mongodb efi 本地 rtp 公司 loader 右鍵 more 近日，有朋友向我求助一件小事兒，他在一個短視頻app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視頻的下載鏈接，幫他解決

scrapy實戰：偽造headers的多種實現

scrapy實戰：偽造headers的多種實現新建爬蟲 ip138.py 預設headers 預設User-Agent settins.py 預設HEADERS settins.py custom

python爬蟲實戰：利用scrapy，短短50行程式碼下載整站短視訊

近日，有朋友向我求助一件小事兒，他在一個短視訊app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視訊的下載連結，幫他解決了這個小問題。因為這個事兒，勾起了我另一個念頭，這不最近一直想把python爬蟲方面的知識梳理梳理嗎，乾脆藉機行事，正湊

Scrapy爬蟲實戰二：獲取天氣資訊

本文專案採用python3.6版本語言，利用scrapy框架進行爬取。該專案實現的功能是爬取某城市的天氣以及往後預報一週的天氣，並將爬取到的資訊儲存為.txt檔案和寫入mysql資料庫。利用scrapy爬蟲就像是做填空題，只需要在相應的檔案裡填入相應的內容，連檔名都不用

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報

font size 項目執行 weather html time art show 1.項目準備：網站地址：http://quanzhou.tianqi.com/ 2.創建編輯Scrapy爬蟲： scrapy startproject weather scrapy

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

Python網絡爬蟲實戰：根據天貓胸罩銷售數據分析中國女性胸部大小分布

直方圖回調 ams find tags ram 可視化分析 discus 綜合應用本文實現一個非常有趣的項目，這個項目是關於胸罩銷售數據分析的。是網絡爬蟲和數據分析的綜合應用項目。本項目會從天貓抓取胸罩銷售數據，並將這些數據保存到SQLite數據庫中，然後對數據進行清洗

Python網絡爬蟲實戰：天貓胸罩銷售數據分析

顯示來講數據顯示 display colors python網絡 java 讀者 rep 本文實現一個非常有趣的項目，這個項目是關於胸罩銷售數據分析的。是網絡爬蟲和數據分析的綜合應用項目。本項目會從天貓抓取胸罩銷售數據，並將這些數據保存到SQLite數據庫中，然後對數據

Python爬蟲實戰：股票資料定向爬蟲

功能簡介目標：獲取上交所和深交所所有股票的名稱和交易資訊。輸出：儲存到檔案中。技術路線： requests—bs4–re 語言：python3.5 說明網站選擇原則：股票資訊靜態存在於html頁面中，非js程式碼生成，沒有Robbts

Scrapy爬蟲實戰 CrawlSpider和Item Loader的使用

網站： https://tech.china.com/articles/ 建立專案： scrapy startproject scrapyuniversal 之前建立專案，都用scrapy genspider +爬蟲名字+域名的方式，此次要建立CrawlSpider需要

Scrapy爬蟲實戰------360攝影美圖

網站： http://images.so.com/ 切換到攝影介面。開啟開發者工具：我們在下拉的時候可以看到這是一個ajax請求，資料結構是json。 sn=30返回的是前30張圖片，sn=60返回的是30到60的圖片。建立專案：構造請求：

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

尋找並分析百度雲的轉存api 首先你得有一個百度雲盤的賬號，然後登入，用瀏覽器（這裡用火狐瀏覽器做示範）開啟一個分享連結。F12開啟控制檯進行抓包。手動進行轉存操作：全選檔案->儲存到網盤->選擇路徑->確定。點選【確定】前建議先清空一下抓包記錄，這樣可以精確定位到轉存的api，這就是

Scrapy Selenium實戰：Selenium登入知乎儲存cookies後訪問需要登入頁面

Scrapy Selenium實戰：Selenium登入知乎儲存cookies後訪問需要登入頁面安裝 chromedriver 新建爬蟲 zhihu.py 獲取瀏覽器真實的User-Agent 執行驗證

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

Python3+Selenium爬蟲實戰：微博粉絲榜水分大揭祕

高能預警！分析到最後，我不得不感慨這個世界太真實了！文中有大量程式碼，注重閱讀體驗的請在PC站開啟！或者直接去我的個人部落格（www.data-insights.cn）閱讀！一、微博粉絲榜：一潭深水微博粉絲榜爭奪戰由來已久，每個明星在榜單上的位置似乎就象徵著他（她）在粉

零基礎Python爬蟲實戰：豆瓣電影TOP250

我們曾經抓取過貓眼電影TOP100，並進行了簡單的分析。但是眾所周知，豆瓣的使用者比較小眾、比較獨特，那麼豆瓣的TOP250又會是哪些電影呢？我在整理程式碼的時候突然發現一年多以前的爬蟲程式碼竟然還能使用……那今天就用它來演示下，如何通過urllib+BeautifulSoup來快

python3 爬蟲實戰：為爬蟲新增 GUI 影象介面

From：https://blog.csdn.net/Fan_shui/article/details/81611752 一、前言　　前面我們寫的爬蟲只能執行在具有python環境的電腦上，若是把原始碼發給別人，很大可

scrapy爬蟲實戰：偽裝headers構造假IP騙過ip138.com

scrapy爬蟲實戰：偽裝headers構造假IP騙過ip138.com

Middleware 中介軟體偽造Header

相關推薦