反反爬蟲 IP代理

阿新 • • 發佈：2017-11-07

ini home 過多頻繁寬帶 odi 代理ip com 曲線

0x01 前言

一般而言，抓取稍微正規一點的網站，都會有反爬蟲的制約。反爬蟲主要有以下幾種方式：

通過UA判斷。這是最低級的判斷，一般反爬蟲不會用這個做唯一判斷，因為反反爬蟲非常容易，直接隨機UA即可解決。
通過單IP頻繁訪問判斷。這個判斷簡單，而且反反爬蟲比較費力，反爬蟲絕佳方案。需采用多IP抓取。
通過Cookie判斷，例如通過會員制賬號密碼登陸，判斷單賬號短時間抓取次數判斷。這個反反爬蟲也很費力。需采用多賬號抓取。
動態頁面加載。這個考驗前端工程師的功底，如果前端寫的好，各種JS判斷，各種邏輯，像百度，淘寶一樣，post登錄很難。較好的方法，但是對於大牛，還是防不勝防。反反爬蟲多采用渲染瀏覽器抓取，效率低下。

采用驗證碼。這裏要麽是登錄的時候有驗證碼，要麽是判斷是爬蟲時，不封IP，而是采用驗證碼驗證，例如鏈家網。驗證碼是反爬蟲性價比較高的方案。反反爬蟲一般接入OCR驗證碼識別平臺或者人工打碼平臺，亦或者利用Tesseract OCR識別，亦或者采用神經網絡訓練識別驗證碼等。

0x02 概要

今天我們先主要來講一講，如何應對第2條的反反爬蟲，如何通過多IP抓取。

通過多IP爬蟲，又分為以下幾種形式：

通過ADSL撥號換IP。每撥一次就會有一個新IP，較好解決IP單一問題。
如果是局域網，帶路由器的，第一種方法可能不好用。這個時候可以模擬登陸路由器，控制路由器重新撥號，換IP，這其實是一種折中的辦法，曲線救國。

代理IP，利用購買的或者網上抓取的免費代理IP，實現多IP爬蟲。
分布式爬蟲。采用多個服務器，多個IP，多個slave爬蟲同時運行，由master負責調度。效率較高，屬於大型分布式抓取，一般用redis分布式抓取，不表。
最近了解到一種新的加密的代理網絡。Tor匿名網絡，利用這個也能匿名換IP。這個還沒有詳細了解，不表。

0x03 正文

1. ADSL撥號

我一般是在windows平臺ADSL撥號，其他平臺暫時沒用過。windows平臺撥號，我一般用python的代碼為：

# -*- coding: utf-8 -*-
import os

g_adsl_account = {"name" 
: u"寬帶連接",
                "username": "xxxx",
                "password": "xxxx"}
 
     
class Adsl(object):
    # =============================
    # __init__ : name: adsl名稱
    # =============================
    def __init__(self):
        self.name = g_adsl_account["name"]
        self.username = g_adsl_account["username"]
        self.password = g_adsl_account["password"]
 
         
    # =============================
    # set_adsl : 修改adsl設置
    # =============================
    def set_adsl(self, account):
        self.name = account["name"]
        self.username = account["username"]
        self.password = account["password"]
 
     
    # =============================
    # connect : 寬帶撥號
    # =============================
    def connect(self):
        cmd_str = "rasdial %s %s %s" % (self.name, self.username, self.password)
        os.system(cmd_str)
        time.sleep(5)


    # =============================
    # disconnect : 斷開寬帶連接
    # =============================
    def disconnect(self):
        cmd_str = "rasdial %s /disconnect" % self.name
        os.system(cmd_str)
        time.sleep(5)
 
     
    #=============================
    # reconnect : 重新進行撥號
    #=============================
    def reconnect(self):
        self.disconnect()
        self.connect()

2. 路由器撥號

如果是局域網，帶路由器的。直接調用windows的rasdial命令無法撥號時，這個時候可以模擬登陸路由器，控制路由器重新撥號，換IP，這其實是一種折中的辦法，曲線救國。下面以登錄小米路由器示例：

# -*- coding: utf-8 -*-
import requests
import urllib
from Crypto.Hash import SHA
import time
import json
import re
import random
import datetime


class Adsl():
    def __init__(self):
        self.host = ‘192.168.31.1/‘
        self.username = ‘admin‘
        self.password = ‘huangxin250‘

    def connect(self):
        host = self.host
        homeRequest = requests.get(‘http://‘ + host + ‘/cgi-bin/luci/web/home‘)
        key = re.findall(r‘key: \‘(.*)\‘,‘, homeRequest.text)[0]
        mac = re.findall(r‘deviceId = \‘(.*)\‘;‘, homeRequest.text)[0]
        aimurl = "http://" + host + "/cgi-bin/luci/api/xqsystem/login"
        nonce = "0_" + mac + "_" + str(int(time.time())) + "_" + str(random.randint(1000, 10000))
        pwdtext = self.password
        pwd = SHA.new()
        pwd.update(pwdtext + key)
        hexpwd1 = pwd.hexdigest()
        pwd2 = SHA.new()
        pwd2.update(nonce + hexpwd1)
        hexpwd2 = pwd2.hexdigest()
        data = {
            "logtype": 2,
            "nonce": nonce,
            "password": hexpwd2,
            "username": self.username
        }
        response = requests.post(url=aimurl, data=data, timeout=15)
        resjson = json.loads(response.content)
        token = resjson[‘token‘]
        webstop = urllib.urlopen(‘http://192.168.31.1/cgi-bin/luci/;stok=‘ + token + ‘/api/xqnetwork/pppoe_stop‘)
        #time.sleep(1)
        webstart = urllib.urlopen(‘http://192.168.31.1/cgi-bin/luci/;stok=‘ + token + ‘/api/xqnetwork/pppoe_start‘)
        date = datetime.datetime.now()
        nowtime = str(date)[:-10]
        print nowtime + ‘, congratulations, the IP is changed !‘

利用這個方法，就實現了用路由器換IP的目的。該方法的缺陷也是很明顯的。就是不像第一種方法那樣通用。基本上一個路由器就得編一套代碼，屬於定制代碼。

3. 代理IP

代理IP是最常見的一種多IP爬蟲方法。在請求Headers中加入代理IP地址，即可實現代理IP抓取。缺陷是爬取速度和代理IP的速度息息相關。而且好的IP費用較高，免費的速度普遍不高。

附上requests抓取攜帶代理IP和selenium抓取攜帶代理IP的代碼。

requests:

# -*- coding: utf-8 -*-
import requests
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
type = sys.getfilesystemencoding()
s = requests.session()
proxie = { 
        ‘http‘ : ‘http://122.193.14.102:80‘
    }   
url = ‘xxx‘

response = s.get(url, verify=False, proxies = proxie, timeout = 20) 
print response.text

selenium:

from selenium import webdriver
from selenium.webdriver.common.proxy import Proxy
from selenium.webdriver.common.proxy import ProxyType
proxy = Proxy(
    {
        ‘proxyType‘: ProxyType.MANUAL,
        ‘httpProxy‘: ‘ip:port‘
    }
)

desired_capabilities = DesiredCapabilities.PHANTOMJS.copy()
proxy.add_to_capabilities(desired_capabilities)
driver = webdriver.PhantomJS(
    executable_path="/path/of/phantomjs",
    desired_capabilities=desired_capabilities
    )
driver.get(‘http://httpbin.org/ip‘)
print driver.page_source
driver.close()

反反爬蟲 IP代理

ini home 過多頻繁寬帶 odi 代理ip com 曲線 0x01 前言一般而言，抓取稍微正規一點的網站，都會有反爬蟲的制約。反爬蟲主要有以下幾種方式：通過UA判斷。這是最低級的判斷，一般反爬蟲不會用這個做唯一判斷，因為反反爬蟲非常容易，直接隨機UA即可解決

Python 爬蟲IP代理

想必大家在寫爬蟲都有遇到過這樣的錯誤： UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte 經過查詢各大論壇發現原來是該網站對網頁進行了壓縮，

自己搭建億級爬蟲IP代理池

做爬蟲抓取時，我們經常會碰到網站針對IP地址封鎖的反爬蟲策略。但只要有大量可用的IP資源，問題自然迎刃而解。以前嘗試過自己抓取網路上免費代理IP來搭建代理池，可免費IP質量參差不齊，不僅資源少、速度慢，而且失效快，滿足不了快速密集抓取的需求。收費代理提供的代理資源質量明顯提升，經過多家測試，

爬蟲ip代理池新建（使用芝麻ip代理）

如果真入職爬蟲工程師職位後，真正做爬蟲爬取資料的過程，將會使用大量的ip做ip替換，否則很容易被封ip，導致資料獲取無法持續下去。而現在市面上的免費代理其實很多都是無效的，或者持續效果很低效的。因此需要找到一個穩定高效且效果不錯的代理商。現在我就把自己目前使用的ip代理和自己獲取代理使用

資料採集爬蟲ip代理基本原理-飛蟻代理

我們在做爬蟲的過程中經常會遇到這樣的情況，最初爬蟲正常執行，正常抓取資料，一切看起來都是那麼正常，然而一杯茶的功夫可能就會出現錯誤，比如403 Forbidden，這時候開啟網頁一看，可能會看到“您的IP訪問頻率太高”這樣的提示。出現這種現象的原因是網站採取了一些反爬蟲措施。比如，伺服器會檢

爬蟲ip代理對高匿代理ip的必要性

對於爬蟲來說，在聽到ip代理的時候，聽得最多的莫過於透明代理、匿名代理、高匿代理這幾個詞了，那麼分別是什麼意思呢？互相之間有什麼樣的區別呢？為什麼說爬蟲ip代理一定要使用高匿代理呢？帶著這些問題，讓我們一起來揭開匿名級別的面紗。第一高匿名：伺服器不知道你使用了代理ip和不知

[分析]什麼樣的爬蟲ip代理價效比最高?

說在前面，這裡只是給大家分析一下目前的幾種代理情況，具體付費的爬蟲代理我不做推薦，因為不同的業務對ip有不同的要求，也許我推薦的是我用著好的，但是不見得適合你的業務。目前的代理ip基本都有測試服務，建議大家多進行對比測試，選擇最合適自己的才是王道。隨著網際網路的高速發展，無論是不是網際

作為一位程式猿，說說爬蟲IP代理哪家強？

做為一個苦逼的程式猿，之前除了應付現在越來越高階的反爬之外，還順便淌了無數代理ip的坑。。不得不說這個行業真的是一團亂，想找一家靠譜的真的不容易！而且這行業內鬥特別厲害，不是你懟他，就是他懟你！伺服器時不時的崩潰，搞的使用者也很崩潰。。我就說說我用過的這幾家吧！

Python爬蟲IP代理池的建立和使用

正如在上一篇博文中提到的那樣，同一個IP針對一個網站短時間內大量的訪問通常會導致IP被封，除了在爬取資料時增加延遲(爬取量不大或者對爬取速度沒要求)，還有一個好方法就是使用代理IP，這樣就可以完美解決IP被封的問題。那麼，問題來了，代理的IP從哪兒來呢，土豪自然隨意，直接淘寶

爬蟲ip代理伺服器的簡要思路

爬蟲有的時候會遇到被禁ip的情況，這個時候你可以找一下代理網站，抓取一下ip，來進行動態的輪詢就沒問題了，也可以用別人做好的第三方ip代理平臺，比如說crawlera，crawlera是一個利用代理IP地址池來做分散式下載的第三方平臺，除了scrapy可以用以外，普通的ja

為反反爬蟲，打造一個自己的IP池？Python獲取西刺代理IP並驗證！

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。分

動態ip代理：反網路爬蟲之設定User-Agent的常規方法

動態ip代理：反網路爬蟲之設定User-Agent的常規方法爬蟲過程中的反爬措施非常重要，其中設定隨機 User-Agent 是一項重要的反爬措施。常規情況，比較方便的方法是利用 fake_useragent包，這個包內建大量的 UA 可以隨機替換，這比自己去搜集羅列要方便很多，下面來看一下如何操作。

動態ip代理：反網絡爬蟲之設置User-Agent的常規方法

大量 cto sha mark 瀏覽器想要爬蟲 http rom 動態ip代理：反網絡爬蟲之設置User-Agent的常規方法爬蟲過程中的反爬措施非常重要，其中設置隨機 User-Agent 是一項重要的反爬措施。常規情況，比較方便的方法是利用 fake_userag

python 反爬總結（1）- 限制IP UA 的解決方法，修改headers和新增IP代理池

在學習python爬蟲的過程中，遇到各種反爬機制，個人總結了一下：對同樣的ip或User-Agent進行限制，對頻繁訪問的ip進行限制，設定登陸限制，設定驗證碼，設定Ajax載入頁面。目前小白我也就瞭解這麼多，其中驗證碼的反反爬還在學習當中，學無止境啊 &

反-反爬蟲：用幾行代碼寫出和人類一樣的動態爬蟲

簽名 lib rgs 常見 todo 只需要 website 結束 pro 歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：李大偉 Phantomjs簡介什麽是Phantomjs Phantomjs官網介紹是：不需要瀏覽器的完整web協議棧(Fu

爬取豆瓣電影儲存到數據庫MONGDB中以及反反爬蟲

ica p s latest tel mpat side nload self. pro 1.代碼如下： doubanmoive.py # -*- coding: utf-8 -*- import scrapy from douban.items import Douba

我是怎樣把反反爬蟲把數據爬下來的

ie 6 nav 解決讓我 tom safari 判斷 head 5.0 　　最近看到公司的商務一條一條的從某個網站上復制數據到excel裏,於是乎就打算寫個爬蟲把那個網站的數據都爬下來.一般的流程是模擬用戶訪問->獲取數據->解析頁面元素->balab

Python爬蟲之ip代理池

clas 檢查 isp turn pre image 小白 flat for 可能在學習爬蟲的時候，遇到很多的反爬的手段，封ip 就是其中之一。對於封IP的網站。需要很多的代理IP，去買代理IP，對於初學者覺得沒有必要，每個賣代理IP的網站有的提供了免

大數據爬蟲為什麽要使用IP代理,代理IP的特點是什麽?

代理服務通過率禁止工作者一道網站解決效率比較大數據隨著互聯網的迅猛發展，大數據的應用，大數據樣本獲得需要通過數據爬蟲來實現，而爬蟲工作者一般都繞不過代理IP請添加鏈接描述這個問題，為什麽呢，這是因為在網絡爬蟲抓取信息的過程中，抓取頻率高過了目標網站的設置閥

爬蟲與反爬蟲與反反爬蟲簡介

info 其他 splay 獲取服務器壓力動態分配服務器取數據用戶一.基本概念簡介　　1.爬蟲：　　　　　　自動獲取網站數據的程序，關鍵是批量的獲取。　　2.反爬蟲：　　　　　　使用技術手段防止爬蟲程序的方法。　　3.誤傷：　　　　　　反爬技術將普通

反反爬蟲 IP代理

0x01 前言

0x02 概要

0x03 正文

相關推薦