python爬蟲防止IP被封的一些措施

阿新 • • 發佈：2018-12-18

在編寫爬蟲爬取資料的時候，因為很多網站都有反爬蟲措施，所以很容易被封IP，就不能繼續爬了。在爬取大資料量的資料時更是瑟瑟發抖，時刻擔心著下一秒IP可能就被封了。

本文就如何解決這個問題總結出一些應對措施，這些措施可以單獨使用，也可以同時使用，效果更好。

偽造User-Agent

在請求頭中把User-Agent設定成瀏覽器中的User-Agent，來偽造瀏覽器訪問。比如：

headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
resp = requests.get(url,headers = headers)

還可以先收集多種瀏覽器的User-Agent，每次發起請求時隨機從中選一個使用，可以進一步提高安全性：

In [7]: import requests,random

In [8]: user_agents = ['Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11']

In [9]: def get_html(url):
   ...:     headers = {'User-Agent':random.choice(user_agents)}
   ...:     resp = requests.get(url,headers = headers)
   ...:     return resp.text

把上面隨機選擇一個User-Agent的程式碼封裝成一個函式：

import random
def get_headers():
    '''
    隨機獲取一個headers
    '''
    user_agents =  ['Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11']
    headers = {'User-Agent':random.choice(user_agents)}
    return headers

注：一些常見瀏覽器的User-Agent可參見：https://blog.csdn.net/qianxing111/article/details/79415857

在每次重複爬取之間設定一個隨機時間間隔

比如：
time.sleep(random.randint(0,3))  # 暫停0~3秒的整數秒，時間區間：[0,3]
或：
time.sleep(random.random())  # 暫停0~1秒，時間區間：[0,1)

偽造cookies

若從瀏覽器中可以正常訪問一個頁面，則可以將瀏覽器中的cookies複製過來使用，比如：

cookies = dict(uuid='b18f0e70-8705-470d-bc4b-09a8da617e15',UM_distinctid='15d188be71d50-013c49b12ec14a-3f73035d-100200-15d188be71ffd')
resp = requests.get(url,cookies = cookies)
# 把瀏覽器的cookies字串轉成字典
def cookies2dict(cookies):
    items = cookies.split(';')
    d = {}
    for item in items:
        kv = item.split('=',1)
        k = kv[0]
        v = kv[1]
        d[k] = v
    return d

注：用瀏覽器cookies發起請求後，如果請求頻率過於頻繁仍會被封IP，這時可以在瀏覽器上進行相應的手工驗證（比如點選驗證圖片等），然後就可以繼續正常使用該cookies發起請求。

使用代理

可以換著用多個代理IP來進行訪問，防止同一個IP發起過多請求而被封IP，比如：

proxies = {'http':'http://10.10.10.10:8765','https':'https://10.10.10.10:8765'}
resp = requests.get(url,proxies = proxies)
# 注：免費的代理IP可以在這個網站上獲取：http://www.xicidaili.com/nn/

附：GitHub上的一個"反反爬蟲"專案

道高一尺魔高一丈，你有反爬蟲措施，那我也有各種"反反爬蟲"的措施，GitHub上就有一位大神專門整理了一個這樣的專案：Anti-Anti-Spider，連結地址為：https://github.com/luyishisi/Anti-Anti-Spider 可以研究一下。

作者：m2fox 連結：

https://www.jianshu.com/p/736412753551

識別圖中二維碼,領取python全套視訊資料

python爬蟲防止IP被封的一些措施

在編寫爬蟲爬取資料的時候，因為很多網站都有反爬蟲措施，所以很容易被封IP，就不能繼續爬了。在爬取大資料量的資料時更是瑟瑟發抖，時刻擔心著下一秒IP可能就被封了。本文就如何解決這個問題總結出一些應對措施，這些措施可以單獨使用，也可以同時使用，效果更好。偽造User-Ag

用Python搭建一個簡單的代理池！經理再也不用擔心我的IP被封了

其實每次爬東西的時候，特怕IP被封，所以每次都要把時間延遲設定得長一點... 這次用Python搭建一個簡單的代理池。獲取代理IP，然後驗證其有效性。不過結果好像不是很理想，為什麼西刺代理的高匿代理都能用？？？不是說免費代理不好使嗎？真的是黑人問號臉... / 01 / 代理獲取

Python爬蟲之ip代理池

clas 檢查 isp turn pre image 小白 flat for 可能在學習爬蟲的時候，遇到很多的反爬的手段，封ip 就是其中之一。對於封IP的網站。需要很多的代理IP，去買代理IP，對於初學者覺得沒有必要，每個賣代理IP的網站有的提供了免

[踩坑] IP 被封了

[踩坑] IP 被封了前言：本來是不打算記錄平時學習什麼技術或者遇到什麼技術問題、怎麼解決的這類文章的，因為感覺寫這種文章意義不大，而且標題如果命名不當，或者內容不合適還會浪費檢索資料者的時間。但最近發現，有時即便上次解決的問題，下次出現也許早就忘掉解決方案了（比如上次 QT5 導外部 QChart

gitlab之：gitlab 403 forbidden 併發引起ip被封

gitlab_rails['rack_attack_git_basic_auth'] = { 'enabled' => true, 'ip_whitelist' => ["127.0.0.1","88.99.105.84"],

[Gitlab運維繫列]Gitlab 403 forbidden 併發引起IP被封

問題帶著團隊使用Git，使用的是自搭建的Gitlab。但今天開啟頁面的時候顯示的是空白頁面，上面還有一次文字Forbidden。原因 Gitlab使用rack_attack做了併發訪問的限制。解決方案將Gitlab的IP設定為白名單即可。步驟如下：開啟/e

IP被封?教你兩招修改網絡卡MAC地址

我們都知道一些公司,學校等都會對網路進行統一管理,其中一個很重要的統一管理是就是根據網絡卡的實體地址繫結IP地址。如果你在公司上網，進行BT下載，QQ上網等違反了規定的，網管就可以根據你所登記的網絡卡地址封了你的IP地址。　　要解決IP被封的問題根本就是要修改網絡卡地址，修改網絡卡MA

如何解決單IP被封後的反扒機制

屬於通過效率重新控制模擬撥號會有 ast 單IP頻繁爬取某網站，很容易被網站的反爬蟲機制封掉IP，如何突破限制呢，答案是多IP爬蟲。通過多IP爬蟲，又分為以下幾種形式： 1、通過ADSL撥號換IP。每撥一次就會有一個新IP，較好解決IP單一問題。 2、如果是局

Python爬蟲代理IP池

aid 高性能資源 ret 有用惰性做成同時選擇目錄[-] 1、問題 2、代理池設計 3、代碼模塊 4、安裝 5、使用 6、最後在公司做分布式深網爬蟲，搭建了一套穩定的代理池服務，為上千個爬蟲提供有效的代理，保證各個爬

Python爬取大量數據時防止被封IP

ble tree user range ask ron 都沒有進一步 pri 繼續老套路，這兩天我爬取了豬八戒上的一些數據網址是：http://task.zbj.com/t-ppsj/p1s5.html，可能是由於爬取的數據量有點多吧，結果我的IP被封了，需要自己手動來

爬蟲老是被封IP？看我大Python搭建高匿代理池！封IP你覺得可能嗎

0x01 寫在前面常聽到很多人抱怨自己的IP因爬蟲次數太多而被網站遮蔽，不得不頻繁使用各種代理IP，卻又因為網上的公開代理大部分都是不能使用，而又要花錢花精力去申請VIP代理，幾番波折又遭遮蔽。特此寫一篇如何利用Python搭建代理池的文章，以降低時間及精力成本，實現自動化獲

反爬蟲技術之防止IP地址被封殺

在使用爬蟲爬取別的網站的資料的時候，如果爬取頻次過快，或者因為一些別的原因，被對方網站識別出爬蟲後，自己的IP地址就面臨著被封殺的風險。一旦IP被封殺，那麼爬蟲就再也爬取不到資料了。那麼常見的更改爬蟲IP的方法有哪些呢？ 1，使用動態IP撥號器伺服器。動態IP撥號伺服器的IP地址是可

爬蟲被封IP了怎麼辦-爬蟲與反爬蟲的“世世情緣”

很多專業的爬蟲工作者都會覺得爬蟲的技術沒有那麼深奧，所謂萬變不離其宗，在複雜也只是那些個東西，但是要想真正的寫好一套完美的爬蟲程式又似乎沒有那麼簡單。原因就在於爬蟲本身的功能是不難的，真正顯示技術的是應對反爬蟲技術。說到反爬蟲最簡單的應對方式就是封鎖IP。

網路爬蟲一定用代理IP嗎？不用代理IP加快速度會被封嗎？

　　網路爬蟲一定用代理IP嗎？好多人認為網路爬蟲必須要加代理IP，沒了代理IP將無路可走；也有些人認為代理IP是非需要的。這是為什麼呢？不能直接用採集工具嗎？　　有人說，我用的採集器，用於收集一些其他網站的文章，隨後篩選適用的做好加工即

網絡爬蟲一定用代理IP嗎？不用代理IP加快速度會被封嗎？

edit 服務器 order ueditor 其他 width 挖掘來看有道　　網絡爬蟲一定用代理IP嗎？好多人認為網絡爬蟲必須要加代理IP，沒了代理IP將無路可走；也有些人認為代理IP是非需要的。這是為什麽呢？不能直接用采集工具嗎？　　有人說，我用的

python 爬蟲如何防止被封殺

在網際網路上進行自動資料採集（抓取）這件事和網際網路存在的時間差不多一樣長。今天大眾好像更傾向於用“網路資料採集”，有時會把網路資料採集程式稱為網路機器人（bots）。最常用的方法是寫一個自動化程式向網路伺服器請求資料（通常是用 HTML 表單或其他網頁檔案），然後對資料

Python爬蟲：一些常用的爬蟲技巧總結(IP,cookie,header,多執行緒)

http://python.jobbole.com/84622/ 用python也差不多一年多了，python應用最多的場景還是web快速開發、爬蟲、自動化運維：寫過簡單網站、寫過自動發帖指令碼、寫過收發郵件指令碼、寫過簡單驗證碼識別指令碼。爬蟲在開發過程中也有很

文章正在稽核中為什麼使用了爬蟲代理ip,真實IP還是被封禁了？

很多朋友在剛做爬蟲的時候會遇到一個問題，明明我已經使用爬蟲代理ip了，開開心心地去抓取某一個網站，正想去泡一杯咖啡，發現爬蟲程式終止了，一查，真實ip被封了，這時候會非常納悶，我明明用了代理ip了啊，為什麼我的真實IP還是會被封呢？是不是IP質量與問題？我被代理IP提供商給欺騙了？當然不排除這個可能，比

文章正在審核中為什麽使用了爬蟲代理ip,真實IP還是被封禁了？

coo .com 可能地址 adsl 開心我們用戶訪問作者很多朋友在剛做爬蟲的時候會遇到一個問題，明明我已經使用爬蟲代理ip了，開開心心地去抓取某一個網站，正想去泡一杯咖啡，發現爬蟲程序終止了，一查，真實ip被封了，這時候會非常納悶，我明明用了代理ip了啊，為什

自己家用電腦做站點server，解決動態IP、無公網IP、80port被封、HTTP被屏蔽

管理系映射綁定方案自己屏蔽 net 數據 web 動態IP、無公網IP、80port被封、HTTP被屏蔽，這些問題都是自己的server做站點服務，easy遇到面對的問題。當出現這些問題時。能夠利用當前的開放網絡資源一一解決。解決原理分析：動態IP。公

python爬蟲防止IP被封的一些措施

偽造User-Agent

在每次重複爬取之間設定一個隨機時間間隔

偽造cookies

使用代理

附：GitHub上的一個"反反爬蟲"專案

識別圖中二維碼,領取python全套視訊資料

相關推薦