爬蟲過程中遇到的防爬措施

阿新 • • 發佈：2018-11-03

1.用scrapy爬取趕集網租房資訊時，由於訪問頻繁，需要通過驗證碼才能訪問頁面；

解決方案：

網站通過使用者的Cookie資訊對使用者進行識別與分析，所以要防止目標網站識別我們的會話資訊。

在Scrapy中，我們可以在爬蟲專案的setting.py檔案中進行設定

將setting.py中的下面兩行程式碼裡的

COOKIES_ENABLED = False 的註釋去掉即可。

2.爬蟲過程中遇到重定向問題

爬取趕集網次數可能太多，爬蟲時網址被重定向到驗證碼頁面。

2018-08-31 16:59:55 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://callback.ganji.com/firewall/valid/2093665982.do?namespace=ganji_zufang_detail_pc&url=http%3A%2F%2Fbj.ganji.com%2
Ffang1%2F3541105246x.htm%3Fadtype%3D3> from <GET http://bj.ganji.com/fang1/3541105246x.htm?adtype=3>

解決方法：

1.在Request中將scrapy的dont_filter=True，因為scrapy是預設過濾掉重複的請求URL；

2.新增headers；

2.設定下載延時

部分網站通過分析我們的爬取頻率對爬蟲進行禁止或限制，所以我們需要控制爬取時間間隔。

在Scrapy中同樣是在setting.py檔案中進行設定。

在這裡，我設定爬取間隔為 0.7。

3.設定使用者代理池

在setting.py中新增使用者代理池

新增好使用者代理池之後，還需要建立下載中介軟體。在C:/Mycrawl/Mycrawl下新建Myuseragent.py檔案，在裡面編輯

import random
from Mycrawl.settings import UAPOOL
from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware

class MyUAmid(UserAgentMiddleware):
    def __init__(self, user_agent=''):
        self.user_agent = user_agent

    def process_request(self, request, spider):
        Myua = random.choice(UAPOOL)
        print('當前使用的User-Agent是%s'%Myua)
        request.headers.setdefault('User-Agent', Myua)

然後在settings.py中將該檔案設定為爬蟲專案的下載中介軟體，

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    #'Mycrawl.middlewares.MycrawlDownloaderMiddleware': 543,
    'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':2,
    'Mycrawl.MyUserAgent.MyUAmid':1,
}

其中的 DOWNLODER_MIDDLEWARES 就是下載中介軟體的意思。

設定好之後就可以執行爬蟲檔案了。

4.訪問頻率大，網頁爬取需要驗證碼驗證

5.其他方式

爬蟲過程中遇到的防爬措施

1.用scrapy爬取趕集網租房資訊時，由於訪問頻繁，需要通過驗證碼才能訪問頁面；解決方案：網站通過使用者的Cookie資訊對使用者進行識別與分析，所以要防止目標網站識別我們的會話資訊。在Scrapy中，我們可以在爬蟲專案的setting.py檔案中進行設定將setting.

網路爬蟲過程中5種網頁去重方法簡要介紹

一般的，我們想抓取一個網站所有的URL，首先通過起始URL，之後通過網路爬蟲提取出該網頁中所有的URL連結，之後再對提取出來的每個URL進行爬取，提取出各個網頁中的新一輪URL，以此類推。整體的感覺就是自上而下進行抓取網頁中的連結，理論上來看，可以抓取整站所有的連結。但是問題來了，一個網站中網頁的連結是有

爬蟲過程中如何構建代理IP池？

做網路爬蟲時，一般對代理IP的需求量比較大。因為在爬取網站資訊的過程中，很多網站做了反爬蟲策略，可能會對每個IP做頻次控制。這樣我們在爬取網站時就需要很多代理IP。代理IP的獲取，可以從以下幾個途徑得到：從免費的網站上獲取，質量很低，能用的IP極少購買收費的代理服務，

爬蟲過程中的代理ip使用

目前很多網站都會設定相對應的防爬蟲機制，這是因為有一部分人在實際的爬蟲主權過程中會進行惡意採集或者惡意攻擊，通常情況下，防爬蟲程式是通過IP來識別哪一些是機器人使用者，因此可以使用可用的IP資訊解決實際中的爬蟲遇到的問題一般情況下爬蟲開

學習爬蟲過程中遇到的問題總結

1.下載資料編碼問題 "title":["\u5a92\u4f53\u63ed\u5730\u94c1\"\u5988\u5988\u4e10\u5e2e\":\u5e26\u5a03\u884c\u

python爬蟲過程中出現的問題彙總

1.出現 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 7: ordinal not in range(128) 原因：混淆了 python2 裡邊的 str 和 unicod

Python爬蟲培訓或學習過程中，需掌握的爬取驗證碼方法

　　Python爬蟲實戰爬取驗證碼　　1.破解驗證碼常見的三種方法：　　(1)把驗證碼下載到本地，手動輸入進行破解　　(2)Tesseract光學識別模組：能夠自動識別驗證碼，準確率不高，只能識別一些簡單驗證碼　　程式碼測試　　pip install py

Selenium TestNG Java環境搭建過程中所遇問題匯總

fin method 搭建過程 onf 9.png 未在 can ann ogr 【問題一】運行時報Unalbe to connect to host 127.0.0.1 on port 7855 【問題分析】Selenium版本與火狐版本不一致，需要下載對應的版本【

java爬蟲問題二: 使用jsoup爬取數據class選擇器中空格多選擇怎麽解決

凱哥Java問題描述：在使用jsoup爬取其他網站數據的時候，發現class是帶空格的多選擇，如果直接使用doc.getElementsByClass(“class的值”),這種方法獲取不到想要的數據。爬取網站頁面結構如下：其中文章列表的div為：<div class="am-cf in

爬取CVPR 2018過程中遇到的坑

bs4 怎麽 con 開始 truct pri .... 爬取 hdu 爬取 CVPR 2018 過程中遇到的坑使用語言及模塊語言: Python 3.6.6 模塊: re requests lxml bs4 過程一開始都挺順利的，先獲取到所有文章的鏈接再逐個爬取

前端爬坑日記（1），你在初入vue專案開發過程中可能會掉進的坑！

這篇文章是記錄我在vue專案開發中遇到的各種巨坑，希望看了能對你有一些幫助，這篇文章會長期更新 1.Vue中使用sass 首先通過以下程式碼安裝sass的依賴： npm i sass-loader node-sass - s 然後在webepack.base.conf.js目錄下配置

python 爬蟲之字型(@font-face)防爬

python 爬蟲字型(@font-face)防爬字型防爬就是該網站在原始碼上的字型不是正常字型編碼, 可能是自定義的一種字型, 然後通過對應關係在頁面上進行展示, 這就是所謂的字型防爬, 但是他們想要在頁面上進行展示的話還是需要匯入字型包的, 所以咱們只需要把字型包下載下來進行

在爬蟲使用過程中解決ip被封鎖IP限制的幾種方法

方法1使用多IP代理：1.IP必須需要，比如ADSL。如果有條件，其實可以跟機房多申請外網IP。2.在有外網IP的機器上，部署代理伺服器。3.你的程式，使用輪訓替換代理伺服器來訪問想要採集的網站。好處：1.程式邏輯變化小，只需要代理功能。2.根據對方網站遮蔽規則不同，你只需要新增更多的代理就行了。3.就算具體

飛蟻代理在爬蟲使用過程中解決ip被封鎖IP限制的8種方法

方法1 使用多IP代理： 1.IP必須需要，比如ADSL。如果有條件，其實可以跟機房多申請外網IP。 2.在有外網IP的機器上，部署代理伺服器。 3.你的程式，使用輪訓替換代理伺服器來訪問想要採集的網站。好處： 1.程式邏輯變化小，只需要代理功能。 2.根據對方網站遮蔽規則不同，你只需要新

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

爬蟲案例—中基協數據爬取

class size api 部分 javascrip post enc encoding type 因為工作原因，需要爬取相關網站的數據，包括中基協網站和天眼查部分數據。一、中基協網站爬取思路： 1.查看目標頁：http://gs.amac.org.cn/am

爬蟲案例—中基協資料爬取

因為工作原因，需要爬取相關網站的資料，包括中基協網站和天眼查部分資料。一、中基協網站爬取思路： 1.檢視目標頁：http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&am

使用selenium爬取機構化的資料及過程中遇到的問題總結

pattern = r'<div class="l-grid-row-cell-inner" style="width:112px;height:22px;min-height:22px; ">(.*?)</div>.*?<div class="l-grid-row-ce

【小菜鳥】本人部落格，沒有任何侵權的想法，僅僅是總結了一些前輩們的經驗，做了一些小筆記發表。在以往學習過程中，遇到太多太多的小問題，網上都有答案，只不過太多太雜，解決問題的答案也是可遇不可求，總是事倍功半。特此總結出一些自己的小經驗，希望能夠幫助大家。

小菜鳥本人部落格，沒有任何侵權的想法，僅僅是總結了一些前輩們的經驗，做了一些小筆記發表。在以往學習過程中，遇到太多太多的小問題，網上都有答案，只不過太多太雜，解決問題的答案也是可遇不可求，總是事倍功半。特...

Python爬蟲入門教程，突破煎蛋網反爬措施，妹子圖批量抓取！

今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用 selenium 在揍他一波。

爬蟲過程中遇到的防爬措施

1.用scrapy爬取趕集網租房資訊時，由於訪問頻繁，需要通過驗證碼才能訪問頁面；

2.爬蟲過程中遇到重定向問題

2.設定下載延時

3.設定使用者代理池

5.其他方式

相關推薦