如何應對網站反爬蟲策略？如何高效地爬大量資料?

阿新 • • 發佈：2018-12-24

爬蟲(Spider)，反爬蟲(Anti-Spider)，反反爬蟲(Anti-Anti-Spider)，這之間的鬥爭恢巨集壯闊...

Day 1
小莫想要某站上所有的電影，寫了標準的爬蟲(基於HttpClient庫)，不斷地遍歷某站的電影列表頁面，根據 Html 分析電影名字存進自己的資料庫。
這個站點的運維小黎發現某個時間段請求量陡增，分析日誌發現都是 IP(1.1.1.1)這個使用者，並且 useragent 還是 JavaClient1.6 ，基於這兩點判斷非人類後直接在Nginx 伺服器上封殺。

Day 2
小莫電影只爬了一半，於是也針對性的變換了下策略：1. useragent 模仿百度("Baiduspider...")，2. IP每爬半個小時就換一個IP代理。
小黎也發現了對應的變化，於是在 Nginx 上設定了一個頻率限制，每分鐘超過120次請求的再遮蔽IP

。同時考慮到百度家的爬蟲有可能會被誤傷，想想市場部門每月幾十萬的投放，於是寫了個指令碼，通過 hostname 檢查下這個 ip 是不是真的百度家的，對這些 ip 設定一個白名單。

Day 3
小莫發現了新的限制後，想著我也不急著要這些資料，留給伺服器慢慢爬吧，於是修改了程式碼，隨機1-3秒爬一次，爬10次休息10秒，每天只在8-12，18-20點爬，隔幾天還休息一下。
小黎看著新的日誌頭都大了，再設定規則不小心會誤傷真實使用者，於是準備換了一個思路，當3個小時的總請求超過50次的時候彈出一個驗證碼彈框，沒有準確正確輸入的話就把 IP 記錄進黑名單。

Day 4
小莫看到驗證碼有些傻臉了，不過也不是沒有辦法，先去學習了影象識別

（關鍵詞 PIL，tesseract），再對驗證碼進行了二值化，分詞，模式訓練之後，識別了小黎的驗證碼（關於驗證碼，驗證碼的識別，驗證碼的反識別也是一個恢弘壯麗的鬥爭史，這裡先不展開....），之後爬蟲又跑了起來。
小黎是個不折不撓的好同學，看到驗證碼被攻破後，和開發同學商量了變化下開發模式，資料並不再直接渲染，而是由前端同學非同步獲取，並且通過 js 的加密庫生成動態的 token，同時加密庫再進行混淆（比較重要的步驟的確有網站這樣做，參見微博的登陸流程）。

Day5
混淆過的加密庫就沒有辦法了麼？當然不是，可以慢慢除錯，找到加密原理，不過小莫不準備用這麼耗時耗力的方法，他放棄了基於 HttpClient的爬蟲，選擇了內建瀏覽器引擎的爬蟲(關鍵詞：PhantomJS，Selenium)，

在瀏覽器引擎中js 加密指令碼算出了正確的結果，又一次拿到了對方的資料。
小黎：.....

爬蟲與發爬蟲的鬥爭還在繼續。
不過實際應用時候，一般大家做到根據 IP 限制頻次就結束了，除非很核心的資料，不會再進行更多的驗證，畢竟工程的問題一半是成本的問題。

至於高效部分，一些 Tips：
1.儘量減少請求次數，能抓列表頁就不抓詳情頁
2.不要只看 Web 網站，還有 App 和 H5，他們的反爬蟲措施一般比較少
3.如果真的對效能要求很高，可以考慮多執行緒(一些成熟的框架如 scrapy都已支援)，甚至分散式

另外，想深入研究爬蟲/反爬蟲的同學，可以把簡歷發過來： shenyubao<At>http://souche.com ，本廣告長期有效。

如何應對網站反爬蟲策略？如何高效地爬大量資料?

如何應對網站反爬蟲策略？如何高效地爬大量資料?

應對js反爬蟲的嘗試，爬取中國人民銀行

各大型網站反爬蟲策略

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

使用scrapy做爬蟲遇到的一些坑：網站常用的反爬蟲策略，如何機智的躲過反爬蟲Crawled (403)

如何給網站加入優雅的實時反爬蟲策略

我是怎樣把反反爬蟲把數據爬下來的

python 反反爬蟲策略之js動態加密url破解

【逆向工程】從原始碼分析網站反爬蟲措施

解決貓眼網反爬蟲策略的爬蟲

反爬蟲總結 | 必須掌握的6種反爬蟲策略

scrapy: 使用HTTP代理繞過網站反爬蟲機制

scrapy反反爬蟲策略和settings配置解析

網站反扒策略解決方案

【爬蟲】python selenium 爬取資料

普通反爬蟲機制的應對策略

應對反爬蟲的策略

【Python3爬蟲】突破反爬之應對前端反除錯手段

爬取豆瓣電影儲存到數據庫MONGDB中以及反反爬蟲

一個爬取法律網站的爬蟲

如何應對網站反爬蟲策略？如何高效地爬大量資料?

相關推薦