常見的反爬蟲和應對方法

阿新 • • 發佈：2018-07-03

以及 pan 獲取數據繞過方式如果 fir req 取數

0x01 常見的反爬蟲

從功能上來講，爬蟲一般分為數據采集，處理，儲存三個部分。這裏我們只討論數據采集部分。

　　一般網站從三個方面反爬蟲：用戶請求的Headers，用戶行為，網站目錄和數據加載方式。前兩種比較容易遇到，大多數網站都從這些角度來反爬蟲。第三種一些應用ajax的網站會采用，這樣增大了爬取的難度。

0x02 通過Headers反爬蟲

　　從用戶請求的Headers反爬蟲是最常見的反爬蟲策略。很多網站都會對Headers的User-Agent進行檢測，還有一部分網站會對Referer進行檢測（一些資源網站的防盜鏈就是檢測Referer）。如果遇到了這類反爬蟲機制，可以直接在爬蟲中添加Headers，將瀏覽器的User-Agent復制到爬蟲的Headers中；或者將Referer值修改為目標網站域名。對於檢測Headers的反爬蟲，在爬蟲中修改或者添加Headers就能很好的繞過。

0x03 基於用戶行為反爬蟲

　　還有一部分網站是通過檢測用戶行為，例如同一IP短時間內多次訪問同一頁面，或者同一賬戶短時間內多次進行相同操作。

　　大多數網站都是前一種情況，對於這種情況，使用IP代理就可以解決。可以專門寫一個爬蟲，爬取網上公開的代理ip，檢測後全部保存起來。這樣的代理ip爬蟲經常會用到，最好自己準備一個。有了大量代理ip後可以每請求幾次更換一個ip，這在requests或者urllib2中很容易做到，這樣就能很容易的繞過第一種反爬蟲。

　　對於第二種情況，可以在每次請求後隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網站，可以通過請求幾次，退出登錄，重新登錄，繼續請求來繞過同一賬號短時間內不能多次進行相同請求的限制。

0x04 動態頁面的反爬蟲

　　上述的幾種情況大多都是出現在靜態頁面，還有一部分網站，我們需要爬取的數據是通過ajax請求得到，或者通過JavaScript生成的。首先用Firebug或者HttpFox對網絡請求進行分析。如果能夠找到ajax請求，也能分析出具體的參數和響應的具體含義，我們就能采用上面的方法，直接利用requests或者urllib2模擬ajax請求，對響應的json進行分析得到需要的數據。

　　能夠直接模擬ajax請求獲取數據固然是極好的，但是有些網站把ajax請求的所有參數全部加密了。我們根本沒辦法構造自己所需要的數據的請求。我這幾天爬的那個網站就是這樣，除了加密ajax參數，它還把一些基本的功能都封裝了，全部都是在調用自己的接口，而接口參數都是加密的。遇到這樣的網站，我們就不能用上面的方法了，我用的是selenium+phantomJS框架，調用瀏覽器內核，並利用phantomJS執行js來模擬人為操作以及觸發頁面中的js腳本。從填寫表單到點擊按鈕再到滾動頁面，全部都可以模擬，不考慮具體的請求和響應過程，只是完完整整的把人瀏覽頁面獲取數據的過程模擬一遍。

　　用這套框架幾乎能繞過大多數的反爬蟲，因為它不是在偽裝成瀏覽器來獲取數據（上述的通過添加 Headers一定程度上就是為了偽裝成瀏覽器），它本身就是瀏覽器，phantomJS就是一個沒有界面的瀏覽器，只是操控這個瀏覽器的不是人。利用 selenium+phantomJS能幹很多事情，例如識別點觸式（12306）或者滑動式的驗證碼，對頁面表單進行暴力破解等等。它在自動化滲透中還會大展身手，以後還會提到這個。

‘轉載’出處：http://www.admin10000.com/document/6992.html

常見的反爬蟲和應對方法

以及 pan 獲取數據繞過方式如果 fir req 取數 0x01 常見的反爬蟲從功能上來講，爬蟲一般分為數據采集，處理，儲存三個部分。這裏我們只討論數據采集部分。　　一般網站從三個方面反爬蟲：用戶請求的Headers，用戶行為，網站目錄和數據加載方式。前兩種比

常見的反爬蟲和應對方法

0x01 常見的反爬蟲

0x02 通過Headers反爬蟲

0x03 基於用戶行為反爬蟲

0x04 動態頁面的反爬蟲

常見的反爬蟲和應對方法

python爬蟲－常見反爬蟲機制與應對方法

python爬蟲系統學習十一：常見反爬蟲機制與應對方法

Python 爬蟲常見的坑和解決方法

常見物件String和其方法+JAVA學習筆記-DAY12

爬蟲，反爬蟲和反反爬蟲

關於js中的作用域和作用域鏈以及常見的問題和結果方法

FindBugs常見錯誤描述和解決方法

傳送郵件常見的錯誤和解決方法

IT專案管理痛點和應對方法總結

NFS服務常見故障排查和解決方法

android學習——android 常見的錯誤和解決方法

ActiveMQ常見的問題和解決方法

微服務設計實現時的十大常見反模式和陷阱

爬蟲之簡單反爬蟲措施和解決方法

Python Scrapy反爬蟲常見解決方案（包含5種方法）

網站常見的入侵手段和防禦方法

爬蟲學習——URL管理器和實現方法

【Git】常見錯誤提示解決辦法和常用方法

反-反爬蟲：用幾行代碼寫出和人類一樣的動態爬蟲

常見的反爬蟲和應對方法

0x01 常見的反爬蟲

0x02 通過Headers反爬蟲

0x03 基於用戶行為反爬蟲

0x04 動態頁面的反爬蟲

相關推薦