1. 程式人生 > >python3爬蟲--反爬蟲應對機制

python3爬蟲--反爬蟲應對機制

網頁 gitbook python python2 正常 ip池 spi target books

python3爬蟲--反爬蟲應對機制

內容來源於:

Python3網絡爬蟲開發實戰;

網絡爬蟲教程(python2);

前言:

  反爬蟲更多是一種攻防戰,針對網站的反爬蟲處理來采取對應的應對機制,一般需要考慮以下方面:

①訪問終端限制:這種可通過偽造動態的UA實現;

②訪問次數限制:網站一般通過cookie/IP定位,可通過禁用cookie,或使用cookie池/IP池來反制;

③訪問時間限制:延遲請求應對;

④盜鏈問題:通俗講就是,某個網頁的請求是有跡可循的,比如知乎的問題回答詳情頁,正常用戶行為必然是先進入問題頁,在進入回答詳情頁,有嚴格的請求順序,如果之間跳過前面請求頁面就有可能被判定為到了,通過偽造請求頭可以解決這個問題;

內容:

cookie池的實現及使用

IP池的實現及使用

python3爬蟲--反爬蟲應對機制