1. 程式人生 > >Python反爬蟲機制

Python反爬蟲機制

  • 新增請求頭User-Agent:
    如果不新增請求頭,網站會認為不是用瀏覽器操作,會進行反爬蟲,新增請求頭,網站會識別你是用哪個瀏覽器,不同的瀏覽器User-Agent不同

  • 修改訪問頻率:
    大多數情況下,我們遇到的是訪問頻率限制。如果你訪問太快了,網站就會認為你不是一個人。這種情況下需要設定好頻率的閾值,否則有可能誤傷。
    遇到這種網頁,最直接的辦法是限制訪問時間
    需要你限制不定的時間,不能用一個準確的時間

  • 代理IP
    如果對頁的爬蟲的效率有要求,那就不能通過設定訪問時間間隔的方法來繞過頻率檢查了。

代理IP訪問可以解決這個問題。如果用100個代理IP訪問100個頁面,可以給網站造成一種有100個人,每個人訪問了1頁的錯覺。這樣自然而然就不會限制你的訪問了。
但是代理IP也很不穩定,需要時刻檢驗你的IP是否能用

  • 分散式爬蟲
    分散式爬蟲會部署在多臺伺服器上,每個伺服器上的爬蟲統一從一個地方拿網址。這樣平均下來每個伺服器訪問網站的頻率也就降低了。由於伺服器是掌握在我們手上的,因此實現的爬蟲會更加的穩定和高效。這也是我們這個課程最後要實現的目標。在這裡插入圖片描述