1. 程式人生 > 其它 >IP代理提取池

IP代理提取池

IP代理提取池

0x001

反爬蟲之IP地址記錄

IP地址記錄主要是針對惡意爬蟲,防止其短時間內大量發起HTTP請求,請求訪問網站,造成網站資源的侵佔。IP地址記錄無非是因為爬蟲訪問同一個網站的速度過快。

​ 摘自:《反爬蟲AST原理與還原混淆實戰》

對於這種反爬蟲,一般會有兩種辦法。

  1. 延遲訪問,直到伺服器對一個IP地址限制時間過去。
  2. 構建IP代理池

本文則是對構建IP代理池的一種實現而實現的一直工具。

0x002

在專業的代理IP網站購買的IP一般都會有提取時間限制、IP存活時間限制等等。

而我們實現的大部分爬蟲都是併發爬蟲。對於這種限制肯定會很頭疼。

而如何最大效率的完成每次需要的IP的提取則是IP代理池要完成的工作。

專案介紹

實現功能

  1. 執行緒安全的單ip提取功能
  2. ip存活時間的檢查
  3. ip複用

預計實現

  1. ip有效檢查
  2. 分散式代理池
  3. 預提取功能
  4. 效率優化...

專案地址

專案地址