1. 程式人生 > >Python3 爬取有效代理ip

Python3 爬取有效代理ip

代理 顯示 txt 復制粘貼 https 分享圖片 img 有效 可能

python 3.0寫了一個爬取代理ip地址的小工具,提供給需要代理ip地址制作爬蟲的人。

Proxy_IPv0.1的功能有兩個:

  1.顯示代理(響應速度快,但不能保證全部有效);

  2.顯示有效代理並保存為proxy_ip.txt文件(執行速度較慢,但proxy_ip.txt文件中的代理ip地址全部有效)。

爬取的眾多代理IP可以作為爬蟲的IP地址,防止本地IP或單一代理ip作為爬蟲ip被目標網址屏蔽。

另因為不太熟悉多線程,所以目前版本的驗證代理IP有效性的速度會比較慢,後期可能會略作修改,變成多線程驗證節省時間。被爬取的網站中,一個頁面包含100個代理IP地址,經過驗證,基本全部有效,目標網站提供的代理ip可用性很高。

技術分享圖片

驗證代理ip

技術分享圖片

proxy_ip.txt文件中的代理ip格式保存為‘http‘/‘https‘:‘xxx.xxx.xxx.xxx:xxx‘格式,方便復制粘貼成代理列表

技術分享圖片

代碼已上傳到https://github.com/BaiFanJiuShuang/Proxy_IP

Python3 爬取有效代理ip