幹貨|Python爬蟲如何設置代理IP
阿新 • • 發佈:2018-11-13
src 失敗 blog get http .com 方法 www. 配置環境 在學習Python爬蟲的時候,經常會遇見所要爬取的網站采取了反爬取技術導致爬取失敗。高強度、高效率地爬取網頁信息常常會給網站服務器帶來巨大壓力,所以同一個IP反復爬取同一個網頁,就很可能被封,這裏講述一個爬蟲技巧,設置代理IP。
配置環境
配置環境
- 安裝requests庫
- 安裝bs4庫
- 安裝lxml庫
具體代碼
函數get_ip_list(url, headers)傳入url和headers,最後返回一個IP列表,列表的元素類似122.114.31.177:808格式,這個列表包括國內髙匿代理IP網站首頁所有IP地址和端口。
函數get_random_ip(ip_list)傳入第一個函數得到的列表,返回一個隨機的proxies,這個proxies可以傳入到requests的get方法中,這樣就可以做到每次運行都使用不同的IP訪問被爬取的網站,有效地避免了真實IP被封的風險。
代理IP的使用
運行上面的代碼會得到一個隨機的proxies,把它直接傳入requests的get方法中即可
幹貨|Python爬蟲如何設置代理IP