1. 程式人生 > >幹貨|Python爬蟲如何設置代理IP

幹貨|Python爬蟲如何設置代理IP

src 失敗 blog get http .com 方法 www. 配置環境

在學習Python爬蟲的時候,經常會遇見所要爬取的網站采取了反爬取技術導致爬取失敗。高強度、高效率地爬取網頁信息常常會給網站服務器帶來巨大壓力,所以同一個IP反復爬取同一個網頁,就很可能被封,這裏講述一個爬蟲技巧,設置代理IP。
配置環境

  • 安裝requests庫
  • 安裝bs4庫
  • 安裝lxml庫
    具體代碼
    技術分享圖片
    函數get_ip_list(url, headers)傳入url和headers,最後返回一個IP列表,列表的元素類似122.114.31.177:808格式,這個列表包括國內髙匿代理IP網站首頁所有IP地址和端口。
    函數get_random_ip(ip_list)傳入第一個函數得到的列表,返回一個隨機的proxies,這個proxies可以傳入到requests的get方法中,這樣就可以做到每次運行都使用不同的IP訪問被爬取的網站,有效地避免了真實IP被封的風險。
    proxies的格式是一個字典:{‘http’: ‘http://122.114.31.177:808‘},可以將下面的執行也封裝為方法。
    代理IP的使用
    運行上面的代碼會得到一個隨機的proxies,把它直接傳入requests的get方法中即可
    技術分享圖片

幹貨|Python爬蟲如何設置代理IP