如何建立自己的代理IP池,減少爬蟲被封的機率

阿新 • • 發佈：2022-03-03

如何建立自己的代理IP池,減少爬蟲被封的機率

在爬蟲過程中，難免會遇到各種各樣的反爬蟲，運氣不好，還會被對方網站給封了自己的IP，就訪問不了對方的網站，爬蟲也就涼涼。

代理引數-proxies

首先我們先來介紹下什麼是代理引數
代理，顧名思義，就是代理你原來的IP地址去對接網路
的IP地址
使用代理引數，可以隱藏自身真實的IP地址，避免被對方的網站封了。

1、語法結構
proxies = {
'協議':'協議://IP:埠號'
}
2、示例
proxies = {
'http':'http://IP:埠號',
'https':'https://IP:埠號'
}

如何獲取代理IP

那具體如果獲取代理IP呢，大多數IP都是收費，免費的IP的可以使用的很少，比如下面這些網站，

芝麻代理
89免費代理
西刺代理(無法訪問，似乎不能用了)
代理精靈

這次我就主要介紹爬取89網的免費IP，並測試可用性，存入自己的代理IP池中
89代理官網中有兩種獲取免費IP的方法，第一種就是主頁面顯示的IP地址

方法一

F12進行除錯，頁面是靜態的頁面，結構也相對簡單，其IP地址全部在tr標籤中

import csv
import time ,random
import requests
from fake_useragent import UserAgent
from lxml import etree
class GetProxyIP(object):
	#初始化URL
    def __init__(self):
        self.url='https://www.89ip.cn/index_{}.html'
    # 獲取代理IP
    def get_IP(self,url):
        html=requests.get(
            url=url,
            headers={
            'User-Agent':UserAgent().random
            },
            timeout=5
        ).text
        #轉換為xpath可解析格式
        parse_html=etree.HTML(html)
        #解析得到所有tr列表
        tr_list=parse_html.xpath('//tr')
        #遍歷每個tr，獲取每個tr中的IP
        for tr in tr_list[1:]:
            ip=tr.xpath('.//td[1]/text()')[0].strip()
            port=tr.xpath('./td[2]/text()')[0].strip()
            #測試IP可用性
            self.mtest_ip(ip,port)

    def mtest_ip(self,ip,port):
        url='http://httpbin.org/get'
        #設定headers
        headers={
            'User-Agent':UserAgent().random
        }
        #設定proxies代理引數
        proxies={
            'http': f'http://{ip}:{port}',
            'https': f'https://{ip}:{port}'
        }
        try:
        	#發起請求
            res=requests.get(url=url,proxies=proxies,headers=headers,timeout=8)
            print(res.status_code)
            #得到狀態碼就說明IP可用
            if res.status_code:
                print(ip,port,'Sucess')
                #存到列表中
                L=[ip+':'+port]
                #寫到csv中
                with open('proxies.csv', 'a', encoding='utf-8') as f:
                    writer=csv.writer(f)
                    writer.writerow(L)
        #IP不可用則丟擲異常
        except Exception as e:
            print(ip,port,'Failed',e)
            
	#執行方法
    def main(self):
    	#爬取1000頁
        for i in range(1,1001):
            url=self.url.format(i)
            #解析得到IP
            self.get_IP(url)
            time.sleep(random.randint(5,10))

if __name__ == '__main__':
    spider= GetProxyIP()
    spider.main()

方法二

在API介面中生成IP連結，訪問進去也是有很多免費的代理IP

下面就直接爬蟲程式碼進行爬取

# 獲取開放代理介面
import csv

import requests
import re
from fake_useragent import UserAgent
# 獲取代理IP列表
def get_ip_list():
    url='http://api.89ip.cn/tqdl.html?api=1&num=60&port=&address=&isp='
    html=requests.get(url=url,headers={'User-Agent':UserAgent().random}).text
    #按<br>分組
    t_arr=html.split('<br>')
    # 第一個特殊，需要先按</script>\n分組
    t_0=t_arr[1].split('</script>\n')[1].strip
    ip_list=[]
    ip_list.append(t_0)
    # 第二個及後面直接遍歷就行
    for i in range(2,len(t_arr)-1):
        ip_list.append(t_arr[i])
    print(ip_list)
    #測試所有的IP可用性
    for ip in ip_list:
        mtest_ip(ip)
def mtest_ip(ip):
    url='http://baidu.com/'
    headers={
        'User-Agent':UserAgent().random
    }
    proxies={
        'http': f'http://{ip}',
        'https': f'https://{ip}'
    }
    try:
        res=requests.get(url=url,proxies=proxies,headers=headers,timeout=8)
        print(res.status_code)
        #一般狀態碼返回200就說明可用
        if res.status_code==200:
            print(ip,'Sucess')
            L=[ip]
            with open('proxies2.csv', 'a', encoding='utf-8', newline='') as f:
                writer=csv.writer(f)
                writer.writerow(L)
    except Exception as e:
        print(ip,'Failed',e)

if __name__ == '__main__':
    get_ip_list()

以後直接呼叫IP就可以用別人的代理了

如何建立自己的代理IP池,減少爬蟲被封的機率

如何建立自己的代理IP池,減少爬蟲被封的機率在爬蟲過程中，難免會遇到各種各樣的反爬蟲，運氣不好，還會被對方網站給封了自己的IP，就訪問不了對方的網站，爬蟲也就涼涼。

python爬蟲構建代理ip池抓取資料庫。

爬蟲的小夥伴,肯定經常遇到ip被封的情況,而現在網路上的代理ip免費的已經很難找了,那麼現在就用python的requests庫從爬取代理ip，建立一個ip代理池，以備使用。

Linux + ProxyPool 搭建屬於爬蟲代理IP池

技術標籤：爬蟲精選爬蟲pythonlinux 前言：當爬蟲達到一定速度時，大家都會遇到封Ip的情況，而搭建代理ip池是解決的最好方法，網路上有很多優秀的付費代理，但是作為白嫖黨的我們又怎麼能付錢那，本文將教會大家

Python爬蟲代理IP池

目錄[-] 在公司做分散式深網爬蟲，搭建了一套穩定的代理池服務，為上千個爬蟲提供有效的代理，保證各個爬蟲拿到的都是對應網站有效的代理IP，從而保證爬蟲快速穩定的執行，當然在公司做的東西不能開源出來。不過呢

爬蟲代理 IP 池及隧道代理(2022.05.24)

爬蟲代理 IP 池及隧道代理目錄爬蟲代理 IP 池及隧道代理 1. 代理 IP 池 1.1 簡介 1.2 實現

Python搭建代理IP池實現檢測IP的方法

在獲取 IP 時，已經成功將各個網站的代理 IP 獲取下來了，然後就需要一個檢測模組來對所有的代理進行一輪輪的檢測，檢測可用就設定為滿分，不可用分數就減 1，這樣就可以實時改變每個代理的可用情況，在獲取有效 IP

Python搭建代理IP池實現介面設定與整體排程

介面模組需要用 API 來提供對外服務的介面，當然也可以直接連資料庫來取，但是這樣就需要知道資料庫的連線資訊，不太安全，而且需要配置連線，所以一個比較安全和方便的方式就是提供一個 Web API 介面，通過訪問介面

Python搭建代理IP池實現獲取IP的方法

使用爬蟲時，大部分網站都有一定的反爬措施，有些網站會限制每個 IP 的訪問速度或訪問次數，超出了它的限制你的 IP 就會被封掉。對於訪問速度的處理比較簡單，只要間隔一段時間爬取一次就行了，避免頻繁訪問；而對於

Python搭建代理IP池實現儲存IP的方法

上一文寫了如何從代理服務網站提取 IP，本文就講解如何儲存 IP，畢竟代理池還是要有一定量的 IP 數量才行。儲存的方式有很多，直接一點的可以放在一個文字檔案中，但操作起來不太靈活，而我選擇的是 MySQL 資料庫，因

Python爬蟲使用代理IP的實現

使用爬蟲時，如果目標網站對訪問的速度或次數要求較高，那麼你的 IP 就很容易被封掉，也就意味著在一段時間內無法再進行下一步的工作。這時候代理 IP 能夠給我們帶來很大的便利，不管網站怎麼封，只要能找到一個新的

Python代理IP爬蟲的新手使用教程

前言 Python爬蟲要經歷爬蟲、爬蟲被限制、爬蟲反限制的過程。當然後續還要網頁爬蟲限制優化，爬蟲再反限制的一系列道高一尺魔高一丈的過程。爬蟲的初級階段，新增headers和ip代理可以解決很多問題。

Java 利用爬蟲爬取一些代理IP

在使用爬蟲進行一些資料爬取的時候，難免會碰上IP被封的情況，因此提前做個準備，寫了一個簡單的程式先爬取一些代理IP。

關於爬蟲ip：爬取快代理的免費代理ip

import requests import parsel import time,random headers = { \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36\'