Python 抓取可用代理IP

阿新 • • 發佈：2019-01-25

問題描述

在做資料抓取的時候，經常會碰到有些網站對同一IP的訪問頻率做限制。遇到這種情況一般只有兩種解決方案：

降低抓取頻率。這種方法在資料變化不頻繁，資料量不大的情況下還好，但是，如果資料變化頻繁或者資料量龐大，此方法明顯不能滿足需求。
使用代理IP。抓取的過程中，經常更換代理IP，這種方法基本可以有效解決同一IP訪問頻率限制的問題。此方案的難點在於如何獲取大量可用的代理IP。

代理IP獲取

代理IP的獲取途徑基本也就兩種：

購買付費代理IP。一般都是按使用時長和代理IP數收費，優點就是可靠性高。
使用免費代理。可以從免費代理網站獲取，但是穩定性不好，絕大部分都會很快失效。

付費代理沒什麼好講的，付款之後一般就可以拿到資料介面，程式裡邊直接呼叫即可。

下面講一下免費代理IP的獲取及篩選。這種出力不討好的繁瑣工作當然應該交給程式來自動完成。

這裡以西刺代理為例講一下獲取https代理的分析過程並給出示例程式。

通過對頁面請求進行分析，可以找到包含https代理的實際請求地址是： http://www.xicidaili.com/wn/{page}，第一頁page=1，第二頁page=2...以此類推。西刺代理的IP每幾分鐘都會更新一次，所以每次只抓取前幾頁基本就可以了。

網路請求使用Python的requests庫，頁面解析使用pyquery。也可以使用urllib和beautifulSoup，不過個人感覺稍微麻煩一些。

廢話不多說了，下面直接上程式，程式碼基於Python3編寫，如果要在Python2下執行需要稍作修改。

"""
該程式用於從代理網站獲取可用ip
使用方法1： 直接執行該檔案，會在同目錄下生成ips.txt檔案，檔案內包含可用的代理
使用方法2： 其他程式匯入該檔案，然後直接使用該檔案內定義的全域性變數'proxies'
"""
import random
import threading
import time
from concurrent import futures

import requests
from pyquery import PyQuery

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) \
                  Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2306.400 QQBrowser/9.5.10530.400'}
# 檢測代理ip有效性的網站
CHECK_URL = 'https://ip.cn'
# 抓取地址(西刺代理)
FETCH_URL = 'http://www.xicidaili.com/wn/{}'
# 抓取頁數，每頁100條
PAGES = 3
# 代理型別（http/https）
PROXY_TYPE = 'https'
# 有效代理ip列表
proxies = []
# 執行緒池，用於同時驗證多個代理ip
POOL = futures.ThreadPoolExecutor(max_workers=50)


def add_proxy(proxy: str):
    """
    新增代理

    :param proxy: 代理ip+埠號
    :return:
    """
    try:
        r = requests.get(CHECK_URL, proxies={PROXY_TYPE: proxy}, timeout=30)
        print(PyQuery(r.content.decode()).find('#result').text(), '\n')

        if r.status_code == 200 and proxy not in proxies:
            proxies.append(proxy)
    except Exception as e:
        if proxy in proxies:
            proxies.remove(proxy)
        print(proxy, e)


def fetch_proxy():
    """
    抓取代理ip
    :return:
    """
    for page in range(1, PAGES + 1):
        r = requests.get(FETCH_URL.format(page), headers=headers)
        doc = PyQuery(r.content.decode('utf-8'))
        # 獲取資料列表對應的table
        table = doc('#ip_list')
        # 獲取table中除了表頭以外的所有行
        rows = table('tr:nth-of-type(n+2)').items()
        # 提取每一行中的ip和埠號
        for row in rows:
            ip = row('td:nth-of-type(2)').text()
            port = row('td:nth-of-type(3)').text()
            proxy = ip + ':' + port
            # 線上程池中檢測該代理是否可用
            POOL.submit(add_proxy, proxy)
        # 10秒鐘後抓取下一頁
        time.sleep(10)


def run():
    while True:
        try:
            fetch_proxy()
            print('有效代理：', proxies)
            # 將有效代理寫入檔案
            with open('ips.txt', 'w', encoding='utf-8') as f:
                f.write('\n'.join(proxies))
        except Exception as e:
            print(e)
        # 抓取一次之後休息一段時間，防止被遮蔽
        time.sleep(random.randint(100, 600))


# 啟動抓取執行緒
threading.Thread(target=run).start()

程式執行一段時間之後，開啟ips.txt檔案即可看到抓取到的可用代理IP，如圖：

Python 抓取可用代理IP

問題描述在做資料抓取的時候，經常會碰到有些網站對同一IP的訪問頻率做限制。遇到這種情況一般只有兩種解決方案：降低抓取頻率。這種方法在資料變化不頻繁，資料量不大的情況下還好，但是，如果資料變化頻繁或者資料量龐大，此方法明顯不能滿足需求。使用代理IP。抓取的過程中，經常更換代理I

python: 抓取免費代理ip

python 抓取免費代理ip通過抓取西刺網免費代理ip實現代理爬蟲： from bs4 import BeautifulSoup import requests import random import telnetlib requests = requests.session() ip_list = []

scrapy抓取免費代理IP

代理爬蟲 python scrapy 1、創建項目scrapy startproject getProxy2、創建spider文件，抓取www.proxy360.cn www.xicidaili.com兩個代理網站內容cd項目的spiders模塊下執行scrapy genspider pro

利用Python爬取可用的代理IP

strip() color 地址 read main urn try exc head 前言就以最近發現的一個免費代理IP網站為例：http://www.xicidaili.com/nn/。在使用的時候發現很多IP都用不了。所以用Python寫了個腳本，該腳本可以把能用

Python 正則練習(一) 爬取國內代理ip

取代替代 use -a int 5.0 tdi col 則表達式簡單的正則表達式練習，爬取代理 ip。僅爬取前三頁，用正則匹配過濾出 ip 地址和端口，分別作為key、value 存入 validip 字典。如果要確定代理 ip 是否真的可用，還需要再對代理

練習--爬取xici可用代理IP

colspan lsp com pan python print app agent flag 通過爬蟲實現xici可以使用的代理IP 端口主要代碼： #!/usr/bin/env python #coding:utf8 import telnetlib from u

python掃描proxy並獲取可用代理ip列表

[1] randint XP self. 希望 agen 不可用今天只需要 mac或linux下可以work的代碼如下： # coding=utf-8 import requests import re from bs4 import BeautifulSoup

利用python爬蟲批量獲取代理IP並驗證可用性

# -*- coding: utf-8 -*- from bs4 import BeautifulSoup import urllib2 import httplib import threading import sys reload(sys) sys.setdefaultencoding('utf-8'

python定向爬蟲——爬取某代理Ip網站上的所有ip

爬取一個網站的基本過程確定目標 –> 分析目標 –> 編寫程式 -> 執行爬蟲分析目標： url 格式資料格式網頁編碼分析目標資料在原始碼裡的結構，以便在獲取整個頁面原始碼後，可以利用正則進行匹配。

【Python指令碼】-Python查詢可用代理IP

在用Python爬蟲時，我們有時會用到IP代理。無意中發現一個免費代理IP的網站：http://www.xicidaili.com/nn/。但是，發現很多IP都用不了。故用Python寫了個指令碼，該

Python抓取學院新聞報告

滿足 imp 實驗源代碼 ges tail view paste rom Python案例 scrapy抓取學院新聞報告任務抓取四川大學公共管理學院官網(http://ggglxy.scu.edu.cn)所有的新聞咨詢. 實驗流程 1.確定抓取目標.2.制定抓取規則.

python抓取

info 奧巴馬 www word ref str source div term 我要抓取奧巴馬每周的演講內容http://www.putclub.com/html/radio/VOA/presidentspeech/index.html 如果手動提取，就需要一個個點進去

python抓取bing主頁背景圖片

replace utf bytes for json格式 module imp urlopen 有變最初Python2寫法： #!/usr/bin/env python # -*- coding:utf-8 -*- # -*- author:nancy -*- # pyt

無比強大！Python抓取cssmoban站點的模版並下載

jea blank file timeout 全局 -- 文件的 pre target Python實現抓取http://www.cssmoban.com/cssthemes站點的模版並下載實現代碼 # -*- coding: utf-8 -*- im

Python抓取手機APP中內容

quest 手機app 開始 clas tex json 完成 keep 抓取首先下載Wireshark和模擬器（天天模擬器，夜神模擬器），天天模擬器在自帶的應用商店裏面能夠登錄微信。然後打開Wireshark選擇一個網卡開始抓包。開始抓包後，在模擬器中要抓取的APP

python 抓取cisco交換機配置文件

cal pytho quit sys led ... eof tex passwd #!/usr/bin/python import sys import time import os import pexpect now = time.strftime(‘%Y-%

用python 抓取B站視頻評論，制作詞雲

port mil query 雲圖 ges cal 爬取 close hid python 作為爬蟲利器，與其有很多強大的第三方庫是分不開的，今天說的爬取B站的視頻評論，其實重點在分析得到的評論化作嵌套的字典，在其中取出想要的內容。層層嵌套，眼花繚亂，分析時應細致！步驟分為

Python抓取數據的幾種方式

cnblogs 方式 edit api lencod nco financial 取數 .org import urllib.requestresponse = urllib.request.urlopen(‘http://python.org/‘)html = res

python 抓取電影天堂電影信息放入數據庫

python mysql 電影 # coding:utf-8 import requests from bs4 import BeautifulSoup from multiprocessing import Pool import urllib2 import re import json im

python 抓取"一個"網站文章信息放入數據庫

python 文章爬蟲 # coding:utf-8 import requests from bs4 import BeautifulSoup import json import time import datetime import pymysql import sys reload(sy

Python 抓取可用代理IP

問題描述

代理IP獲取

相關推薦