爬代理ip並驗證可用性

阿新 • • 發佈：2020-10-27

爬代理ip

# -*- coding: utf-8 -*-
"""
Created on Thu Aug 13 17:30:36 2020

@author: Administrator
"""

#生成可用代理ip#python版本2.7
import sys
import time
import random

import re
import requests
from bs4 import BeautifulSoup as bs
from lxml import etree
from fake_useragent import UserAgent

#檢視userAgent池檔案地址
#https://pan.baidu.com/s/1_Qv1LGBSjO2bnF4ocMqhwQ 提取碼: 2hpu
import tempfile
print(tempfile.gettempdir() + '\\fake_useragent_0.1.11.json')
# 例項化 UserAgent類
# 如報錯就把上述json放到temp資料夾中
ua = UserAgent()

# 對應瀏覽器的頭部資訊
#print(ua.ie)
#print(ua.opera)
#print(ua.chrome)
#print(ua.firefox)
#print(ua.safari)

# 隨機返回頭部資訊，推薦使用
print(ua.random)
#reload(sys)
#sys.setdefaultencoding('utf-8')

# 利用一個正則就可以直接採集代理IP的站點
PROXY_SITES_BY_REGX = {
    'urls': [
        'http://ab57.ru/downloads/proxyold.txt',
        'http://www.proxylists.net/http_highanon.txt',
        'http://www.atomintersoft.com/high_anonymity_elite_proxy_list',
        'http://www.atomintersoft.com/transparent_proxy_list',
        'http://www.atomintersoft.com/anonymous_proxy_list',
        'http://www.proxy4free.info/',
        'http://tools.rosinstrument.com/proxy/plab100.xml',
        'https://www.rmccurdy.com/scripts/proxy/good.txt',
        'http://proxy.ipcn.org/proxylist2.html',
        'http://best-proxy.ru/feed',
        'http://www.proxylists.net/?HTTP',
        'http://uks.pl.ua/script/getproxy.php?last'
    ],
    'proxy_regx': r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{2,4}"
}

//*[@id="services"]/div/div[2]/div/div/div/table/tbody/tr[1]/td[1]

# 需要利用xpath 定位代理IP 的站點
PROXY_SITES_BY_XPATH = [
    {
        'urls': ['http://www.66ip.cn/%s.html' % page for page in ['index'] + list(range(2, 11))],
        'ip_xpath': ".//*[@id='main']/div/div[1]/table/tr[position()>1]/td[1]/text()" ,
        'port_xpath': ".//*[@id='main']/div/div[1]/table/tr[position()>1]/td[2]/text()"
    },
    {
        'urls': ['http://www.mimiip.com/gngao/%s' % page for page in range(2, 10)],
        'ip_xpath': ".//table[@class='list']/tbody/tr/td[1]/text()",
        'port_xpath': ".//table[@class='list']/tbody/tr/td[2]/text()"
    },
    {
        'urls': ['http://www.ip181.com/daili/%s.html' % page for page in range(1, 8)],
        'ip_xpath': ".//div[@class='row']/div[3]/table/tbody/tr[position()>1]/td[1]/text()" ,
        'port_xpath': ".//div[@class='row']/div[3]/table/tbody/tr[position()>1]/td[2]/text()"
    }
]


#http://www.goubanjia.com/
#res = [i.xpath('./td/*/text()') for i in selector.xpath('.//*[@class="table table-hover"]/tbody//tr')]
#[[''.join(i[:-7])+':'+i[-7],]+i[-6:] for i in res]  #結果不對


# 抓取代理ip及port
def get_proxy(inFile):
    headers= {'User-Agent':str(UserAgent().random)}
    fp = open(inFile, 'a+')
    #利用一個正則就可以直接採集代理IP的站點抓取
    pattern = re.compile(r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{2,4}")
    for url in PROXY_SITES_BY_REGX['urls']:
        try:
            response = requests.get(url, headers = headers).text
            #response.split('\r\n')
            proxy_list = pattern.findall(response)
            fp.write('\n'.join(proxy_list))
            #fp.writelines([ip+'\n' for ip in proxy_list])
            print('+++Success:', url)
        except Exception as e:
            print('---Failure:', url)
            print(e)
    
    #需要利用xpath定位代理IP的站點抓取
    print('*'*30)
    for i in range(len(PROXY_SITES_BY_XPATH)):
        proxy_sites = PROXY_SITES_BY_XPATH[i]
        #pattern = proxy_sites['ip_xpath'].strip('/td[1]/text()')  #strip的坑
        pattern = proxy_sites['ip_xpath'].replace('/td[1]/text()','')
        for url in proxy_sites['urls']:
            try:
                response = requests.get(url, headers = headers).text
                selector = etree.HTML(response)
                proxy_list = [
                    ':'.join(i.xpath('./td/text()')[:2]) 
                    for i in selector.xpath(pattern)
                    ]
                #fp.write('\n'.join(proxy_list))
                fp.writelines([ip+'\n' for ip in proxy_list])
                print('+++Success:', url)
            except Exception as e:
                print('---Failure:', url)
                print(e)
    fp.close()



# 代理輸出位置，可用fake_useragent包替代
def Header_get(agentFile):
    agents = []
    for line in open(AgentFile, "r"):
        agents.append(line.strip('\n\r')[1:-1])
    fakeheader = {}
    fakeheader['User-agent'] = agents[random.randint(0, len(agents)-1)]
    return fakeheader

#這裡沒有完全將上面所有存在代理ip的地址全部爬取下來，你可以將那些網址上的ip直接拷貝寫到檔案上，然後測試哪個對你當前的網路能夠使用，這裡使用百度的網址進行測試
def inspect_ip(inFile, outFile):
    import http.client
    import threading
    
    # requestHeaders = {
    #     'User-Agent': "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36"
    #     }
    requestHeaders= {'User-Agent': str(UserAgent().random)}
    requestUrl = 'http://www.baidu.com/'
    f_in = open(inFile, 'r')
    f_out = open(outFile, 'w')
    lock = threading.Lock()
    
    while True:
        lock.acquire()
        ll = f_in.readline().strip()
        lock.release()
        if len(ll) == 0: break
        line = ll.strip().split(':')
        ip = line[0]
        port = line[1]
        try:
			#http://ip:prot,http.client.HTTPConnection才是https
            conn = http.client.HTTPConnection(ip, port, timeout=5.0)
            conn.request(method='GET', url=requestUrl, headers=requestHeaders)
            res = conn.getresponse()
            lock.acquire()
            print("+++Success:" + ip + ":" + port)
            f_out.write(ll + "\n")
            lock.release()
        except:
            print("---Failure:" + ip + ":" + port)
    
    f_in.close()
    f_out.close()
    


if __name__ == '__main__':
    inFile = r'C:\Users\Administrator\Desktop\proxy.txt'
    outFile = r'C:\Users\Administrator\Desktop\verified.txt'
    #OUTPUT_FILE = "proxy_list.txt"
    #AgentFile = r'C:\Users\Administrator\Desktop\user_agents.txt'
    #get_proxy(inFile)  #抓取代理ip
    inspect_ip(inFile, outFile)

爬代理ip並驗證可用性

爬代理ip # -*- coding: utf-8 -*- \"\"\" Created on Thu Aug 13 17:30:36 2020 @author: Administrator \"\"\"

爬取免費代理IP並測試

爬取免費代理IP並測試寫在開頭：這次總共爬了三個代理ip的網站，前兩個網站經過測試，ip並不能訪問我真正想爬的網站

Python使用requests xpath 並開啟多執行緒爬取西刺代理ip例項

我就廢話不多說啦，大家還是直接看程式碼吧！ import requests,random from lxml import etree

python爬取高匿代理IP（再也不用擔心會進小黑屋了）

為什麼要用代理IP 很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習更加高深的知識。那麼針對這三類人，我給大家提供

Java 利用爬蟲爬取一些代理IP

在使用爬蟲進行一些資料爬取的時候，難免會碰上IP被封的情況，因此提前做個準備，寫了一個簡單的程式先爬取一些代理IP。

關於爬蟲ip：爬取快代理的免費代理ip

import requests import parsel import time,random headers = { \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36\'

Python 快速驗證代理IP是否有效

有時候，我們需要用到代理IP，比如在爬蟲的時候，但是得到了IP之後，可能不知道怎麼驗證這些IP是不是有效的，這時候我們可以使用Python攜帶該IP來模擬訪問某一個網站，如果多次未成功訪問，則說明這個代理是無效的。

Python 爬蟲基礎：使用代理 IP 和隨機 UA 繞過反爬機制

機靈鶴 2018-12-23 21:47:391608收藏 8分類專欄： Python 爬蟲開發常見問題文章標籤： Python Spider User-Agent IP版權本週事情比較多，又要趕專案，又要搞畢設，而且住的地方也遠了，來回挺不方便的，所以......所

如何用python爬蟲代理ip爬取網頁資料？

在網路行銷時代，許多模式已不能適應網際網路新時代，常常無法達到行銷效果，要想更好地運作網路行銷，需要藉助許多行銷工具，做好每一步。與網路問答推廣一樣，代理IP的支援也是不可或缺的。必須在營銷過程中尋找

判斷代理ip是否可用

from concurrent.futures import ThreadPoolExecutor, as_completedimport socket # 判斷ip_port是否能夠連線上def try_connection(ip_port):s = socket.socket()# 等待最大時間設定為5秒（可改小）s.settimeout(5)

三、k8s叢集可用性驗證與調參（第一章、k8s高可用叢集安裝）

作者：北京小遠出處：http://www.cnblogs.com/bj-xy/ 參考課程: Kubernetes全棧架構師(電腦端購買優惠)

實驗：基於tomcat的高可用性+nginx（haproxy）反向代理+session伺服器memcached（redis）

Session 問題方案總結 1. session繫結，基於IP或session cookie的。其部署簡單，尤其基於session黏性的方式，粒度小，對負載均衡影響小。但一旦後端伺服器有故障，其上的session丟失。

找個代理網站把代理ip爬下來做代理池 - Python

本文內容僅供學習交流使用，不具有任何商業用途，如有問題請即時聯絡我處理。--Python逐夢者。

基於tomcat的高可用性+nginx（haproxy）反向代理+session伺服器memcached（redis）

前提：需要先安裝java，本質：執行在java虛擬機器上的一個程式功能：tomcat是web應用伺服器，將java程式執行在tomcat內，將程式的結果以web的形式返還給使用者，使用者訪問是結果來自於java的執行結果；nginx和ap

Teamcenter 部署web代理伺服器，實現高可用性

在 WebLogic 應用程式伺服器/WebLogic Express Web 伺服器 (HS*) 上部署這個程式：在 Oracle WebLogic Server 叢集上部署 Teamcenter Web 層應用程式（WAR 檔案）。

|NO.Z.00087|——————————|^^ 部署 ^^|——|KuberNetes&kubeadm.V16|5臺Server|---------------------------------------|kubernetes驗證|叢集可用性驗證|

[CloudNative：KuberNetes&kubeadm.V16] [Applications.KuberNetes]

爬代理ip並驗證可用性

爬代理ip並驗證可用性

爬取免費代理IP並測試

Python使用requests xpath 並開啟多執行緒爬取西刺代理ip例項

python爬取高匿代理IP（再也不用擔心會進小黑屋了）

Java 利用爬蟲爬取一些代理IP

關於爬蟲ip：爬取快代理的免費代理ip

Python 快速驗證代理IP是否有效

Python 爬蟲基礎：使用代理 IP 和隨機 UA 繞過反爬機制

如何用python爬蟲代理ip爬取網頁資料？

判斷代理ip是否可用

三、k8s叢集可用性驗證與調參（第一章、k8s高可用叢集安裝）

實驗：基於tomcat的高可用性+nginx（haproxy）反向代理+session伺服器memcached（redis）

找個代理網站把代理ip爬下來做代理池 - Python

基於tomcat的高可用性+nginx（haproxy）反向代理+session伺服器memcached（redis）

Teamcenter 部署web代理伺服器，實現高可用性

|NO.Z.00087|——————————|^^ 部署 ^^|——|KuberNetes&kubeadm.V16|5臺Server|---------------------------------------|kubernetes驗證|叢集可用性驗證|

docker-compose搭建redis叢集及可用性實踐

Python爬取資料並寫入MySQL資料庫的例項

Python3實現的爬蟲爬取資料並存入mysql資料庫操作示例

flask實現驗證碼並驗證功能

爬代理ip並驗證可用性

相關推薦