python學習 —— 建立IP代理池

阿新 • • 發佈：2018-02-26

圖片端口 position except app rtl 分享圖片 ipp use

　　代碼：

from bs4 import BeautifulSoup
from requests import Session, get, post
from time import sleep
import random
import re, os


class ProxyIpPool(object):

    def __init__(self,page):
        object.__init__(self)
        self.page = page

    def init_proxy_ip_pool(self):
        url = ‘https://www.kuaidaili.com/free/‘

        tablelist = [‘IP‘, ‘PORT‘, ‘類型‘, ‘位置‘]

        ip = []
        port = []
        type = []
        position = []

        r = Session()

        headers = {
            ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8‘,
            ‘Accept-Encoding‘: ‘gzip, deflate, br‘,
            ‘Accept-Language‘: ‘zh-CN,zh;q=0.9‘,
            ‘Connection‘:‘keep-alive‘,
            ‘Host‘: ‘www.kuaidaili.com‘,
            # ‘Referer‘: url, # 點擊下一頁時 每一頁的referer對應的url為：從前一頁的link來到當前頁的那個link。比如:從百度進入代理IP第一頁時的referer的url就是百度的link
            ‘Upgrade-Insecure-Requests‘: ‘1‘,
            ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.168 Safari/537.36‘
        }

        if self.page > 1:
            url = url + ‘inha/‘ + str(self.page) + ‘/‘

        request = r.get(url,headers=headers,timeout=2,)
        print(request.status_code)
        soup = BeautifulSoup(request.text, ‘lxml‘)
        tags = soup.find_all(‘td‘, attrs={‘data-title‘: tablelist})

        # 獲取所有IP
        ip_tag_match = re.compile(r‘data-title="IP">(.+?)</td‘)
        ip.append(ip_tag_match.findall(str(tags)))

        # 獲取所有端口
        port_tag_match = re.compile(r‘data-title="PORT">(.+?)</td‘)
        port.append(port_tag_match.findall(str(tags)))

        # 獲取所有類型
        type_match = re.compile(r‘data-title="類型">(.+?)</td‘)
        type.append(type_match.findall(str(tags)))

        # 獲取所有位置
        position_tag_match = re.compile(r‘data-title="位置">(.+?)</td‘)
        position.append(position_tag_match.findall(str(tags)))
        sleep(random.random()*7)

        # ip、port、type、position作為字典保存
        data_title = {‘ip‘: ip, ‘port‘: port, ‘type‘: type, ‘position‘: position}
        return data_title


def create_proxy_ip_pool(page):

    pool = ProxyIpPool(page).init_proxy_ip_pool()

    print(‘初始化完成!開始創建代理池...‘)

    iplist = pool.get(‘ip‘)
    portlist = pool.get(‘port‘)
    typelsit = pool.get(‘type‘)
    positionlist = pool.get(‘position‘)

    for i in range(0, len(iplist[0])):
        print(format(iplist[0][i],‘<22‘) + format(portlist[0][i],‘<17‘) + format(typelsit[0][i],‘<12‘) + positionlist[0][i])
        try:
            with open(‘C:/Users/adimin/Desktop/proxyip.txt‘,‘a‘) as fp:
                fp.write(format(iplist[0][i],‘<22‘) + format(portlist[0][i],‘<17‘) + format(typelsit[0][i],‘<12‘) + positionlist[0][i] + ‘\r\n‘)
        except FileExistsError as err:
            print(err)
            os._exit(2)

if __name__ == ‘__main__‘:
    print(‘正在初始化代理池...請耐心等待...‘)

    print(format(‘IP‘, ‘^16‘) + format(‘PORT‘, ‘^16‘) + format(‘類型‘, ‘^16‘) + format(‘位置‘, ‘^16‘))
    try:
        with open(‘C:/Users/adimin/Desktop/proxyip.txt‘, ‘a‘) as fp:
            fp.write(format(‘IP‘, ‘^16‘) + format(‘PORT‘, ‘^16‘) + format(‘類型‘, ‘^16‘) + format(‘位置‘, ‘^16‘) + ‘\r\n‘)
    except:
        with open(‘C:/Users/adimin/Desktop/proxyip.txt‘, ‘w‘) as fp:
            fp.write(format(‘IP‘, ‘^16‘) + format(‘PORT‘, ‘^16‘) + format(‘類型‘, ‘^16‘) + format(‘位置‘, ‘^16‘) + ‘\r\n‘)

    # 不知道為什麽只能在外面循環才能爬取多頁的IP 如果把代碼改為在init_proxy_ip_pool函數中進行循環 則只能爬一頁多一點...
    for i in range(1,2177):
        create_proxy_ip_pool(i)

　　運行結果：

技術分享圖片

　　保存到本地：

技術分享圖片

python學習 —— 建立IP代理池

圖片端口 position except app rtl 分享圖片 ipp use 　　代碼： from bs4 import BeautifulSoup from requests import Session, get, post from time imp

Python爬蟲之ip代理池

clas 檢查 isp turn pre image 小白 flat for 可能在學習爬蟲的時候，遇到很多的反爬的手段，封ip 就是其中之一。對於封IP的網站。需要很多的代理IP，去買代理IP，對於初學者覺得沒有必要，每個賣代理IP的網站有的提供了免

Python搭建自己的ip代理池學習總結

剛剛學習了爬蟲入門爬取小說，覺得那是不夠的，很多時候你僅僅偽裝成瀏覽器是解決不了問題的，還需要解決別人封你的ip的問題，所以我又學習瞭如何爬蟲是更換自己的ip，想要有足夠的ip來供你更換，一定得先搭建你的ip代理池，那麼我們就先搭建自己的ip代理池。 &nb

Python爬蟲IP代理池的建立和使用

正如在上一篇博文中提到的那樣，同一個IP針對一個網站短時間內大量的訪問通常會導致IP被封，除了在爬取資料時增加延遲(爬取量不大或者對爬取速度沒要求)，還有一個好方法就是使用代理IP，這樣就可以完美解決IP被封的問題。那麼，問題來了，代理的IP從哪兒來呢，土豪自然隨意，直接淘寶

centos7生產環境IP代理池（python）

.py openssl href snappy ttext ima sna make per 最近在研究爬蟲，需要在前面部署IP代理池，於是在開源中國找到proxy pool。可以自動抓取國內幾個免費IP代理網站的IP，並實時校驗IP的可用性，數據庫為SSDB。IP代理池網

python 反爬總結（1）- 限制IP UA 的解決方法，修改headers和新增IP代理池

在學習python爬蟲的過程中，遇到各種反爬機制，個人總結了一下：對同樣的ip或User-Agent進行限制，對頻繁訪問的ip進行限制，設定登陸限制，設定驗證碼，設定Ajax載入頁面。目前小白我也就瞭解這麼多，其中驗證碼的反反爬還在學習當中，學無止境啊 &

建立自己的IP代理池[爬取西刺代理]

一:基本引數和匯入的包 import requests import re import random url = 'http://www.xicidaili.com/nn' headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)

python爬取身份證資訊、爬取ip代理池

匹配的分類按照匹配內容進行匹配我們在匹配的過程當中，按照要匹配的內容的型別和數量進行匹配 &nb

爬蟲老是被封IP？看我大Python搭建高匿代理池！封IP你覺得可能嗎

0x01 寫在前面常聽到很多人抱怨自己的IP因爬蟲次數太多而被網站遮蔽，不得不頻繁使用各種代理IP，卻又因為網上的公開代理大部分都是不能使用，而又要花錢花精力去申請VIP代理，幾番波折又遭遮蔽。特此寫一篇如何利用Python搭建代理池的文章，以降低時間及精力成本，實現自動化獲

python學習之二代理ip有效性驗證

python學習之二代理ip有效性驗證驗證程式碼Demo # -*- coding: utf-8 -*- import requests def gitIp(): ipList

ip代理池學習

aid req tex xpath ip代理權重 pre tps 登錄代理的作用網上有許多售賣代理的網站，也有免費的，不過其功效性會能影響。通過代理網站，我們可以向訪問的目標訪問器隱藏自己的真實ip，避免ip地址以訪問頻率過高等原因被封。步驟 1.搜集一個免費的代理

Python學習筆記-IP地址處理模塊Ipy

模塊 python ipy IP地址處理模塊Ipy IPy模塊可以很好的輔助我們高效完成IP的規劃工作。參考：https://github.com/autocracy/python-ipy 安裝IPy模塊[[email protected]/* */ ~]#

ip代理池-基於mongodb數據庫

url upd tostring mls from path ida request protocol 代碼用的python2.7，抓取xici免費代理，檢測放入數據庫中，為以後爬蟲做準備。下面直接上代碼 1 #-*-encoding=utf-8-*- 2 3 i

小白也能做的IP代理池，好久沒更新了，不知道你們想看什麽呢！

不知道一個 pytho 爬取 save 包含著異步處理使用方法 gen IP代理池制作 GitHub主頁： https://github.com/hfldqwe/ 使用工具： ip代理抓取： requests 後臺搭建： Django+Redis 代理檢測： ip

python asyncio異步代理池

eva 之前 enume one 新增生成異步可能正在使用python asyncio實現了一個異步代理池，根據規則爬取代理網站上的免費代理，在驗證其有效後存入redis中，定期擴展代理的數量並檢驗池中代理的有效性，移除失效的代理。同時用aiohttp實現了一個

【Python3爬蟲】Scrapy使用IP代理池和隨機User-Agent

findall 4.3 sdch 5.0 agen and 由於付費 status 在使用爬蟲的時候，有時候會看到由於目標計算機積極拒絕，無法連接...，這就是因為我們的爬蟲被識別出來了，而這種反爬蟲主要是通過IP識別的，針對這種反爬蟲，我們可以搭建一個自己的IP代理池，

自己搭建億級爬蟲IP代理池

做爬蟲抓取時，我們經常會碰到網站針對IP地址封鎖的反爬蟲策略。但只要有大量可用的IP資源，問題自然迎刃而解。以前嘗試過自己抓取網路上免費代理IP來搭建代理池，可免費IP質量參差不齊，不僅資源少、速度慢，而且失效快，滿足不了快速密集抓取的需求。收費代理提供的代理資源質量明顯提升，經過多家測試，

ProxyApi-大資料採集用的IP代理池

用於大資料採集用的代理池在資料採集的過程中，最需要的就是一直變化的代理ip。自建adsl為問題是隻有一個區域的IP。買的代理存在的問題是不穩定，影響採集效率。雲vps不允許安裝花生殼等，即使有花生殼，它的解析也不及時，跟不上3分鐘變一次。本專案的作用是將目前的雲vps，安裝代理軟體，然後使用指令碼每

python學習筆記(59) 程序池

p = Pool(5)　　# 一般cpu個數+1 p.map(funcname,iterable)　　# 預設非同步在，自帶close和join，返回列表 p.apply()　　# 同步呼叫，不常用，有返回值 p.apply_async()　　# 非同步呼叫，和主程序完全非同步，需要手動close和jo

爬蟲ip代理池新建（使用芝麻ip代理）

如果真入職爬蟲工程師職位後，真正做爬蟲爬取資料的過程，將會使用大量的ip做ip替換，否則很容易被封ip，導致資料獲取無法持續下去。而現在市面上的免費代理其實很多都是無效的，或者持續效果很低效的。因此需要找到一個穩定高效且效果不錯的代理商。現在我就把自己目前使用的ip代理和自己獲取代理使用

python學習 —— 建立IP代理池

相關推薦