Python中代理伺服器的設定（requests、urllib）

阿新 • • 發佈：2019-01-29

urllib 方式

def user_proxy(proxy_addr, url):
    import urllib.request
    proxy = urllib.request.ProxyHandler({'http': proxy_addr})
    opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
    data = urllib.request.urlopen(url).read().decode('utf-8')
    return data


proxy_addr = "114.82.109.134:8118"
data = user_proxy(proxy_addr, "https://www.baidu.com")
print(data)
print(len(data))

如果此時代理伺服器地址失效或者填寫錯了代理伺服器，則會發生錯誤。

requests 方式

import requests

ip, port = ("111.201.81.189", "8118")
url = 'http://www.163.com/'
proxy_url = "http://{0}:{1}".format(ip, port)

print(proxy_url)

proxy_dict = {
    "http": proxy_url
}

response = requests.get(url, proxies=proxy_dict)

html_doc = str(response.content, 'gbk')
print(html_doc)

一個代理 ip 池的例子

將西刺免費代理IP入 MySQL 資料庫，然後每次用的時候隨機選取，如果不可用的話，再次隨機選取，直到選到為止。

MySQL 建表語句：

create database proxy_pool character set utf8;

create table proxy_ip(
  ip varchar(20) not null,
  port varchar(255) not null,
  speed float,
  proxy_type varchar(5),
  available char(1) default null
)default charset = utf8;

Python 程式碼編寫：

import requests
from scrapy import Selector

__author__ = 'liwei'

import MySQLdb

conn = MySQLdb.connect(host='127.0.0.1', port=3306, user='root', passwd='123456', charset='utf8', db='proxy_pool')
cursor = conn.cursor()


class GetIp():
    def update_available_ip(self, ip, available):
        update_available_ip_sql = "update proxy_ip set available = '{0}' where ip = '{1}'".format(available, ip)
        cursor.execute(update_available_ip_sql)
        conn.commit()
        return True

    def delete_ip(self, ip):
        delete_ip_sql = "delete from proxy_ip where ip = '{0}'".format(ip)
        cursor.execute(delete_ip_sql)
        conn.commit()
        return True

    def judge_ip(self, ip, port):
        # 判斷給出的代理 ip 是否可用
        http_url = 'http://www.163.com/'
        proxy_url = 'http://{0}:{1}'.format(ip, port)

        print("proxy_url", proxy_url)
        try:
            proxy_dict = {
                'http': proxy_url
            }
            response = requests.get(http_url, proxies=proxy_dict)

        except Exception as e:
            print("[沒有返回]代理 ip {0} 及 埠號 {1} 不可用，即將從資料庫中刪除".format(ip, port))
            # self.delete_ip(ip)
            self.update_available_ip(ip, '0')
            return False
        else:
            code = response.status_code
            if code >= 200 or code < 300:
                print("代理 ip {0} 及 埠號 {1} 可用".format(ip, port))
                html_doc = str(response.content, 'gbk')
                print(html_doc)
                return True
            else:
                print("[有返回，但是狀態碼異常]代理 ip {0} 及 埠號 {1} 不可用，即將從資料庫中刪除".format(ip, port))
                # self.delete_ip(ip)
                self.update_available_ip(ip, '0')
                return False

    def get_random_ip(self):

        select_random = '''
            select ip,port,speed,proxy_type from proxy_ip order by rand() limit 1
        '''

        cursor.execute(select_random)
        result = cursor.fetchone()
        ip = result[0]
        port = result[1]

        judge_re = self.judge_ip(ip, port)
        if judge_re:
            self.update_available_ip(ip, '1')
            return "http://{0}:{1}".format(ip, port)
        else:
            return self.get_random_ip()

    def crawl_ips(self):
        headers = {"user-agent": "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:15.0) Gecko/20100101 Firefox/15.0.1"}
        for i in range(1, 2):
            response = requests.get("http://www.xicidaili.com/nn/{0}".format(i), headers=headers)
            selector = Selector(text=response.text)
            all_trs = selector.css("#ip_list tr")
            ip_list = []
            for tr in all_trs[1:]:
                speed_str = tr.css("td[class='country']")[2]
                title = speed_str.css(".bar::attr(title)").extract()[0]
                if title:
                    pass
                    speed = float(title.split("秒")[0])
                all_texts = tr.css("td::text").extract()
                print(all_texts)

                ip = all_texts[0]
                port = all_texts[1]
                attr = all_texts[4]
                type = all_texts[5]
                if attr == 'HTTPS' or attr == 'HTTP':
                    attr = '----------'
                    type = all_texts[4]

                ip_list.append((ip, port, speed, type))

            # 然後插入資料庫
            for ip_info in ip_list:
                insert_sql = '''
                      insert into proxy_ip(ip,port,speed,proxy_type)
                      values('{0}','{1}','{2}','{3}')'''.format(ip_info[0], ip_info[1], ip_info[2], ip_info[3])

                print(insert_sql)
                cursor.execute(insert_sql)
                conn.commit()


if __name__ == '__main__':
    get_ip = GetIp()
    # get_ip.crawl_ips()
    # 隨機地選擇一個 proxy_ip
    available_ip_port = get_ip.get_random_ip()
    print("可用的 ip 和埠號是：", available_ip_port)

    # 使用這個 proxy_ip 去進行爬蟲

Python中代理伺服器的設定（requests、urllib）

urllib 方式 def user_proxy(proxy_addr, url): import urllib.request proxy = urllib.request.ProxyHandler({'http': proxy_addr}) op

Python中的分組函式（groupby、itertools）

from operator import itemgetter #itemgetter用來去dict中的key，省去了使用lambda函式 from itertools import groupby #itertool還包含有其他很多函式，比如將多個list聯合起來。。 d1={'name':'zhangsa

python中資料結構容器（list、dict、tuple、set）和C++、JAVA中的匯出資料型別，陣列

list(列表）：語法：列表形如 [1, 2, 3, 4] [‘小明’,‘小紅’,] ，用中括號括住，裡面是字串、布林，每一項逗號分開。建立宣告變數時中括號、項，建立一個非空的列表。 num_list = [1,2,3,4] 建立一個空列表，之後再修改

python中的字元輸出（str()、repr()、print）

一、字元輸出的三種函式 str()、repr()、print 開發環境為python2.7 我們常常會遇到字元輸出和轉換問題，一個看似簡單的字元問題卻往往讓我們殫精竭慮。其實只要真的理解了，python的字元輸出轉換規則，這些問題再也不是問題了。二、實

python操作數據庫（MySQL、redis）

absolut lec pen 鏈接 hone key imp iam sql 1、Python3操作MySQL數據庫需要安裝一個第三方模塊(pymysql)：pip install pymysql；操作redis需要安裝redis模塊(redis)：pip install

Redis集群中刪除/修改節點（master、slave）（實驗）

redis集群刪除節點 redis集群移除master節點 redis集群移除slave節點 redis集群更改slave節點的隸屬刪除一個slave節點： # redis-trib.rb del-node 192.168.2.202:6380 e4dc23dc67418bf66c6c

python中的APScheduler模組（定時任務1）

在平常的工作中幾乎有一半的功能模組都需要定時任務來推動，例如專案中有一個定時統計程式，定時爬出網站的URL程式，定時檢測釣魚網站的程式等等，都涉及到了關於定時任務的問題，第一時間想到的是利用time模組的time.sleep()方法使程式休眠來達到定時任務的目的，雖然這樣也可以，但是總覺得不是那麼的

python中list常用操作（不包括切片）

stus = ['abc‘，’dec'，’dxq‘，’wzw‘] #下標，索引，角標 stus[3] stus = [] #空陣列 stus = list() #空列表 #增加元素 stus.append('zhaoyan') #在列表末尾增加一個元素 stus.inse

python中的關鍵字---2（函式基礎類）

函式基礎定義函式: def 函式名(): 縮排函式體(程式碼塊)呼叫函式: 函式名 + () 小括號執行順序: def func(): 1 print('這大佬黑') 3 func()呼叫 2 函式的返回

python中的關鍵字---3（內建函式）

內建函式 # 1 range(起始位置,終止位置,步長) # range(終止位置) # range(起始,終止位置) # range(起始,終止,步長) # range(5) [0,4] [0,5) # range(1,5) [1,4] [1,5) # rang

python中的關鍵字---6（os/sys模組）

import os 檔案操作類模組 os.makedirs('dirname1/dirname2') 可生成多層遞迴目錄os.removedirs('dirname1') 若目錄為空，則刪除，並遞迴到上一級目錄，如若也為空，則刪除，依此類推os.mkdir('dirname') 生成單級目錄；相當於she

ProjectLombok外掛----減少 Java 應用程式中樣板程式碼量（get、set.....）

Lombok是一個外掛，用於自動生成java程式碼，減少 Java 應用程式中樣板程式碼量 Lombok外掛的安裝（必須安裝，如果不安裝Eclipse等工具無法解析Lombok註解）安裝方法： 1、雙擊下載下來的J

501. 二叉搜尋樹中的眾數（簡單、樹）

給定一個有相同值的二叉搜尋樹（BST），找出 BST 中的所有眾數（出現頻率最高的元素）。 # Definition for a binary tree node. # class TreeNode: # def __init__(self, x): # se

opencv提取影象中的顏色直方圖（RGB、HSV）

本篇部落格主要介紹利用opencv工具提取一幅影象中的顏色直方圖特徵。所謂顏色直方圖，指的是一幅影象中的顏色分佈，與影象中的特定的物體無關，只是用來表示人的眼睛觀察到的影象中的顏色分佈情況，例如說，一幅圖中紅色佔了多少比例，綠色佔了多少比例等。我們知道，計算機色彩顯示器採

軟體開發過程中遇到的問題（Java 、JavaScript）

6. Parameter 'xxx' not found. Available parameters are [1, 0, param1, param2] 原因：Mapper介面的方法沒有引數沒有加：@Param("xxx") 7. java.lang.IllegalStateException: Amb

Android App熱更新中的外掛化（ClassLoader、DexLoader）（1）

PathClassLoader在熱更新的作用？ Android ClassLoader流程解讀並簡單方式實現熱更新- https://www.jianshu.com/p/2f4939320eb1 > Android 動態升級 1.Android 外掛化 —— 指將

Centos7設定（DHCP、static）IP上外網

伺服器Centos7系統裝好後，我需要上網功能，這樣客戶端才可以連線服務端，那麼如何配置網路？ 1. 配置動態IP（DHCP）上網 1.1 檢視網絡卡列表 # ifconfig # ls /etc/sysconfig/network-scripts/ 一般

Jenkins上下游jobs設定（並行、序列）

使用jenkins中，當有多個jobs需要互相關聯時，就需要設定jobs的上下游關聯關係。比如job_A執行後觸發job_B。 1.Build after other projects are bu

python中網路程式設計總結（udp，tcp）

一、udp使用者資料報協議（寫信的模型：在通訊開始，不需要建立相關的連線，只需要傳送資料即可，類似於生活中的寫信）（不安全：發的訊息可能會丟，對方不會請求再發一遍） 1.ipv4：_ _ _ ._ _ _ . _ _ _ ._ _ _ 192.168.1.1 注：192.168 是代表的同一

一個簡單的百度貼吧爬蟲&&百度搜索爬蟲&&模擬登入菜鳥踩坑記（requests、lxml）

這幾天在學爬蟲，試了下簡單的，不涉及scrapy框架，庫用的lxml、requests，python3，不涉及網頁介面互動。 1、百度貼吧爬蟲爬取貼吧貼子標題、發貼人資訊（性別、關注貼吧）等，後來根據資料做了個詞雲，程式碼跟詞雲戳下： import os import

Python中代理伺服器的設定（requests、urllib）

urllib 方式

requests 方式

一個代理 ip 池的例子

相關推薦