python的網路請求

阿新 • • 發佈：2018-11-07

原文連結：https://www.jianshu.com/p/f05d33475c78

urllib是Python中請求url連線的官方標準庫，在Python2中主要為urllib和urllib2，在Python3中整合成了urllib。

而urllib3則是增加了連線池等功能，兩者互相都有補充的部分。

urllib

urllib作為Python的標準庫，基本上涵蓋了基礎的網路請求功能。

urllib.request

urllib中，request這個模組主要負責構造和發起網路請求，並在其中加入Headers、Proxy等。

發起GET請求

主要使用urlopen()

方法來發起請求：

from urllib import request

resp = request.urlopen('http://www.baidu.com')
print(resp.read().decode())

在urlopen()方法中傳入字串格式的url地址，則此方法會訪問目標網址，然後返回訪問的結果。

訪問的結果會是一個http.client.HTTPResponse物件，使用此物件的read()方法，則可以獲取訪問網頁獲得的資料。但是要注意的是，獲得的資料會是bytes的二進位制格式，所以需要decode()一下，轉換成字串格式。

發起POST請求

urlopen()

預設的訪問方式是GET，當在urlopen()方法中傳入data引數時，則會發起POST請求。

注意：傳遞的data資料需要為bytes格式。

設定timeout引數還可以設定超時時間，如果請求時間超出，那麼就會丟擲異常。

from urllib import request

resp = request.urlopen('http://httpbin.org', data=b'word=hello', timeout=10)
print(resp.read().decode())

新增Headers

通過urllib發起的請求會有預設的一個Headers："User-Agent":"Python-urllib/3.6"，指明請求是由urllib

傳送的。

所以遇到一些驗證User-Agent的網站時，我們需要自定義Headers，而這需要藉助於urllib.request中的Request物件。

from urllib import request

url = 'http://httpbin.org/get'
headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}

# 需要使用url和headers生成一個Request物件，然後將其傳入urlopen方法中
req = request.Request(url, headers=headers)
resp = request.urlopen(req)
print(resp.read().decode())

Request物件

如上所示，urlopen()方法中不止可以傳入字串格式的url，也可以傳入一個Request物件來擴充套件功能，Request物件如下所示。

class urllib.request.Request(url, data=None, headers={},
                           origin_req_host=None,
                           unverifiable=False, method=None)

構造Request物件必須傳入url引數，data資料和headers都是可選的。

最後，Request方法可以使用method引數來自由選擇請求的方法，如PUT，DELETE等等，預設為GET。

新增Cookie

為了在請求時能帶上Cookie資訊，我們需要重新構造一個opener。

使用request.build_opener方法來進行構造opener，將我們想要傳遞的cookie配置到opener中，然後使用這個opener的open方法來發起請求。

from http import cookiejar
from urllib import request

url = 'http://httpbin.org/cookies'
# 建立一個cookiejar物件
cookie = cookiejar.CookieJar()
# 使用HTTPCookieProcessor建立cookie處理器
cookies = request.HTTPCookieProcessor(cookie)
# 並以它為引數建立Opener物件
opener = request.build_opener(cookies)
# 使用這個opener來發起請求
resp = opener.open(url)
print(resp.read().decode())

或者也可以把這個生成的opener使用install_opener方法來設定為全域性的。

則之後使用urlopen方法發起請求時，都會帶上這個cookie。

# 將這個opener設定為全域性的opener
request.install_opener(opener)
resp = request.urlopen(url)

設定Proxy代理

使用爬蟲來爬取資料的時候，常常需要使用代理來隱藏我們的真實IP。

from urllib import request

url = 'http://httpbin.org/ip'
proxy = {'http':'50.233.137.33:80','https':'50.233.137.33:80'}
# 建立代理處理器
proxies = request.ProxyHandler(proxy)
# 建立opener物件
opener = request.build_opener(proxies)

resp = opener.open(url)
print(resp.read().decode())

下載資料到本地

在我們進行網路請求時常常需要儲存圖片或音訊等資料到本地，一種方法是使用python的檔案操作，將read()獲取的資料儲存到檔案中。

而urllib提供了一個urlretrieve()方法，可以簡單的直接將請求獲取的資料儲存成檔案。

from urllib import request

url = 'http://python.org/'
request.urlretrieve(url, 'python.html')

urlretrieve()方法傳入的第二個引數為檔案儲存的位置，以及檔名。

注：urlretrieve()方法是python2直接移植過來的方法，以後有可能在某個版本中棄用。

urllib.response

在使用urlopen()方法或者opener的open()方法發起請求後，獲得的結果是一個response物件。

這個物件有一些方法和屬性，可以讓我們對請求返回的結果進行一些處理。

read()

獲取響應返回的資料，只能使用一次。
getcode()

獲取伺服器返回的狀態碼。
getheaders()

獲取返回響應的響應報頭。
geturl()

獲取訪問的url。

urllib.parse

urllib.parse是urllib中用來解析各種資料格式的模組。

urllib.parse.quote

在url中，是隻能使用ASCII中包含的字元的，也就是說，ASCII不包含的特殊字元，以及中文等字元都是不可以在url中使用的。而我們有時候又有將中文字元加入到url中的需求，例如百度的搜尋地址：

https://www.baidu.com/s?wd=南北

？之後的wd引數，則是我們搜尋的關鍵詞。那麼我們實現的方法就是將特殊字元進行url編碼，轉換成可以url可以傳輸的格式，urllib中可以使用quote()方法來實現這個功能。

>>> from urllib import parse
>>> keyword = '南北'
>>> parse.quote(keyword)
'%E5%8D%97%E5%8C%97'

如果需要將編碼後的資料轉換回來，可以使用unquote()方法。

>>> parse.unquote('%E5%8D%97%E5%8C%97')
'南北'

urllib.parse.urlencode

在訪問url時，我們常常需要傳遞很多的url引數，而如果用字串的方法去拼接url的話，會比較麻煩，所以urllib中提供了urlencode這個方法來拼接url引數。

>>> from urllib import parse
>>> params = {'wd': '南北', 'code': '1', 'height': '188'}
>>> parse.urlencode(params)
'wd=%E5%8D%97%E5%8C%97&code=1&height=188'

urllib.error

在urllib中主要設定了兩個異常，一個是URLError，一個是HTTPError，HTTPError是URLError的子類。

HTTPError還包含了三個屬性：

code：請求的狀態碼
reason：錯誤的原因
headers：響應的報頭

例子：

In [1]: from urllib.error import HTTPError

In [2]: try:
   ...:     request.urlopen('https://www.jianshu.com')
   ...: except HTTPError as e:
   ...:     print(e.code)
    
403

urllib3

Urllib3是一個功能強大，條理清晰，用於HTTP客戶端的Python庫。許多Python的原生系統已經開始使用urllib3。Urllib3提供了很多python標準庫urllib裡所沒有的重要特性：

執行緒安全
連線池
客戶端SSL/TLS驗證
檔案分部編碼上傳
協助處理重複請求和HTTP重定位
支援壓縮編碼
支援HTTP和SOCKS代理

安裝

urllib3是一個第三方庫，安裝非常簡單，pip安裝即可：

pip install urllib3

使用

urllib3主要使用連線池進行網路請求的訪問，所以訪問之前我們需要建立一個連線池物件，如下所示：

>>> import urllib3
>>> http = urllib3.PoolManager()
>>> r = http.request('GET', 'http://httpbin.org/robots.txt')
>>> r.status
200
>>> r.data
'User-agent: *\nDisallow: /deny\n'

設定headers

headers={'X-Something': 'value'}
resp = http.request('GET', 'http://httpbin.org/headers', headers=headers)

設定url引數

對於GET等沒有請求正文的請求方法，可以簡單的通過設定fields引數來設定url引數。

fields = {'arg': 'value'}
resp = http.request('GET', 'http://httpbin.org/get', fields=fields)

如果使用的是POST等方法，則會將fields作為請求的請求正文傳送。

所以，如果你的POST請求是需要url引數的話，那麼需要自己對url進行拼接。

fields = {'arg': 'value'}
resp = http.request('POST', 'http://httpbin.org/get', fields=fields)

設定代理

>>> import urllib3
>>> proxy = urllib3.ProxyManager('http://50.233.137.33:80', headers={'connection': 'keep-alive'})
>>> resp = proxy.request('get', 'http://httpbin.org/ip')
>>> resp.status
200
>>> resp.data
b'{"origin":"50.233.136.254"}\n'

注：urllib3中沒有直接設定cookies的方法和引數，只能將cookies設定到headers中

python網路請求將json字元轉為物件

class CreateOrder: def __init__(self): self.code self.data self.msg # 做多（0）、做空（1） def reqCreateOrderAndEdit

Python網路請求錯誤“ConnectionRefusedError: [WinError 10061] 由於目標計算機積極拒絕，無法連線”

剛剛開始學習爬蟲，就遇到了糟心的Error，如題：import urllib.request url = 'https://www.baidu.com' data = urllib.request.u

python的網路請求

原文連結：https://www.jianshu.com/p/f05d33475c78 urllib是Python中請求url連線的官方標準庫，在Python2中主要為urllib和urllib2，在Python3中整合成了urllib。而urllib3則是增加了連線池等功能，兩者互相都有

python學習筆記：網路請求——urllib模組

python操作網路，也就是開啟一個網站，或者請求一個http介面，可以使用urllib模組。urllib模組是一個標準模組，直接import urllib即可，在python3裡面只有urllib模組，在python2裡面有urllib模組和urllib2模組 Urllib是python內

python介面http網路請求返回常見statusCode(狀態碼)解釋

當瀏覽者訪問一個網頁時，瀏覽者的瀏覽器會向網頁所在伺服器發出請求。當瀏覽器接收並顯示網頁前，此網頁所在的伺服器會返回一個包含HTTP狀態碼的資訊頭（server header）用以響應瀏覽器的請求。 HTTP狀態碼由三個十進位制數字組成，第一個十進位制數字定義了狀態碼的型別

python網路程式設計中非阻塞模式下的多客戶端請求處理

在預設認的情況下，TCP套節字處於阻塞模式中。換句話說，如果沒有完成操作，就不把控制權交給程式。例如呼叫connect( )API之後，連線操作會阻止程式繼續往下執行，直到連線成功為止。很多情況下，你並不想讓程式等待伺服器響應或者有異常終止操作。這裡舉個例子，如

python傳送網路請求

1、使用urllib模組 get請求： res = urlopen(url) from urllib.request import urlopen url = 'http://www.nnzhp.cn' print(urlopen(url))#返回http.client.HTTP

python爬蟲#網路請求requests庫

中文文件 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html requests庫雖然Python的標準庫中 urllib模組已經包含了平常我們使用的大多數功能，但是它的 API 使用起來讓人感覺不太好，而 Requests宣傳是

Python自動化學習筆記（八）——介面開發、傳送網路請求、傳送郵件、寫日誌

1.介面開發 1.1引數為json格式： flask.request.is_json　　#判斷引數是否是json格式 flask.request.json.get('key') #獲取引數 1.2引數為form-data格式 flask.request.data.get('key') #獲取引數

Python網路爬蟲筆記（7）處理HTTPS請求 SSL證書驗證

現在隨處可見 https 開頭的網站，urllib2可以為 HTTPS 請求驗證SSL證書，就像web瀏覽器一樣，如果網站的SSL證書是經過CA認證的，則能夠正常訪問，如：https://www.baidu.com/等...如果SSL證書驗證不通過，或者作業系統不信任伺服器的

Python之網路請求

一、爬蟲簡介 1、爬蟲的實際例子（1）搜尋引擎（百度、谷歌、360搜尋等）。（2）伯樂線上。（3）惠惠購物助手。（4）資料分析與研究（資料冰山知乎專欄）。（5）搶票軟體等。 2、什麼是網路爬蟲（1）通俗理解：爬蟲是一個模擬人類請求

python---django請求-響應的生命周期（FBV和CBV含義）

ike code getattr take err now() asa ted 圖片 Django請求的生命周期是指：當用戶在訪問該url路徑是，在服務器Django後臺都發生了什麽。客戶端發送Http請求給服務端，Http請求是一堆字符串,其內容是：訪問：http:/

python requests 請求的封裝

mail .post framework gis finish nis client eva json #encoding=utf-8import requestsimport jsonclass HttpClient(object): def __init__(

python post請求數據案例

compress pat art res wid gbk 耗時 req ons #coding:gbkfrom xlrd import open_workbookimport mockimport xlrdimport xlwtfrom xlutils.copy impor

Android小知識-剖析Retrofit中的網路請求流程以及相關引數

本平臺的文章更新會有延遲，大家可以關注微信公眾號-顧林海，包括年底前會更新kotlin由淺入深系列教程，目前計劃在微信公眾號進行首發，如果大家想獲取最新教程，請關注微信公眾號，謝謝! 在使用Retrofit時，需要建立Retrofit的例項，定義一個網路請求介面併為介面中的方法添加註解，接著通過動

Android 網路請求原理以及原始資料包

我們在請求網路的時候都是使用各種框架，或者是 Android SDK 為我們提供的網路請求類。但是你知不知道原始的網路請求包是什麼樣的呢？或許你說這有什麼作用，我會使用框架就好了。很顯然，這種想法是有問題的。一些網路請求的基本知識我們還是需要掌握的。這對我們更深入的開發和掌握更深的技術是非常有必要的。關於

通過代理模式，對第三方網路請求框架進行封裝，實現任意切換網路框架

最近在網上學習了一篇課程，講的是通過代理模式對第三方框架進行封裝。感覺講的很不錯，受益良多，特此記錄。首先什麼是代理模式？代理模式就是：為其他物件提供一種代理，以控制對這個物件的訪問。舉個例子：沒空下去吃飯，找個同事幫忙買飯就是代理模式；平常租房子，嫌麻

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

PYTHON-網路通訊 TCP

網路程式設計應用軟體的架構1. 目標:編寫一個C/S架構的軟體 C/S: Client--------基於網路----------Server B/S: Browser-------基於網路----------Server什麼是網路通訊? 在不同的計算機上一個安裝客戶端另一安裝服務端

python網路

網路概念：為了解決計算機之間的通訊問題產生了網路 -----計算機網路：計算機，連線介質，連線裝置相應軟體，通訊協議整個系統 ------網路通訊本質：網路中不同的計算機間程序進行通訊。 ------

python的網路請求

urllib

urllib.request

urllib.response

urllib.parse

urllib.error

urllib3

安裝

使用

相關推薦