python爬蟲開發之Request模組從安裝到詳細使用方法與例項全解

阿新 • • 發佈：2020-03-10

python爬蟲模組Request的安裝

在cmd中，使用如下指令安裝requests：

pip install requests

python爬蟲模組Request快速上手

Requests 已安裝

Requests 是最新的

Request模組傳送請求

使用 Requests 傳送網路請求非常簡單。

一開始要匯入 Requests 模組：

>>> import requests

然後，嘗試獲取某個網頁。本例子中，我們來獲取 Github 的公共時間線：

>>> r = requests.get('https://api.github.com/events')

現在，我們有一個名為 r 的 Response 物件。我們可以從這個物件中獲取所有我們想要的資訊。

Requests 簡便的 API 意味著所有 HTTP 請求型別都是顯而易見的。例如，你可以這樣傳送一個 HTTP POST 請求：

>>> r = requests.post('http://httpbin.org/post',data = {'key':'value'})

那麼其他 HTTP 請求型別：PUT，DELETE，HEAD 以及 OPTIONS 又是如何的呢？都是一樣的簡單：

>>> r = requests.put('http://httpbin.org/put',data = {'key':'value'})
>>> r = requests.delete('http://httpbin.org/delete')
>>> r = requests.head('http://httpbin.org/get')
>>> r = requests.options('http://httpbin.org/get')

Request模組傳遞URL引數

你也許經常想為 URL 的查詢字串(query string)傳遞某種資料。如果你是手工構建 URL，那麼資料會以鍵/值對的形式置於 URL 中，跟在一個問號的後面。

例如， httpbin.org/get?key=val。 Requests 允許你使用 params 關鍵字引數，以一個字串字典來提供這些引數。舉例來說，如果你想傳遞 key1=value1 和 key2=value2 到 httpbin.org/get ，那麼你可以使用如下程式碼：

>>> payload = {'key1': 'value1','key2': 'value2'}
>>> r = requests.get("http://httpbin.org/get",params=payload)

通過列印輸出該 URL，你能看到 URL 已被正確編碼：

>>> print(r.url)
http://httpbin.org/get?key2=value2&key1=value

注意字典裡值為 None 的鍵都不會被新增到 URL 的查詢字串裡。

你還可以將一個列表作為值傳入：

>>> payload = {'key1': 'value1','key2': ['value2','value3']}
>>> r = requests.get('http://httpbin.org/get',params=payload)
>>> print(r.url)
http://httpbin.org/get?key1=value1&key2=value2&key2=value

Request模組響應內容

我們能讀取伺服器響應的內容。再次以 GitHub 時間線為例：

>>> import requests
>>> r = requests.get('https://api.github.com/events')
>>> r.text
u'[{"repository":{"open_issues":0,"url":"https://github.com/...

Requests會自動解碼來自伺服器的內容。大多數 unicode 字符集都能被無縫地解碼。

請求發出後，Requests 會基於 HTTP 頭部對響應的編碼作出有根據的推測。

當你訪問 r.text 之時，Requests 會使用其推測的文字編碼。

你可以找出 Requests 使用了什麼編碼，並且能夠使用 r.encoding 屬性來改變它：

>>> r.encoding
'utf-8'
>>> r.encoding = 'ISO-8859-1'

如果你改變了編碼，每當你訪問 r.text ，Request 都將會使用 r.encoding 的新值。

你可能希望在使用特殊邏輯計算出文字的編碼的情況下來修改編碼。比如 HTTP 和 XML 自身可以指定編碼。這樣的話，你應該使用 r.content 來找到編碼，然後設定 r.encoding 為相應的編碼。這樣就能使用正確的編碼解析 r.text 了。

在你需要的情況下，Requests 也可以使用定製的編碼。如果你建立了自己的編碼，並使用 codecs 模組進行註冊，你就可以輕鬆地使用這個解碼器名稱作為 r.encoding 的值，然後由 Requests 來為你處理編碼。

Request模組二進位制響應內容

你也能以位元組的方式訪問請求響應體，對於非文字請求：

>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...

Requests 會自動為你解碼 gzip 和 deflate 傳輸編碼的響應資料。

例如，以請求返回的二進位制資料建立一張圖片，你可以使用如下程式碼：

>>> from PIL import Image
>>> from io import BytesIO
>>> i = Image.open(BytesIO(r.content))

Request模組JSON 響應內容

Requests 中也有一個內建的 JSON 解碼器，助你處理 JSON 資料：

>>> import requests
>>> r = requests.get('https://api.github.com/events')
>>> r.json()
[{u'repository': {u'open_issues': 0,u'url': 'https://github.com/...

如果 JSON 解碼失敗， r.json() 就會丟擲一個異常。

例如，響應內容是 401 (Unauthorized)，嘗試訪問 r.json() 將會丟擲 ValueError: No JSON object could be decoded 異常。

需要注意的是，成功呼叫 r.json() 並不意味著響應的成功。

有的伺服器會在失敗的響應中包含一個 JSON 物件（比如 HTTP 500 的錯誤細節）。這種 JSON 會被解碼返回。要檢查請求是否成功，請使用 r.raise_for_status() 或者檢查 r.status_code 是否和你的期望相同。

Request模組原始響應內容

在罕見的情況下，你可能想獲取來自伺服器的原始套接字響應，那麼你可以訪問 r.raw。

如果你確實想這麼幹，那請你確保在初始請求中設定了 stream=True。具體你可以這麼做：

>>> r = requests.get('https://api.github.com/events',stream=True)
>>> r.raw
<requests.packages.urllib3.response.HTTPResponse object at 0x101194810>
>>> r.raw.read(10)
'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03'

但一般情況下，你應該以下面的模式將文字流儲存到檔案：

with open(filename,'wb') as fd:
  for chunk in r.iter_content(chunk_size):
    fd.write(chunk)

使用 Response.iter_content 將會處理大量你直接使用 Response.raw 不得不處理的。當流下載時，上面是優先推薦的獲取內容方式。 Note that chunk_size can be freely adjusted to a number that may better fit your use cases.

Request模組定製請求頭

如果你想為請求新增 HTTP 頭部，只要簡單地傳遞一個 dict 給 headers 引數就可以了。

>>> url = 'https://api.github.com/some/endpoint'
>>> headers = {'user-agent': 'my-app/0.0.1'}
>>> r = requests.get(url,headers=headers)

注意: 定製 header 的優先順序低於某些特定的資訊源，例如：

如果在 .netrc 中設定了使用者認證資訊，使用 headers= 設定的授權就不會生效。

如果設定了 auth= 引數，.netrc 的設定就無效了。

如果被重定向到別的主機，授權 header 就會被刪除。

代理授權 header 會被 URL 中提供的代理身份覆蓋掉。

在我們能判斷內容長度的情況下，header 的 Content-Length 會被改寫。

更進一步講，Requests 不會基於定製 header 的具體情況改變自己的行為。只不過在最後的請求中，所有的 header 資訊都會被傳遞進去。

注意: 所有的 header 值必須是 string、bytestring 或者 unicode。儘管傳遞 unicode header 也是允許的，但不建議這樣做。

Request模組更加複雜的 POST 請求

通常，你想要傳送一些編碼為表單形式的資料——非常像一個 HTML 表單。

要實現這個，只需簡單地傳遞一個字典給 data 引數。你的資料字典在發出請求時會自動編碼為表單形式：

>>> payload = {'key1': 'value1','key2': 'value2'}
>>> r = requests.post("http://httpbin.org/post",data=payload)
>>> print(r.text)
{
 ...
 "form": {
  "key2": "value2","key1": "value1"
 },...
}

你還可以為 data 引數傳入一個元組列表。

在表單中多個元素使用同一 key 的時候，這種方式尤其有效：

>>> payload = (('key1','value1'),('key1','value2'))
>>> r = requests.post('http://httpbin.org/post',data=payload)
>>> print(r.text)
{
 ...
 "form": {
  "key1": [
   "value1","value2"
  ]
 },...
}

很多時候你想要傳送的資料並非編碼為表單形式的。

如果你傳遞一個 string 而不是一個 dict，那麼資料會被直接釋出出去。

例如，Github API v3 接受編碼為 JSON 的 POST/PATCH 資料：

>>> import json
>>> url = 'https://api.github.com/some/endpoint'
>>> payload = {'some': 'data'}
>>> r = requests.post(url,data=json.dumps(payload))

此處除了可以自行對 dict 進行編碼，你還可以使用 json 引數直接傳遞，然後它就會被自動編碼

這是 2.4.2 版的新加功能：

>>> url = 'https://api.github.com/some/endpoint'
>>> payload = {'some': 'data'}
>>> r = requests.post(url,json=payload)

POST一個多部分編碼(Multipart-Encoded)的檔案

Requests 使得上傳多部分編碼檔案變得很簡單：

>>> url = 'http://httpbin.org/post'
>>> files = {'file': open('report.xls','rb')}
>>> r = requests.post(url,files=files)
>>> r.text
{
 ...
 "files": {
  "file": "<censored...binary...data>"
 },...
}

你可以顯式地設定檔名，檔案型別和請求頭：

>>> url = 'http://httpbin.org/post'
>>> files = {'file': ('report.xls',open('report.xls','rb'),'application/vnd.ms-excel',{'Expires': '0'})}
>>> r = requests.post(url,...
}

如果你想，你也可以傳送作為檔案來接收的字串：

>>> url = 'http://httpbin.org/post'
>>> files = {'file': ('report.csv','some,data,to,send\nanother,row,send\n')}
>>> r = requests.post(url,files=files)
>>> r.text
{
 ...
 "files": {
  "file": "some,send\\nanother,send\\n"
 },...
}

如果你傳送一個非常大的檔案作為 multipart/form-data 請求，你可能希望將請求做成資料流。預設下 requests 不支援,但有個第三方包 requests-toolbelt 是支援的。你可以閱讀 toolbelt 文件來了解使用方法。

在一個請求中傳送多檔案參考高階用法一節。

Request模組警告

我們強烈建議你用二進位制模式(binary mode)開啟檔案。這是因為 Requests 可能會試圖為你提供 Content-Length header，在它這樣做的時候，這個值會被設為檔案的位元組數（bytes）。如果用文字模式(text mode)開啟檔案，就可能會發生錯誤。

Request模組響應狀態碼

我們可以檢測響應狀態碼：

>>> r = requests.get('http://httpbin.org/get')
>>> r.status_code
200

為方便引用，Requests還附帶了一個內建的狀態碼查詢物件：

>>> r.status_code == requests.codes.ok
True

如果傳送了一個錯誤請求(一個4XX客戶端錯誤，或者5XX伺服器錯誤響應)

我們可以通過 Response.raise_for_status() 來丟擲異常：

>>> bad_r = requests.get('http://httpbin.org/status/404')
>>> bad_r.status_code
404
>>> bad_r.raise_for_status()
Traceback (most recent call last):
 File "requests/models.py",line 832,in raise_for_status
  raise http_error
requests.exceptions.HTTPError: 404 Client Error

Request模組響應頭

我們可以檢視以一個 Python 字典形式展示的伺服器響應頭：

>>> r.headers
{
  'content-encoding': 'gzip','transfer-encoding': 'chunked','connection': 'close','server': 'nginx/1.0.4','x-runtime': '148ms','etag': '"e1ca502697e5c9317743dc078f67693f"','content-type': 'application/json'
}

但是這個字典比較特殊：它是僅為 HTTP 頭部而生的。根據 RFC 2616， HTTP 頭部是大小寫不敏感的。

因此，我們可以使用任意大寫形式來訪問這些響應頭欄位：

>>> r.headers['Content-Type']
'application/json'
>>> r.headers.get('content-type')
'application/json'

它還有一個特殊點，那就是伺服器可以多次接受同一header，每次都使用不同的值。但Requests會將它們合併，這樣它們就可以用一個對映來表示出來，接收者可以合併多個相同名稱的 header 欄位，把它們合為一個 “field-name: field-value” 配對，將每個後續的欄位值依次追加到合併的欄位值中，用逗號隔開即可，這樣做不會改變資訊的語義。

Request模組Cookie

如果某個響應中包含一些 cookie，你可以快速訪問它們：

>>> url = 'http://example.com/some/cookie/setting/url'
>>> r = requests.get(url)
>>> r.cookies['example_cookie_name']
'example_cookie_value'

要想傳送你的cookies到伺服器，可以使用 cookies 引數：

>>> url = 'http://httpbin.org/cookies'
>>> cookies = dict(cookies_are='working')
>>> r = requests.get(url,cookies=cookies)
>>> r.text
'{"cookies": {"cookies_are": "working"}}'

Cookie 的返回物件為 RequestsCookieJar，它的行為和字典類似，但介面更為完整，適合跨域名跨路徑使用。你還可以把 Cookie Jar 傳到 Requests 中：

>>> jar = requests.cookies.RequestsCookieJar()
>>> jar.set('tasty_cookie','yum',domain='httpbin.org',path='/cookies')
>>> jar.set('gross_cookie','blech',path='/elsewhere')
>>> url = 'http://httpbin.org/cookies'
>>> r = requests.get(url,cookies=jar)
>>> r.text
'{"cookies": {"tasty_cookie": "yum"}}'

Request模組重定向與請求歷史

預設情況下，除了 HEAD,Requests 會自動處理所有重定向。

可以使用響應物件的 history 方法來追蹤重定向。

Response.history 是一個 Response 物件的列表，為了完成請求而建立了這些物件。這個物件列表按照從最老到最近的請求進行排序。

例如，Github 將所有的 HTTP 請求重定向到 HTTPS：

>>> r = requests.get('http://github.com')
>>> r.url
'https://github.com/'
>>> r.status_code
200
>>> r.history
[<Response [301]>]

如果你使用的是GET、OPTIONS、POST、PUT、PATCH或者DELETE

那麼你可以通過 allow_redirects 引數禁用重定向處理：

>>> r = requests.get('http://github.com',allow_redirects=False)
>>> r.status_code
301
>>> r.history
[]

如果你使用了 HEAD，你也可以啟用重定向：

>>> r = requests.head('http://github.com',allow_redirects=True)
>>> r.url
'https://github.com/'
>>> r.history
[<Response [301]>]

Request模組超時

你可以告訴 requests 在經過以 timeout 引數設定的秒數時間之後停止等待響應。基本上所有的生產程式碼都應該使用這一引數。如果不使用，你的程式可能會永遠失去響應：

>>> requests.get('http://github.com',timeout=0.001)
Traceback (most recent call last):
 File "<stdin>",line 1,in <module>
requests.exceptions.Timeout: HTTPConnectionPool(host='github.com',port=80): Request timed out. (timeout=0.001)

注意timeout 僅對連線過程有效，與響應體的下載無關。 timeout 並不是整個下載響應的時間限制，而是如果伺服器在 timeout 秒內沒有應答，將會引發一個異常（更精確地說，是在 timeout 秒內沒有從基礎套接字上接收到任何位元組的資料時）If no timeout is specified explicitly,requests do not time out.

Request模組錯誤與異常

遇到網路問題（如：DNS 查詢失敗、拒絕連線等）時，Requests 會丟擲一個 ConnectionError 異常。
如果 HTTP 請求返回了不成功的狀態碼， Response.raise_for_status() 會丟擲一個 HTTPError 異常。
若請求超時，則丟擲一個 Timeout 異常。
若請求超過了設定的最大重定向次數，則會丟擲一個 TooManyRedirects 異常。
所有Requests顯式丟擲的異常都繼承自 requests.exceptions.RequestException 。

Request模組代理

如果需要使用代理，你可以通過為任意請求方法提供 proxies 引數來配置單個請求:

import requests
proxies = {
 "http": "http://10.10.1.10:3128","https": "http://10.10.1.10:1080",}
requests.get("http://example.org",proxies=proxies)

你也可以通過環境變數 HTTP_PROXY 和 HTTPS_PROXY 來配置代理。

$ export HTTP_PROXY="http://10.10.1.10:3128"
$ export HTTPS_PROXY="http://10.10.1.10:1080"
$ python
>>> import requests
>>> requests.get("http://example.org")

若你的代理需要使用HTTP Basic Auth，可以使用 http://user:password@host/ 語法：

proxies = {
  "http": "http://user:[email protected]:3128/",}

要為某個特定的連線方式或者主機設定代理，使用 scheme://hostname 作為 key，它會針對指定的主機和連線方式進行匹配。

proxies = {'http://10.20.1.128': 'http://10.10.1.10:5323'}

注意，代理 URL 必須包含連線方式。

至此python爬蟲模組Request從安裝到詳細使用方法與例項全解基本就結束了，更多關於python爬蟲模組Request的使用方法與例項請檢視下面的相關連結

python爬蟲開發之Request模組從安裝到詳細使用方法與例項全解

python爬蟲模組Request的安裝

python爬蟲模組Request快速上手

Request模組傳送請求

Request模組傳遞URL引數

Request模組響應內容

Request模組二進位制響應內容

Request模組JSON 響應內容

Request模組原始響應內容

Request模組定製請求頭

Request模組更加複雜的 POST 請求

Request模組警告

Request模組響應狀態碼

Request模組響應頭

Request模組Cookie

Request模組重定向與請求歷史

Request模組超時

Request模組錯誤與異常

Request模組代理

python爬蟲開發之Request模組從安裝到詳細使用方法與例項全解

python爬蟲開發之urllib模組詳細使用方法與例項全解

python爬蟲開發之PyQuery模組詳細使用方法與例項全解

python爬蟲開發之selenium模組詳細使用方法與例項全解

python標準庫sys和OS的函式使用方法與例項詳解

python爬蟲開發之Beautiful Soup模組從安裝到詳細使用方法與例項

python爬蟲開發之使用python爬蟲庫requests，urllib與今日頭條搜尋功能爬取搜尋內容例項

python爬蟲開發之使用Python爬蟲庫requests多執行緒抓取貓眼電影TOP100例項

python資料庫開發之MongoDB安裝及Python3操作MongoDB資料庫詳細方法與例項

python GUI庫圖形介面開發之PyQt5結合Qt Designer建立訊號與槽的詳細方法與例項

python GUI庫圖形介面開發之PyQt5不規則視窗實現與顯示GIF動畫的詳細方法與例項

Qt圖形影象開發之曲線圖表庫QtChart編譯安裝詳細方法與使用例項

Qt圖形影象開發之曲線圖表模組QChart庫一個chart中顯示兩條曲線詳細方法與例項

python開發例項之Python的Twisted框架中Deferred物件的詳細用法與例項

python標準庫OS模組函式列表與例項全解

Qt圖形影象開發曲線圖表模組QChart庫縮放/平移詳細方法與例項

Qt GUI圖形影象開發之QT表格控制元件QTableView,QTableWidget複雜表頭(多行表頭) 及凍結、固定特定的行的詳細方法與例項

Qt基礎開發之Qt檔案操作類QFile讀寫檔案的詳細方法與例項及QDataStream的使用方法

Qt基礎開發之Qt多執行緒類QThread與Qt定時器類QTimer的詳細方法與例項

python詞雲庫wordcloud的使用方法與例項詳解

python爬蟲開發之Request模組從安裝到詳細使用方法與例項全解

python爬蟲模組Request的安裝

python爬蟲模組Request快速上手

Request模組傳送請求

Request模組傳遞URL引數

Request模組響應內容

Request模組二進位制響應內容

Request模組JSON 響應內容

Request模組原始響應內容

Request模組定製請求頭

Request模組更加複雜的 POST 請求

Request模組警告

Request模組響應狀態碼

Request模組響應頭

Request模組Cookie

Request模組重定向與請求歷史

Request模組超時

Request模組錯誤與異常

Request模組代理

相關推薦