python 爬蟲學習入門5 requests庫
阿新 • • 發佈:2021-01-26
Requests庫
requests庫為我們提供了一個封裝好的 庫函式, 使用更為簡便
爬蟲步驟依然跟以前一樣
- 新增爬取網站的url資訊,
- 用程式碼獲得網頁資訊
- 資料分析
- 資料儲存
# resquests 庫的函式就相對簡單
import requests
url = requests.get(url)
# 呼叫get 函式即可取代urllib.request.urlopen函式,
response = requests.get(url)
# 通過content 屬性, 獲取網站資訊, content 屬性返回值為二進位制
data = response. content.decode('utf-8')
# 除了content 屬性,還有一個text 屬性方法, 是requests庫自動識別的, 因為是自動識別的 所以可能會產生些意料之外的資料
data2 = response.text
以上是簡單的利用requests 庫
下面為第一階段學習, 熟悉requests庫的基本函式呼叫,以及獲得到的各種資訊
import requests
class Res(object):
def __init__(self):
# 新增url
url = "http://www.baidu.com"
# 新增頭部資訊, 瀏覽器資訊
headers = {
'User-agent': '123'
}
# 在get 方法中可以新增頭部資訊
self.response = requests.get(url, headers=headers)
def run(self):
data = self.response.content.decode('utf-8')
# 1. 獲取請求頭的資訊
request_headers = self.response.request.headers
# 2. 獲取相應頭資訊
response_headers = self.response. headers
# 3. 獲取相應的狀態碼
code = self.response.status_code
# 4. 獲取請求的cookie
resquest_cookie = self.response.request._cookies
# 5. 獲取相應的cookie
response_cookie = self.response.cookies