1. 程式人生 > 其它 >python 爬蟲學習入門5 requests庫

python 爬蟲學習入門5 requests庫

技術標籤:爬蟲python

Requests庫

requests庫為我們提供了一個封裝好的 庫函式, 使用更為簡便

爬蟲步驟依然跟以前一樣

  1. 新增爬取網站的url資訊,
  2. 用程式碼獲得網頁資訊
  3. 資料分析
  4. 資料儲存
# resquests 庫的函式就相對簡單
import requests

url = requests.get(url)

# 呼叫get 函式即可取代urllib.request.urlopen函式,
response = requests.get(url)

# 通過content 屬性, 獲取網站資訊, content 屬性返回值為二進位制

data = response.
content.decode('utf-8') # 除了content 屬性,還有一個text 屬性方法, 是requests庫自動識別的, 因為是自動識別的 所以可能會產生些意料之外的資料 data2 = response.text

以上是簡單的利用requests 庫

下面為第一階段學習, 熟悉requests庫的基本函式呼叫,以及獲得到的各種資訊

import requests

class Res(object):
	def __init__(self):
		# 新增url
		url = "http://www.baidu.com"
		# 新增頭部資訊, 瀏覽器資訊
headers = { 'User-agent': '123' } # 在get 方法中可以新增頭部資訊 self.response = requests.get(url, headers=headers) def run(self): data = self.response.content.decode('utf-8') # 1. 獲取請求頭的資訊 request_headers = self.response.request.headers # 2. 獲取相應頭資訊 response_headers = self.response.
headers # 3. 獲取相應的狀態碼 code = self.response.status_code # 4. 獲取請求的cookie resquest_cookie = self.response.request._cookies # 5. 獲取相應的cookie response_cookie = self.response.cookies