python 爬蟲學習入門5 requests庫

阿新 • • 發佈：2021-01-26

Requests庫

requests庫為我們提供了一個封裝好的庫函式，使用更為簡便

爬蟲步驟依然跟以前一樣

新增爬取網站的url資訊，
用程式碼獲得網頁資訊
資料分析
資料儲存

# resquests 庫的函式就相對簡單
import requests

url = requests.get(url)

# 呼叫get 函式即可取代urllib.request.urlopen函式，
response = requests.get(url)

# 通過content 屬性, 獲取網站資訊, content 屬性返回值為二進位制

data = response. 
content.decode('utf-8')

# 除了content 屬性，還有一個text 屬性方法, 是requests庫自動識別的, 因為是自動識別的 所以可能會產生些意料之外的資料
data2 = response.text

以上是簡單的利用requests 庫

下面為第一階段學習, 熟悉requests庫的基本函式呼叫，以及獲得到的各種資訊

import requests

class Res(object):
	def __init__(self):
		# 新增url
		url = "http://www.baidu.com"
		# 新增頭部資訊, 瀏覽器資訊 

		headers = {
			'User-agent': '123'
		}
		# 在get 方法中可以新增頭部資訊
		self.response = requests.get(url, headers=headers)

	def run(self):
		
		data = self.response.content.decode('utf-8')
		
		# 1. 獲取請求頭的資訊
		request_headers = self.response.request.headers
		# 2. 獲取相應頭資訊
		response_headers = self.response. 
headers
		# 3. 獲取相應的狀態碼
		code = self.response.status_code
		# 4. 獲取請求的cookie
		resquest_cookie = self.response.request._cookies
		# 5. 獲取相應的cookie
		response_cookie = self.response.cookies

python 爬蟲學習入門5 requests庫

技術標籤：爬蟲python Requests庫 requests庫為我們提供了一個封裝好的庫函式，使用更為簡便

python -爬蟲學習2：獲取資料requests 庫

上一篇介紹的主要是爬蟲的工作原理，大致分為四個步驟：獲取資料解析資料提取資料儲存資料。這一篇主要就從獲取資料介紹起。

Python爬蟲學習——1.爬蟲入門

HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文字傳輸協議）：是一種釋出和接收 HTML頁面的方法。

Python爬蟲新手入門之初學lxml庫

1.爬蟲是什麼所謂爬蟲，就是按照一定的規則，自動的從網路中抓取資訊的程式或者指令碼。全球資訊網就像一個巨大的蜘蛛網，我們的爬蟲就是上面的一個蜘蛛，不斷的去抓取我們需要的資訊。

python爬蟲學習（一）requests

不是python自帶的，需要安裝pip install requests import requests url = \'https://cn.bing.com/search?q=%E8%B1%86%E7%93%A3\'

python爬蟲學習（一）requests爬取dytt下載地址

當網址有加密傳送安全證書時可以使用verify=False，因為dytt利用的字元編碼是gb2312，所以解碼也要用gb2312

python爬蟲學習（一）requests+bs4爬取圖片

import requests from bs4 import BeautifulSoup import time url = \"http://www.bizhi360.com/meinv/\" resp = requests.get(url)

python爬蟲學習筆記之Beautifulsoup模組用法詳解

本文例項講述了python爬蟲學習筆記之Beautifulsoup模組用法。分享給大家供大家參考，具體如下：

python爬蟲學習筆記之pyquery模組基本用法詳解

本文例項講述了python爬蟲學習筆記之pyquery模組基本用法。分享給大家供大家參考，具體如下：

python爬蟲學習01--電子書爬取

python爬蟲學習01--電子書爬取 1.獲取網頁資訊 import requests#匯入requests庫 \'\'\' 獲取網頁資訊

Python爬蟲學習02--pyinstaller

Python爬蟲學習02--打包exe可執行程式 1.上一次做了一個爬蟲爬取電子書的Python程式，然後發現可以通過pyinstaller進行打包成exe可執行程式。發現非常簡單好用

python爬蟲學習筆記(二十五)-Scrapy框架 Middleware

1. Spider 下載中介軟體(Middleware) Spider 中介軟體(Middleware) 下載器中介軟體是介入到 Scrapy 的 spider 處理機制的鉤子框架，您可以新增程式碼來處理髮送給 Spiders 的 response 及 spider 產生的 item 和 req

python爬蟲學習筆記(二十四)-Scrapy框架圖片管道的使用

1. 介紹 Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。

python爬蟲學習筆記(二十三)-Scrapy框架 CrawlSpider

1. CrawlSpiders 原理圖 sequenceDiagram start_urls ->>排程器: 初始化url 排程器->>下載器: request

python爬蟲學習筆記(二十二)-Scrapy框架案例實現

爬取小說 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider):

python爬蟲學習筆記(二十九)-Scrapy 框架-分散式

1. 介紹scrapy-redis框架 scrapy-redis 一個三方的基於redis的分散式爬蟲框架，配合scrapy使用，讓爬蟲具有了分散式爬取的功能。

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

python爬蟲要用到的庫總結

python爬蟲要用到的庫：請求庫：實現 HTTP 請求操作 urllib：一系列用於操作URL的功能。

【python介面自動化】- 使用requests庫傳送http請求

前言：什麼是Requests ？Requests 是⽤Python語⾔編寫，基於urllib，採⽤Apache2 Licensed開源協議的 HTTP 庫。它⽐ urllib 更加⽅便，可以節約我們⼤量的⼯作，完全滿⾜HTTP測試需求。

Python爬蟲第一課：requests的使用

requests模組的入門使用注意是requests不是request. 1、為什麼使用requests模組，而不是用python自帶的urllib

python 爬蟲學習入門5 requests庫

Requests庫

以上是簡單的利用requests 庫

相關推薦