Python網路爬蟲之requests模組1

阿新 • • 發佈：2021-07-13

Python網路爬蟲之requests模組（1）
引入
Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。

警告：非專業使用其他 HTTP 庫會導致危險的副作用，包括：安全缺陷症、冗餘程式碼症、重新發明輪子症、啃文件症、抑鬱、頭疼、甚至死亡。

今日概要

基於requests的get請求
基於requests模組的post請求
基於requests模組ajax的get請求
基於requests模組ajax的post請求
綜合專案練習：爬取國家藥品監督管理總局中基於中華人民共和國化妝品生產許可證相關資料
知識點回顧

常見的請求頭
常見的相應頭
https協議的加密方式
今日詳情

基於如下5點展開requests模組的學習
什麼是requests模組
requests模組是python中原生的基於網路請求的模組，其主要作用是用來模擬瀏覽器發起請求。功能強大，用法簡潔高效。在爬蟲領域中佔據著半壁江山的地位。
為什麼要使用requests模組
因為在使用urllib模組的時候，會有諸多不便之處，總結如下：
手動處理url編碼
手動處理post請求引數
處理cookie和代理操作繁瑣
......
使用requests模組：
自動處理url編碼
自動處理post請求引數
簡化cookie和代理操作
......
如何使用requests模組
安裝：
pip install requests
使用流程
指定url
基於requests模組發起請求
獲取響應物件中的資料值
持久化儲存
通過5個基於requests模組的爬蟲專案對該模組進行學習和鞏固
基於requests模組的get請求
需求：爬取搜狗指定詞條搜尋後的頁面資料
基於requests模組的post請求
需求：登入豆瓣電影，爬取登入成功後的頁面資料
基於requests模組ajax的get請求
需求：爬取豆瓣電影分類排行榜

https://movie.douban.com/中的電影詳情資料
基於requests模組ajax的post請求
需求：爬取肯德基餐廳查詢http://www.kfc.com.cn/kfccda/index.aspx中指定地點的餐廳資料
綜合練習
需求：爬取國家藥品監督管理總局中基於中華人民共和國化妝品生產許可證相關資料http://125.35.6.84:81/xk/
程式碼展示
需求：爬取搜狗指定詞條搜尋後的頁面資料
import requests
import os

指定搜尋關鍵字

word = input('enter a word you want to search:')

自定義請求頭資訊

headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}

指定url

url = 'https://www.sogou.com/web'

封裝get請求引數

prams = {
'query':word,
'ie':'utf-8'
}

發起請求

response = requests.get(url=url,params=param)

獲取響應資料

page_text = response.text

with open('./sougou.html','w',encoding='utf-8') as fp:
fp.write(page_text)
請求載體身份標識的偽裝：

User-Agent：請求載體身份標識，通過瀏覽器發起的請求，請求載體為瀏覽器，則該請求的User-Agent為瀏覽器的身份標識，使用爬蟲程式發起的請求，則該請求的載體為爬蟲程式，則該請求的User-Agent為爬蟲程式的身份標識。可以通過判斷該值來獲知該請求的載體究竟是基於哪款瀏覽器還是基於爬蟲程式。

反爬機制：某些入口網站會對訪問該網站的請求中的User-Agent進行捕獲和判斷，如果該請求的UA為爬蟲程式，則拒絕向該請求提供資料。

反反爬策略：將爬蟲程式的UA偽裝成某一款瀏覽器的身份標識。

需求：登入豆瓣電影，爬取登入成功後的頁面資料
import requests
import os
url = 'https://accounts.douban.com/login'

封裝請求引數

data = {
"source": "movie",
"redir": "https://movie.douban.com/",
"form_email": "15027900535",
"form_password": "bobo@15027900535",
"login": "登入",
}

自定義請求頭資訊

headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}
response = requests.post(url=url,data=data)
page_text = response.text

with open('./douban111.html','w',encoding='utf-8') as fp:
fp.write(page_text)

需求：爬取豆瓣電影分類排行榜 https://movie.douban.com/中的電影詳情資料

!/usr/bin/env python

-- coding:utf-8 --

import requests
import urllib.request
if name == "main":

#指定ajax-get請求的url（通過抓包進行獲取）
url = 'https://movie.douban.com/j/chart/top_list?'

#定製請求頭資訊，相關的頭資訊必須封裝在字典結構中
headers = {
    #定製請求頭中的User-Agent引數，當然也可以定製請求頭中其他的引數
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
}

#定製get請求攜帶的引數(從抓包工具中獲取)
param = {
    'type':'5',
    'interval_id':'100:90',
    'action':'',
    'start':'0',
    'limit':'20'
}
#發起get請求，獲取響應物件
response = requests.get(url=url,headers=headers,params=param)

#獲取響應內容：響應內容為json串
print(response.text)

需求：爬取肯德基餐廳查詢http://www.kfc.com.cn/kfccda/index.aspx中指定地點的餐廳資料

!/usr/bin/env python

-- coding:utf-8 --

import requests
import urllib.request
if name == "main":

#指定ajax-post請求的url（通過抓包進行獲取）
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

#定製請求頭資訊，相關的頭資訊必須封裝在字典結構中
headers = {
    #定製請求頭中的User-Agent引數，當然也可以定製請求頭中其他的引數
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
}

#定製post請求攜帶的引數(從抓包工具中獲取)
data = {
    'cname':'',
    'pid':'',
    'keyword':'北京',
    'pageIndex': '1',
    'pageSize': '10'
}
#發起post請求，獲取響應物件
response = requests.get(url=url,headers=headers,data=data)

#獲取響應內容：響應內容為json串
print(response.text)

需求：爬取國家藥品監督管理總局中基於中華人民共和國化妝品生產許可證相關資料
import requests
from fake_useragent import UserAgent

ua = UserAgent(use_cache_server=False,verify_ssl=False).random
headers = {
'User-Agent':ua
}

url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'
pageNum = 3
for page in range(3,5):
data = {
'on': 'true',
'page': str(page),
'pageSize': '15',
'productName':'',
'conditionType': '1',
'applyname':'',
'applysn':''
}
json_text = requests.post(url=url,data=data,headers=headers).json()
all_id_list = []
for dict in json_text['list']:
id = dict['ID']#用於二級頁面資料獲取
#下列詳情資訊可以在二級頁面中獲取
# name = dict['EPS_NAME']
# product = dict['PRODUCT_SN']
# man_name = dict['QF_MANAGER_NAME']
# d1 = dict['XC_DATE']
# d2 = dict['XK_DATE']
all_id_list.append(id)
#該url是一個ajax的post請求
post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'
for id in all_id_list:
post_data = {
'id':id
}
response = requests.post(url=post_url,data=post_data,headers=headers)
#該請求響應回來的資料有兩個，一個是基於text，一個是基於json的，所以可以根據content-type,來獲取指定的響應資料
if response.headers['Content-Type'] == 'application/json;charset=UTF-8':
#print(response.json())
#進行json解析
json_text = response.json()
print(json_text['businessPerson'])

Python網路爬蟲之requests模組1

指定搜尋關鍵字

自定義請求頭資訊

指定url

封裝get請求引數

發起請求

獲取響應資料

封裝請求引數

自定義請求頭資訊

!/usr/bin/env python

-- coding:utf-8 --

!/usr/bin/env python

-- coding:utf-8 --

Python網路爬蟲之requests模組1

04.Python網路爬蟲之requests模組（1）

06.Python網路爬蟲之requests模組（2）

Python網路爬蟲之requests模組2

05.Python網路爬蟲之三種資料解析方式

08.Python網路爬蟲之圖片懶載入技術、selenium和PhantomJS

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

爬蟲之requests模組的基礎使用等相關內容-133

Python爬蟲的requests模組你真的學會了嗎？來看看這些高階用法！

Python網路爬蟲規則之Request庫入門

Python網路爬蟲與資訊提取_網課筆記1

Python網路爬蟲與資訊提取MOOC學習——Requests庫網路爬蟲實戰

架構師的成長之路初片~Python-郵件(smtplib)、requests模組、API介面呼叫

Python之requests模組-大檔案分片上傳

python網路爬蟲精解之正則表示式的使用說明

Python網路程式設計之使用TCP方式傳輸檔案操作示例

Python 網路程式設計之UDP傳送接收資料功能示例【基於socket套接字】

Python 網路程式設計之TCP客戶端/服務端功能示例【基於socket套接字】

python網路爬蟲 CrawlSpider使用詳解

python網路爬蟲 Scrapy中selenium用法詳解

Python網路爬蟲之requests模組1

指定搜尋關鍵字

自定義請求頭資訊

指定url

封裝get請求引數

發起請求

獲取響應資料

封裝請求引數

自定義請求頭資訊

!/usr/bin/env python

-- coding:utf-8 --

!/usr/bin/env python

-- coding:utf-8 --

相關推薦