pyhont---信息的爬取與提取---requests庫
阿新 • • 發佈:2017-12-03
信息 -- header esp 修改 bsp sts 字符串 cep
python --requests能爬取網頁的信息
Requests庫的七個主要方法
request(method.url.**kwargs) 構造一個請求,支撐以下各方法的基礎方法
get() 獲取HTML網頁的主要方法,對應於http的get
head() 獲取HTML網頁頭信息的方法,網頁中的head部分
post() 向網頁提交post請求,對應於http的post
put() 向網頁提交Put請求,對應於http的put
patch()向HTML網頁提交局部修改請求,對應於HTTP的patch
delete() 向HTML網頁提交刪除請求,對應於HTTP的delete
response對象的五個常用屬性:
r.status_code 200表示連接成功
r.text http響應內容的字符串形式,即url對應網頁內容
r.encoding 從httpheader中猜測響應內容編碼方式
r.apparent_encoding 從內容中分析出響應內容編碼方式
r.content http響應內容的二進制形式
get()方法獲取資源的一般流程:
r.status_code 檢查連接狀態
r.text r,encoding r.apparent_encoding 等解析網頁內容
通用框架
import requests def getHtml(url): try: r=requests.get(url) ‘‘‘/*返回一個response對象*/ ‘‘‘ r.raise_for_status r.encoding=r.apparent_encoding return r.text; except: print("爬取失敗")
pyhont---信息的爬取與提取---requests庫