requests模組 & xpath解析庫
阿新 • • 發佈:2020-09-09
# requests模組介紹
對比:urllib使用麻煩
安裝: pip install requests
# 初體驗: 爬取搜狗首頁
2.requests傳送請求
1.requests的get請求:
# requests的簡單get請求
# requests.get + headers
# requests.get + headers + params
# requests.get + headers + params + proxy
import requests
url = '...'
headers = {
"User-Agent ":'...'
}
params = {
'key': 'value'
}
proxies = {
'http': 'http://127.0.0.1:8080'
'https': 'http://127.0.0.1:8899'
}
res = requests.get(url=url, headers=headers, params=params, proxies=proxies)
# 代理:
透明代理:
匿名代理:
高匿代理:
#第一種: 反爬機制與反反爬策略
反爬機制: UA檢測
反反爬策略: UA偽裝
2.requests的post請求: 知乎發現頁搜尋
import requests
url = '...'
headers = {
"User-Agent":'...'
}
data = {
'key': 'value'
}
proxy = {
'http': 'http://127.0.0.1:8080',
'https': 'http://127.0.0.1:8899'
}
res = requests.post(url=url, headers=headers, data=data, proxies=proxies)
3.響應資料
# 獲取響應資料內容:(重點) res.text 獲取HTML文字 res.content 獲取二進位制流 res.json() 獲取json資料 # 響應資料的屬性: res_code = res.status_code # 響應狀態碼(*) res_headers = res.headers # 響應頭資訊 res_url = res.url # 此響應對應的請求url res_cookie = res.cookies # 響應的cookies(*) res_history = res.history # 請求歷史
3.xpath解析庫
# Xpath解析庫介紹:
資料解析的過程中使用過正則表示式, 但正則表示式想要進準匹配難度較高, 一旦正則表示式書寫錯誤, 匹配的資料也會出錯.
網頁由三部分組成: HTML, Css, JavaScript, HTML頁面標籤存在層級關係, 即DOM樹, 在獲取目標資料時可以根據網頁層次關係定位標籤, 在獲取標籤的文字或屬性.
# xpath解析庫解析資料原理:
1. 根據網頁DOM樹定位節點標籤
2. 獲取節點標籤的正文文字或屬性值
# xpath安裝, 初體驗 --> 使用步驟:
1.xpath安裝: pip install lxml
2.requests模組爬取糗事百科熱門的標題:
import requests
from lxml import etree
url = 'https://www.qiushibaike.com/'
headers = {
"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}
res = requests.get(url=url, headers=headers)
tree = etree.HTML(res.text)
title_lst = tree.xpath('//ul/li/div/a/text()')
for item in title_lst:
print(item)
3.xpath使用步驟:
from lxml import etree
tree = etree.HTML(res.text)
tree = etree.parse(res.html, etree.HTMLParse()) # 示例如下, 瞭解內容
tag_or_attr = tree.xpath('xpath表示式')
# xpath解析本地檔案
import requests
from lxml import etree
url = 'https://www.qiushibaike.com/'
headers = {
"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}
res = requests.get(url=url, headers=headers)
with open('qb.html', 'w', encoding='utf-8') as f:
f.write(res.text)
tree = etree.parse('./qb.html', etree.HTMLParser())
title_lst = tree.xpath('//ul/li/div/a/text()')
for item in title_lst:
print(item)
# xpath語法:
1.常用規則:
1. nodename: 節點名定位
2. //: 從當前節點選取子孫節點(任意位置)
3. /: 從當前節點選取直接子節點(根節點)
4. nodename[@attribute="..."] 根據屬性定位標籤
5. @attributename: 獲取屬性
6. text(): 獲取文字
7. .:當前節點
8.屬性匹配兩種情況: 多屬性匹配 & 單屬性多值匹配
2.2 多屬性匹配(and )
示例: tree.xpath('//div[@class="item" and @name="test"]/text()')
2.1 單屬性多值匹配(contains)
示例: tree.xpath('//div[contains(@class, "dc")]/text()')
3.按序選擇:
3.1 索引定位: 從1開始
3.2 last()函式(倒數)
3.3 position()函式
解析示例: 示例解析的是本地檔案
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Xpath練習檔案</title>
</head>
<body>
<div id="007">
"我是div標籤的文字內容, 和下面的p標籤還有div標籤是同級的哦"
<p>這是p標籤內的文字內容</p>
<div>這是p標籤同級的div標籤</div>
</div>
<div class="divtag">
<ul>
<li>第1個li標籤</li>
<li>第2個li標籤</li>
<li>第3個li標籤</li>
<li>第4個li標籤</li>
<li>第5個li標籤</li>
</ul>
<a href="https://www.baidu.com">這是百度的跳轉連線</a>
</div>
<div class="c1" name="laoda">老大在此</div>
<div class="c1 c3" name="laoer">老二任性, class有兩個值</div>
<div class="c1" name="laosan">我是老三</div>
</body>
</html>
from lxml import etree
tree = etree.parse('./x.html', etree.HTMLParser())
# 1.根據節點名, 即nodename定位title標籤, 獲取標籤內文字
title_text = tree.xpath('//title/text()')
print(title_text)
# 2.根據節點屬性定位: 定位id為007的div標籤
div_007 = tree.xpath('//div[@id="007"]')
print(div_007)
# 3.示例直接子節點與子孫節點:/, //
div_007_one = tree.xpath('//div[@id="007"]/text()')
print(div_007_one)
div_007_two = tree.xpath('//div[@id="007"]//text()')
print(div_007_two)
# 4.獲取a標籤的href屬性
a_href = tree.xpath('//div[@class="divtag"]/a/@href')
print(a_href)
# 4.多屬性定位: 根據class屬性和name屬性定位div標籤
div_two_attr = tree.xpath('//div[@class="c1" and @name="laoda"]/text()')
print(div_two_attr)
# 5.屬性多值定位: 定位所有class中有c1的div標籤
div_c1 = tree.xpath('//div[contains(@class, "c1")]')
# 6.按序定位
li_first = tree.xpath('//div[@class="divtag"]/ul/li[1]/text()') # 定位第一個li標籤, 獲取其文字
print(li_first)
li_last = tree.xpath('//div[@class="divtag"]/ul/li[last()]/text()') # 定位最後一個li標籤
print(li_last)
li_daotwo = tree.xpath('//div[@class="divtag"]/ul/li[last()-1]/text()') # 定位倒數第二個li標籤
print(li_daotwo)
li_qianthree = tree.xpath('//div[@class="divtag"]/ul/li[position()<4]/text()') # 定位前三個li標籤
print(li_qianthree)
# 作業:
1.爬取糗事百科, 熱門前兩頁的每一項標題, 詳情頁連結, 好笑指數及評論數
2.默寫
res = requests.get(url=url, headers=headers, params=params, proxies=proxies)
res = requests.post(url=url, headers=headers, data=data, proxies=proxies)
代理型別:
透明代理:
匿名代理:
高匿代理:
獲取響應資料內容:
res.text 獲取HTML文字
res.content 獲取二進位制流
res.json() 獲取json資料
xpath常用規則:
1. nodename: 節點名定位
2. //: 從當前節點選取子孫節點
3. /: 從當前節點選取直接子節點
4. nodename[@attribute="..."] 根據屬性定位標籤
5. @attributename: 獲取屬性
6. text(): 獲取文字