requests模組 & xpath解析庫

阿新 • • 發佈：2020-09-09

1.requests模組介紹

# requests模組介紹
對比:urllib使用麻煩
安裝: pip install requests

# 初體驗: 爬取搜狗首頁

2.requests傳送請求

1.requests的get請求:
# requests的簡單get請求
# requests.get + headers
# requests.get + headers + params
# requests.get + headers + params + proxy

import requests
url = '...'
headers = {
    "User-Agent 
":'...'
}
params = {
    'key': 'value'
}
proxies = {
    'http': 'http://127.0.0.1:8080'
    'https': 'http://127.0.0.1:8899'
}
res = requests.get(url=url, headers=headers, params=params, proxies=proxies)

# 代理:
    透明代理:
    匿名代理:
    高匿代理:

#第一種: 反爬機制與反反爬策略
    反爬機制: UA檢測
    反反爬策略: UA偽裝

2.requests的post請求: 知乎發現頁搜尋
 
import requests
url = '...'
headers = {
    "User-Agent":'...'
}
data = {
    'key': 'value'
}
proxy = {
    'http': 'http://127.0.0.1:8080',
    'https': 'http://127.0.0.1:8899'
}
res = requests.post(url=url, headers=headers, data=data, proxies=proxies)


3.響應資料

# 獲取響應資料內容:(重點)
        res.text        獲取HTML文字
        res.content     獲取二進位制流
        res.json()      獲取json資料
# 響應資料的屬性:
        res_code = res.status_code  # 響應狀態碼(*)
        res_headers = res.headers  # 響應頭資訊
        res_url = res.url  # 此響應對應的請求url
        res_cookie = res.cookies  # 響應的cookies(*)
        res_history = res.history  # 請求歷史

3.xpath解析庫

# Xpath解析庫介紹:
    資料解析的過程中使用過正則表示式, 但正則表示式想要進準匹配難度較高, 一旦正則表示式書寫錯誤, 匹配的資料也會出錯.
    網頁由三部分組成: HTML, Css, JavaScript, HTML頁面標籤存在層級關係, 即DOM樹, 在獲取目標資料時可以根據網頁層次關係定位標籤, 在獲取標籤的文字或屬性.

# xpath解析庫解析資料原理:
1. 根據網頁DOM樹定位節點標籤
2. 獲取節點標籤的正文文字或屬性值

# xpath安裝, 初體驗 --> 使用步驟:
1.xpath安裝: pip install lxml
2.requests模組爬取糗事百科熱門的標題:
import requests
from lxml import etree

url = 'https://www.qiushibaike.com/'
headers = {
    "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}

res = requests.get(url=url, headers=headers)

tree = etree.HTML(res.text)
title_lst = tree.xpath('//ul/li/div/a/text()')
for item in title_lst:
    print(item)
    
3.xpath使用步驟:
from lxml import etree

tree = etree.HTML(res.text)
tree = etree.parse(res.html, etree.HTMLParse())  # 示例如下, 瞭解內容

tag_or_attr = tree.xpath('xpath表示式')

# xpath解析本地檔案
import requests
from lxml import etree

url = 'https://www.qiushibaike.com/'
headers = {
    "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}

res = requests.get(url=url, headers=headers)
with open('qb.html', 'w', encoding='utf-8') as f:
    f.write(res.text)

tree = etree.parse('./qb.html', etree.HTMLParser())
title_lst = tree.xpath('//ul/li/div/a/text()')
for item in title_lst:
    print(item)

# xpath語法:
1.常用規則:
      1.  nodename:       節點名定位
      2.  //:             從當前節點選取子孫節點（任意位置）
      3.  /:              從當前節點選取直接子節點（根節點）
      4.  nodename[@attribute="..."]  根據屬性定位標籤
      5.  @attributename:  獲取屬性 
      6.  text():          獲取文字
     7.  .:當前節點          
8.屬性匹配兩種情況: 多屬性匹配 &  單屬性多值匹配  
     2.2 多屬性匹配（and ）
    示例: tree.xpath('//div[@class="item" and @name="test"]/text()')  
    2.1 單屬性多值匹配（contains）
    示例: tree.xpath('//div[contains(@class, "dc")]/text()')

3.按序選擇:
    3.1 索引定位: 從1開始
    3.2 last()函式（倒數）
    3.3 position()函式


解析示例: 示例解析的是本地檔案

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Xpath練習檔案</title>
</head>
<body>
<div id="007">
    "我是div標籤的文字內容, 和下面的p標籤還有div標籤是同級的哦"
    <p>這是p標籤內的文字內容</p>
    <div>這是p標籤同級的div標籤</div>
</div>

<div class="divtag">
    <ul>
        <li>第1個li標籤</li>
        <li>第2個li標籤</li>
        <li>第3個li標籤</li>
        <li>第4個li標籤</li>
        <li>第5個li標籤</li>
    </ul>
    <a href="https://www.baidu.com">這是百度的跳轉連線</a>
</div>


<div class="c1" name="laoda">老大在此</div>
<div class="c1 c3" name="laoer">老二任性, class有兩個值</div>
<div class="c1" name="laosan">我是老三</div>

</body>
</html>

from lxml import etree

tree = etree.parse('./x.html', etree.HTMLParser())

# 1.根據節點名, 即nodename定位title標籤, 獲取標籤內文字
title_text = tree.xpath('//title/text()')
print(title_text)

# 2.根據節點屬性定位: 定位id為007的div標籤
div_007 = tree.xpath('//div[@id="007"]')
print(div_007)

# 3.示例直接子節點與子孫節點:/, //
div_007_one = tree.xpath('//div[@id="007"]/text()')
print(div_007_one)
div_007_two = tree.xpath('//div[@id="007"]//text()')
print(div_007_two)

# 4.獲取a標籤的href屬性
a_href = tree.xpath('//div[@class="divtag"]/a/@href')
print(a_href)

# 4.多屬性定位: 根據class屬性和name屬性定位div標籤
div_two_attr = tree.xpath('//div[@class="c1" and @name="laoda"]/text()')
print(div_two_attr)

# 5.屬性多值定位: 定位所有class中有c1的div標籤
div_c1 = tree.xpath('//div[contains(@class, "c1")]')

# 6.按序定位
li_first = tree.xpath('//div[@class="divtag"]/ul/li[1]/text()')  # 定位第一個li標籤, 獲取其文字
print(li_first)

li_last = tree.xpath('//div[@class="divtag"]/ul/li[last()]/text()')  # 定位最後一個li標籤
print(li_last)

li_daotwo = tree.xpath('//div[@class="divtag"]/ul/li[last()-1]/text()')  # 定位倒數第二個li標籤
print(li_daotwo)

li_qianthree = tree.xpath('//div[@class="divtag"]/ul/li[position()<4]/text()')  # 定位前三個li標籤
print(li_qianthree)

# 作業:
1.爬取糗事百科, 熱門前兩頁的每一項標題, 詳情頁連結, 好笑指數及評論數
2.默寫
res = requests.get(url=url, headers=headers, params=params, proxies=proxies)
res = requests.post(url=url, headers=headers, data=data, proxies=proxies)
代理型別:
    透明代理:
    匿名代理:
    高匿代理:
    
獲取響應資料內容:
        res.text        獲取HTML文字
        res.content     獲取二進位制流
        res.json()      獲取json資料
xpath常用規則:
      1.  nodename:       節點名定位
      2.  //:             從當前節點選取子孫節點
      3.  /:              從當前節點選取直接子節點
      4.  nodename[@attribute="..."]  根據屬性定位標籤
      5.  @attributename:  獲取屬性 
      6.  text():          獲取文字

requests模組 & xpath解析庫

1.requests模組介紹 # requests模組介紹對比:urllib使用麻煩安裝: pip install requests # 初體驗: 爬取搜狗首頁

Python requests模組cookie例項解析

cookie並不陌生，與session一樣，能夠讓http請求前後保持狀態。與session不同之處，在於cookie資料僅保存於客戶端。requests也提供了相應到方法去處理cookie。

帶你瞭解python爬蟲requests模組&BeautifulSoup使用方式！

requests模組介紹相對於python自帶的urllib模組，requests模組提供了相對更高層的api來進行網頁訪問的工作。

Python標準庫shutil模組使用方法解析

shutil.rmtee 刪除目錄及以內的所有檔案。 import shutil shutil.rmtree(r\'D:\\python\\222\') #包括222在內的所有檔案全部刪除。

解析庫--XPath

from lxml import etree 2 text = \'\'\' 3 <div> 4 <ul> 5 <li class = \"item-0\"><a herf = \"link1.html\">first item</a></li>

linux安裝pil庫_Python小課教程：模組&amp;安裝第三方模組

技術標籤：linux安裝pil庫在Python中，安裝第三方模組，是通過包管理工具pip完成的。

Python爬蟲實戰，requests模組，Python模擬登入實現拉勾網資料解析

前言今天給大家帶來的是拉勾網模擬登入，讓我們愉快地開始吧~ 開發工具 ** Python版本：**3.6.4

Python解析庫lxml與xpath用法總結

本文主要圍繞以xpath和lxml庫進行展開：一、xpath 概念、xpath節點、xpath語法、xpath軸、xpath運算子

Requests(9)：Requests模組_SSL證書處理&關閉警告

證書處理（SSL Cert Verification）很多網站都是https,但是不用證書也可以訪問,大多數情況都是可以攜帶也可以不攜帶證書如知乎\\百度等都是可帶可不帶但有硬性要求的,則必須帶，比如對於定向的使用者,拿到證書後才

爬蟲介紹、requests模組使用、get地址中攜帶引數、請求頭、cookie、傳送post請求模擬登陸、響應物件、編碼問題、獲取二進位制資料、解析json、ssl認證、使用代理

今日內容概要爬蟲介紹 requests模組介紹，傳送get請求 get地址中攜帶引數攜帶請求頭

Python hmac模組使用例項解析

這篇文章主要介紹了Python hmac模組使用例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python getopt模組使用例項解析

這篇文章主要介紹了python getopt模組使用例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python hashlib加密模組常用方法解析

這篇文章主要介紹了Python hashlib加密模組常用方法解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python argparse模組應用例項解析

這篇文章主要介紹了Python argparse模組應用例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python hashlib模組加密過程解析

這篇文章主要介紹了Python hashlib模組加密過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python3離線安裝Requests模組問題

最近運維上需要在測試環境呼叫http的post請求，實現自動化日切，我看了下我會的程式設計，也就python能符合我的要求，且簡單好操作。但是在實際操作過程遇到了一些問題，其中最大的就是測試環境的機器是外網隔離的，

Python模組彙總(常用第三方庫)

模組定義計算機在開發過程中，程式碼越寫越多，也就越難以維護，所以為了編寫可維護的程式碼，我們會把函式進行分組，放在不同的檔案裡。在python裡，一個.py檔案就是一個模組

Python PyPDF2模組安裝使用解析

這篇文章主要介紹了Python PyPDF2模組安裝使用解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

go語言實現markdown解析庫的方法示例

Blackfriday是在Go中實現的Markdown處理器。您可以安全地輸入使用者提供的資料，速度快，支援通用擴充套件（表，智慧標點符號替換等），並且對於所有utf-8（unicode）都是安全的輸入。

Python requests模組基礎使用方法例項及高階應用(自動登陸,抓取網頁原始碼)例項詳解

1、Python requests模組說明 requests是使用Apache2 licensed 許可證的HTTP庫。用python編寫。

requests模組 & xpath解析庫

1.requests模組介紹

2.requests傳送請求

3.xpath解析庫

相關推薦