初入xpath

阿新 • • 發佈：2020-07-04

寫在前面

在獲取到伺服器響應（HTML原始碼）之後，我們可以通過正則來提取想要的資訊，但是編寫正則太過麻煩，也容易出錯。然而強大的python有強大的解析庫，可以供苦逼的碼農食用，例如lxml, beautiful Soup. pyquery等，通過這些解析庫，就可以根據網頁的ID ，class等屬性或者節點之間的層次關係來獲取想要的資料。

這篇水文，寫的是通過lxml庫來實現用XPath來提取需要的資訊。

#windows平臺下安裝
pip3 install lxml

注

XPath，全稱XML path Language，即XML路徑語言，它是一門在XML文件中查詢資訊的語言，但是它同樣適用於HTML文件的查詢資訊。

1.初始化xpath物件

想要用XPath在HTML原始碼中提取想要的資訊，需要用etree模組對HTML原始碼進行初始化構造XPath物件。

情景1 —— 對HTML字串進行初始化

html = etree.HTML(text)

註釋

etree.HTML():構造了一個XPath解析物件並對HTML文字進行自動修正。

demo

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
#初始化一個xpath物件
html = etree.HTML(text)
#利用etree.tostring()方法進行轉換稱為字串進行輸出，不過卻是tytes型別的,用decode轉成str型別。
result = etree.tostring(html).decode('utf-8')
print(result)
""" 
輸出 
<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li></ul>
 </div>
</body></html>
"""

情景2 —— 對HTML文件進行格式化

html = etree.parse('./text.html_path',etree.HTMLParser())

2.xpath常用規則

表示式	描述
nodename	選取此節點的所有子節點
/	選取當前節點的所有子節點
//	選取當前節點的所有子孫節點
.	選取當前節點
..	選取當前節點的父節點
@	選取屬性
[@attrib_name='value‘]	選取具有屬性attrib_name屬性並且值等於value屬性的元素

3.XPath篩選資料基礎

result = html.xpath('匹配規則')

註釋

所有滿足要求的元素物件以列表的形式返回。

（1)獲取所有節點

result = html.xpath('//*')

demo

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
element = html.xpath("//*")  #單雙引號都可以
print(len(element)) #輸出14
print(element) #以列表的形式輸出所有滿足要求的元素

""" [<Element html at 0x2ab2b37c1c0>, <Element body at 0x2ab2b6a9b40>,
 <Element div at 0x2ab2b6a9bc0>, <Element ul at 0x2ab2b6a9c80>,
  <Element li at 0x2ab2b6a9cc0>, <Element a at 0x2ab2b6a9d40>,
   <Element li at 0x2ab2b6a9d80>, <Element a at 0x2ab2b6a9dc0>,
    <Element li at 0x2ab2b6a9e00>, <Element a at 0x2ab2b6a9d00>,
 <Element li at 0x2ab2b6a9e40>, <Element a at 0x2ab2b6a9e80>, 
 <Element li at 0x2ab2b6a9ec0>, <Element a at 0x2ab2b6a9f00>] 
 """

(2)獲取指定元素

指定元素名來獲取

result = html.xpath('//element_name')

demo —— 獲取所有的li元素

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''

html = etree.HTML(text)
element = html.xpath("//li")  #單雙引號都可以
print(len(element))   #s輸出 5
print(element)
"""
輸出

 [<Element li at 0x1d9476a9a40>,
 <Element li at 0x1d9476a9ac0>, 
 <Element li at 0x1d9476a9b80>, 
 <Element li at 0x1d9476a9bc0>,
<Element li at 0x1d9476a9c00>] 
  """

(3)獲取子節點

通過/或著//即可查詢元素的子節點或子孫節點。

demo —— 獲取a節點

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)

#方法一 ： 通過子節點的方式
element = html.xpath("//li/a")  #單雙引號都可以
print(len(element)) 
print(element)

#方法二： 通過孫節點的方式
element = html.xpath("//ul//a")  #單雙引號都可以
print(len(element))  
print(element)

""" 
都輸出
5
[<Element a at 0x16ee8cb9b00>, 
<Element a at 0x16ee8cb9b80>,
 <Element a at 0x16ee8cb9c40>, 
 <Element a at 0x16ee8cb9c80>, 
 <Element a at 0x16ee8cb9cc0>]
 """

（4）屬性匹配

在選取資訊的時候可以用@符號和中括號[ ]進行屬性的過濾。

demo —— 選取class屬性等於item-inactive的li

```
from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)

#方法一 ： 通過子節點的方式
element = html.xpath("//li[@class='item-inactive']")  #單雙引號都可以
print(len(element)) 
print(element)
""" 
輸出
1
[<Element li at 0x211c9da9b00>]
"""

（5)獲取文字

用XPath中的text（）方法獲取節點中的文字。

demo

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
element = html.xpath("//li[@class='item-inactive']/a/text()")  
print(element)
""" 
輸出
['third item']
 """

注

用XPath中text（）方法來獲取文字，可能會包括一些不需要的其他文字，比如換行符（\n）

(6)獲取屬性

前面提到了，用關鍵字@來進行class屬性篩選，這裡屬性的獲取也是用關鍵字@。

demo

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
element = html.xpath("//li/a/@href")  
print(element)
""" 
輸出
['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
 """

注

屬性獲取和屬性篩選的對比

名稱	描述
屬性獲取	屬性獲取直接是@加屬性名稱
屬性篩選	屬性篩選用中括號來限制怕[@class='value']

4.XPath篩選資料進階

（1）屬性多值匹配

有時候，某些節點某個屬性可能會有多個值例如

<li class="li li-first"><a href="link.html">first item</a></li>

如果用之前篩選屬性的方法來篩選的話會解析不到該節點。

from lxml import etree
text = '<li class="li li-first"><a href="link.html">first item</a></li>'
html = etree.HTML(text)
result = html.xpath("//li[@class='li']//text()")
print(result)#輸出 []

這時候就要用到contains(@屬性名稱，值)函式，程式碼改寫如下：

from lxml import etree
text = '<li class="li li-first"><a href="link.html">first item</a></li>'
html = etree.HTML(text)
result = html.xpath("//li[contains(@class,'li')]//text()")
print(result)#輸出 [['first item']]

等效於

from lxml import etree
text = '<li class="li li-first"><a href="link.html">first item</a></li>'
html = etree.HTML(text)
#把屬性的多個值都寫上
result = html.xpath('//li[@class="li li-first"]//text()')
print(result)#輸出 [['first item']]

（2）多屬性的匹配

有時候還會遇到多個屬性確定一個節點的情況，例如

<!-- 同時具有class屬性和name屬性 -->
<li class="li li-first" name="item"><a href="link.html">first item</a></li>

這個時候就要用到運算子and來連線兩個條件

from lxml import etree
text = '<li class="li li-first" name="item"><a href="link.html">first item</a></li>'
html = etree.HTML(text)
result = html.xpath('//li[contains(@class,"li")and@name="item"]//text()')
print(result)#輸出 ['first item']

其他XPath運算子

運算子	描述
or	或
amd	與
mod	取餘
\|	交集
+	數值加法
-	數值減法
*	乘法
div	除法
=	等於
！=	不等於
<	小於
>	大於
>=	大於等於

（3）按序選擇

有時候，我們在選擇的時候某些屬性可能同時匹配了多個節點，但是隻想要其中的某個節點，如第二個節點或者最後一個節點，可以利用中括號傳入索引的方法獲取特定次序的節點。

from lxml import etree
text = text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">one</a></li>
         <li class="item-1"><a href="link2.html">two</a></li>
         <li class="item-inactive"><a href="link3.html">three</a></li>
         <li class="item-1"><a href="link4.html"> four</a></li>
         <li class="item-0"><a href="link5.html">five</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
#返回第一個li裡的a的文字
one = html.xpath('//li[1]//a/text()')
print(one) #輸出 ['one']
#選取前三個
two=html.xpath('//li[position()<=3]/a/text()')
print(two) #輸出 ['one', 'two', 'three']
#選取最後一個
last = html.xpath('//li[last()]/a/text()')
print(last) #輸出['five']
#選取倒數第二個
four = html.xpath('//li[last()-1]/a/text()')
print(four) #輸出[' four']

注

括號裡面的數字是從1開始的。

（4）節點軸選擇

XPath提供了很多節點軸選擇方法，包括獲取子元素，兄弟元素，父元素，祖先元素等。

from lxml import etree
text = text = '''
<div>
    <ul>
         <li class="item-0" name='one'><a href="link1.html">one</a></li>
         <li class="item-1"><a href="link2.html">two</a></li>
         <li class="item-inactive"><a href="link3.html">three</a></li>
         <li class="item-1"><a href="link4.html"> four</a></li>
         <li class="item-0"><a href="link5.html">five</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
#選取第一個li的所有祖先節點
result = html.xpath('//li[1]/ancestor::*')
print(result) 
'''
[<Element html at 0x28c1a0dd140>,
 <Element body at 0x28c1a3e99c0>, 
 <Element div at 0x28c1a3e9a80>, 
 <Element ul at 0x28c1a3e9ac0>]
'''
#選取第一個li的div祖先
result = html.xpath('//li[1]/ancestor::div')
print(result) #輸出 [<Element div at 0x2e75ee89bc0>]

#選取當前節點的所有屬性值
result = html.xpath('//li[1]/attribute::*')
print(result) #輸出 ['item-0', 'one']
#獲取子孫節點中的a節點
result = html.xpath('//li[1]/child::a//text()')
print(result) #輸出 ['one']

更多軸用法

摘自【Python 3網路爬蟲開發實戰 ,崔慶才著】

內容有所改動

初入xpath

寫在前面在獲取到伺服器響應（HTML原始碼）之後，我們可以通過正則來提取想要的資訊，但是編寫正則太過麻煩，也容易出錯。然而強大的python有強大的解析庫，可以供苦逼的碼農食用，例如lxml, beautiful Soup. pyque

Core WebApi專案快速入門（一）：初入窺探

1.WebApi新建與部署 1.1 新建Core WebApi工程 1.2 部署 1.2.1 IIS部署首先以檔案方式釋出應用程式，然後下載依賴.net core執行時及host安裝包

初入DApp——配置環境到差點放棄的辛酸血淚

本文沒有乾貨，只是一個記錄（防止以後……），並且通過寫一篇水文發洩我心中積鬱的情緒！！！！！

初入MongoDB

初入MongoDB 業務需求，需要用到MongoDB。向來一直是mysql資料庫的思想，一下轉換為nosql還是很不適應。經過一個月的開發，寫一下自己的感觸。本文會對應mysql資料庫進行說明。

研究生學習——初入中國科學院大學一個月

距離研究生入學報到，我已經進京一個月了。來到中國科學院大學，這個夢裡曾夢到過無數次，心心念念都想來的地方。附上今年剛入學報到送的筆袋(直男拍照技術，莫吐槽)：

初入Linux的知識1

一：shell是什麼 1：Linux系統中執行的一種特殊程式 2：在使用者和核心之間充當“翻譯官” 3：使用者登入Linux系統時，自動載入一個Shell程式 4：Bash是Linux系統中預設使用的Shell程式

程式設計師初入職場避坑指南，小白要注意

當你離開大學或者是培訓機構初入職場，都會有一種莫名的無助和迷茫感，這表示你從一個小小的新手進入了世界最難的生存模式，而你卻只有編寫程式碼這一個技能。你要從一無所有到有車有房，結婚生子，功成名就

EntityFramework初入

//NuGet包管理，搜尋引入 EntityFramework6 、Newtonsoft //使用： using System; using System.Collections.Generic;

初入Redis

一、背景以前也看過一點Redis的內容，現在詳細的介紹一下。二、介紹 1.Redis是完全開源的資料庫，遵從BSD協議，是一個高效能的key-value資料庫。Redis的優勢：

如何通過一個SDK輕鬆搞定人臉識別，拯救初入職場的程式猿

摘要：看一個SDK如何拯救初入職場的程式猿小Hi… 【職場初體驗】時間過得真快，距離上次給小Hi安排“人臉識別”的開發任務(話接上期：【快速玩轉華為雲開發】小Hi拍了拍你，基於華為雲API的開發你Get到了嗎？)已經過

深入react技術棧-初入react

1.virtual DOM 傳統頁面開發模式中，都是對真實的dom進行操作，耗費大量的效能。而react將真實dom樹轉換成虛擬dom,每一次更新都與原來的虛擬dom進行diff比對來進行更新，對於改變的部分來進行批量更新，節約了效能

菜鳥架構師之路_初入社會

接下來的文章，我會先回顧我從出校園踏入社會後的個人經歷，從一個菜鳥的視角來看，如何一步步登堂入室。由於自己最近又有點飄了，所以文章是除了給大夥看，也更是給自己看的哈哈。可能大家更想看技術類的文章，但

Spring初入及Bean標籤

1.spring的優勢方便解耦，簡化開發 AOP程式設計的支援宣告式事物的支援方便程式的測試

【VRCHAT】初入。

終於能好好的玩耍了，但新奇之餘總有些不安，但沒個人都很友善！！！

初入Sql Server 之Microsoft SQL Server Management Studio的簡單使用

SSMS的使用一、前言　　每次學到的東西，僅僅只是看懂或者會用，總感覺還是不夠，正所謂好記性不如爛筆頭，接下來就簡單的記錄一下Sql Server 的學習過程，就當是對每次學習的總結和留下的一些痕跡吧

初入Sql Server 之表的初識及使用

一、表的簡介　　表是資料庫的最小單位，一個數據庫包含多張表，表的結構與Excel相似，欄位就是Excel的表頭，但也只是形式上的相似。在設計表的時候，需要設定每個欄位的資料型別，可以把表中的資料看作物件，資料庫

初入職場程式設計師指南

很多初入職場的程式設計師朋友，可能很長一段時間都在重複下面的過程：組長分配一個任務 --> 你埋頭寫程式碼 --> 收到 Bug 反饋 --> 你埋頭改程式碼 ...

《原神攻略》方入巨淵初勘探任務攻略

《原神》是2.6版本的主線任務部分，該任務階段需要尋找的東西有很多，想要知道道具位置的玩家請看下面“Slothw”帶來的《原神》方入巨淵初勘探任務攻略，希望能夠幫助大家。

Xcode 11 初體驗

今天更新了 Xcode 11 感覺很不錯（主要很多陌生的東西，但是很有意思）！這裡跟大家一起分享一下！前面翻譯過一篇官方文件：但是大家紛紛反饋看不懂，其實大家更希望看到就是一些帶著更新去操作的東西。趁著最新更

帶你入坑大資料（一） --- HDFS基礎概念篇

前言從零開始的高併發系列我們已經把 zookeeper 給更新完了，順帶一提之前的zookeeper並沒有結合大資料來進行說明。重新開個坑一方面是一直都想找個理由來總結一下大資料方面的東西，另一方面則是抓住時代的走向吧，

初入xpath

寫在前面

1.初始化xpath物件

2.xpath常用規則

3.XPath篩選資料基礎

（1)獲取所有節點

(2)獲取指定元素

(3)獲取子節點

（4）屬性匹配

（5)獲取文字

(6)獲取屬性

4.XPath篩選資料進階

（1）屬性多值匹配

（2）多屬性的匹配

（3）按序選擇

（4）節點軸選擇

相關推薦