XPath簡單教程

阿新 • • 發佈：2021-11-03

　　本文參考：https://www.runoob.com/xpath/xpath-tutorial.html

　　分析標準xml文件可以使用SAX，DOM方法，但是針對Html文件例如網站原始檔，因為格式不是完全標準的xml文件，使用的SAX和DOM方法經常在匯入的時候報格式錯誤。分析html文件可以使用XPath

　　本文通過示例來分析XPath簡單應用

　　XPath簡介

　　XPath是一門在XML文件中查詢資訊的語言。

　　在學習前應該具備的知識

　　在您繼續學習之前，應該對下面的知識有基本的瞭解：

HTML / XHTML
XML / XML Namespaces

　　什麼是XPath

XPath使用路徑表示式在XML文件中進行導航

XPath包含一個標準函式庫
XPath是XSLT中的主要元素
XPtah是一個W3C標準

　　XPath節點

　　節點

　　在XPath中，有七種型別的節點：元素，屬性，文件，名稱空間，註釋以及文件（跟）節點。XML文件是被作為節點樹來對待的。樹的跟被稱為文件節點或者根節點。

　　請看下面這個XML文件：

<?xml version="1.0" encoding="UTF-8"?>

<bookstore>
  <book>
    <title lang="en">Harry Potter</title>
    <author>J K. Rowling</author>
    <year>2005</year>
    <price>29.99</price>
  </book>
</bookstore>

　　上面的XML文件中的節點例子

<bookstore> (文件節點)

<author>J K. Rowling</author> (元素節點)

lang="en" (屬性節點)

　　基本值

　　是無父或無子的節點

　　基本值的例子

J K. Rowling

"en"

　　專案（item）

　　專案是基本值或者節點

　　節點關係

　　父（Parent）

　　每個元素以及屬性都有一個父

　　在下面的列子中，book 元素是 title、author、year 以及 price 元素的父：

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

　　子（Children）

　　元素節點可有零個、一個或多個子。

　　在下面的例子中，title、author、year 以及 price 元素都是 book 元素的子：

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

　　同胞（Sibling）

　　擁有相同的父的節點

　　在下面的例子中，title、author、year 以及 price 元素都是同胞：

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

　　先輩（Ancestor）

　　某節點的父、父的父，等等。

　　在下面的例子中，title 元素的先輩是 book 元素和 bookstore 元素：

<bookstore>

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

</bookstore>

　　後代（Descendant）

　　某個節點的子，子的子，等等。

　　在下面的例子中，bookstore 的後代是 book、title、author、year 以及 price 元素：

<bookstore>

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

</bookstore>

　　XML例項文件

<?xml version="1.0" encoding="UTF-8"?>
 
<bookstore>
 
<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>
 
<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>
 
</bookstore>

　　選取節點

　　XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。下面列出了最有用的路徑表示式：

表示式	描述
nodename	選取此節點的所有子節點。
/	從根節點選取（取子節點）。
//	從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置（取子孫節點）。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。

　　在下面的表格中，我們已列出了一些路徑表示式以及表示式的結果：

ookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素 bookstore。註釋：假如路徑起始於正斜槓( / )，則此路徑始終代表到某元素的絕對路徑！
bookstore/book	選取屬於 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文件中的位置。
bookstore//book	選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麼位置。
//@lang	選取名為 lang 的所有屬性。

　　謂語（Predicates）

　　謂語用來查詢某個特定的節點或者包含某個指定的值的節點。

　　謂語被嵌在方括號中。

　　在下面的表格中，我們列出了帶有謂語的一些路徑表示式，以及表示式的結果：

路徑表示式	結果
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang='eng']	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00。
/bookstore/book[price>35.00]//title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。

　　選取未知節點

　　XPath 萬用字元可用來選取未知的 XML 元素。

萬用字元	描述
*	匹配任何元素節點。
@*	匹配任何屬性節點。
node()	匹配任何型別的節點。

　　在下面的表格中，我們列出了一些路徑表示式，以及這些表示式的結果：

路徑表示式	結果
/bookstore/*	選取 bookstore 元素的所有子元素。
//*	選取文件中的所有元素。
//title[@*]	選取所有帶有屬性的 title 元素。

　　選取若干路徑

　　通過在路徑表示式中使用"|"運算子，您可以選取若干個路徑。

　　在下面的表格中，我們列出了一些路徑表示式，以及這些表示式的結果：

路徑表示式	結果
//book/title \| //book/price	選取 book 元素的所有 title 和 price 元素。
//title \| //price	選取文件中的所有 title 和 price 元素。
/bookstore/book/title \| //price	選取屬於 bookstore 元素的 book 元素的所有 title 元素，以及文件中所有的 price 元素。

　　XPath運算子

　　下面列出了可用在 XPath 表示式中的運算子：

運算子	描述	例項	返回值
\|	計算兩個節點集	//book \| //cd	返回所有擁有 book 和 cd 元素的節點集
+	加法	6 + 4	10
-	減法	6 - 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等於	price=9.80	如果 price 是 9.80，則返回 true。如果 price 是 9.90，則返回 false。
!=	不等於	price!=9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.80，則返回 false。
<	小於	price<9.80	如果 price 是 9.00，則返回 true。如果 price 是 9.90，則返回 false。
<=	小於或等於	price<=9.80	如果 price 是 9.00，則返回 true。如果 price 是 9.90，則返回 false。
>	大於	price>9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.80，則返回 false。
>=	大於或等於	price>=9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.70，則返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，則返回 true。如果 price 是 9.50，則返回 false。
and	與	price>9.00 and price<9.90	如果 price 是 9.80，則返回 true。如果 price 是 8.50，則返回 false。
mod	計算除法的餘數	5 mod 2	1

　　XPath例項

　　下面通過一個例項來演示XPath的用法，把演示xml作為一個字串放到一個python文件裡面

　　books.xml

<?xml version="1.0" encoding="UTF-8"?>

<bookstore>

<book category="COOKING">
  <title lang="en">Everyday Italian</title>
  <author>Giada De Laurentiis</author>
  <year>2005</year>
  <price>30.00</price>
</book>

<book category="CHILDREN">
  <title lang="en">Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

<book category="WEB">
  <title lang="en">XQuery Kick Start</title>
  <author>James McGovern</author>
  <author>Per Bothner</author>
  <author>Kurt Cagle</author>
  <author>James Linn</author>
  <author>Vaidyanathan Nagarajan</author>
  <year>2003</year>
  <price>49.99</price>
</book>

<book category="WEB">
  <title lang="en">Learning XML</title>
  <author>Erik T. Ray</author>
  <year>2003</year>
  <price>39.95</price>
</book>

</bookstore>

　　選取所有title　　

　　use_xpath.py

books = '''
<?xml version="1.0" encoding="UTF-8"?>

<bookstore>

<book category="COOKING">
  <title lang="en">Everyday Italian</title>
  <author>Giada De Laurentiis</author>
  <year>2005</year>
  <price>30.00</price>
</book>

<book category="CHILDREN">
  <title lang="en">Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

<book category="WEB">
  <title lang="en">XQuery Kick Start</title>
  <author>James McGovern</author>
  <author>Per Bothner</author>
  <author>Kurt Cagle</author>
  <author>James Linn</author>
  <author>Vaidyanathan Nagarajan</author>
  <year>2003</year>
  <price>49.99</price>
</book>

<book category="WEB">
  <title lang="en">Learning XML</title>
  <author>Erik T. Ray</author>
  <year>2003</year>
  <price>39.95</price>
</book>

</bookstore>
'''
from lxml import etree
html = etree.HTML(books)
# 選取所有title
all_title = html.xpath('//bookstore/book/title')
print(all_title)

　　注意：本次把xml文件作為字串匯入到python檔案，多行文件使用''' ''' 且符號'''需要單獨佔一行不能和文件在同一行

　　以下語句匯入模組並且把文件轉換成xpath可以分析的lxml.etree._Element物件

from lxml import etree
html = etree.HTML(books)

　　程式碼解析

html.xpath('//bookstore/book/title') 
/ #第一個/程式碼從根目錄開始查詢
/bookstore/book/title # 查詢所有title節點

　　輸出如下，返回一個list分別為本次查到的4個title節點，也是一個lxml.etree._Element物件，如果沒有匹配到則返回空list

 [<Element title at 0x2893c8b5308>, <Element title at 0x2893c8b5548>, <Element title at 0x2893c8b5588>, <Element title at 0x2893c8b55c8>]

　　選取第一個book的title

first_book_title = html.xpath('//bookstore/book[1]/title')
print(first_book_title)

　　程式碼解析

//bookstore/book[1]/title
book[1] # 代表在bookstore下找到的第一個book
title # 在第一個book下繼續查詢所有title本次只有1個

　　返回list只有一個元素

[<Element title at 0x14290f15308>]

　　本次找的的是下面這個title

　　選取所有價格

# 獲取所有book的price值即書的價格
price_all_text = html.xpath('//bookstore/book/price/text()')
print(price_all_text)

　　程式碼解析

html.xpath('//bookstore/book/price/text()')
//bookstore/book/price # 從根目錄下找到所有price
text() # 找對應的price內部的值

　　輸出如下，返回一個list值為幾本書的價格

['30.00', '29.99', '49.99', '39.95']

　　即以下幾個值

　　找書的種類

# 找所有書的種類
book_category = html.xpath('//bookstore/book/@category')
print(book_category)

　　程式碼解析

//bookstore/book/@category
@category # @關鍵字用於選取屬性

　　即找一下對應屬性

　　以上分析xml為一個標準xml，如果是使用xpath分析html原始碼原理也是一樣的，把獲取到的html網頁原始碼使用etree.HTML(html)轉換成xpath可以分析的lxml.etree._Element物件然後再使用xpath分析即可。

XPath簡單教程

　　本文參考：https://www.runoob.com/xpath/xpath-tutorial.html 　　分析標準xml文件可以使用SAX，DOM方法，但是針對Html文件例如網站原始檔，因為格式不是完全標準的xml文件，使用的SAX和DOM方法經常在匯入的時

輕鬆開啟win10系統html檔案的簡單教程

眾所周知，html是超文字標記語言或超文字連結標示語言，現在大部分網頁都是html格式，所以應用非常廣泛。不少小夥伴說自己在win10系統不知道怎麼開啟HTML檔案？想要開啟html檔案並不會複雜，如果你不清楚開啟方法，一

yolov5 簡單教程

該庫代表Ultralytics對未來物件檢測方法的開源研究，並結合了以前的YOLO庫https://github.com/ultralytics/yolov3在自定義資料集上訓練了數千個模型而得到的最佳實踐。所有程式碼和模型都在積極的開發中，如有修改或

Thingsboard 簡單教程：使用 ThingsBoard 檢視物聯網資料

好東西分享給大家 ========================================================== 什麼是ThingsBoard？

2020年7月最新|一分鐘永久啟用Win10系統超簡單教程|更多神奇功能

2020年7月最新|一分鐘永久啟用Win10系統超簡單教程|更多神奇功能北緯37度的大飛2020-07-13 12:54:09

jstree 許可權樹簡單教程

第一 :引用.略過第二 : 初始化: 1 //初始化載入 2window.onload = function () { 3//獲取樹資訊 todo

部落格園隨機切換背景圖，超簡單教程

目錄一、前言二、準備工作三、實現程式碼四、結尾一、前言部落格園做的還是挺強大的，很多東西都支援自定義，比較適合喜歡瞎搗鼓的小夥伴。之前寫過一篇部落格園看板孃的教程，有興趣的小夥伴可以看一下：htt

pandas簡單教程1

pandas簡單教程1 Series import pandas as pd import numpy as np s = pd.Series([1,3,6,np.nan,44,1]) print(s)

利用樹莓派跑python爬蟲的簡單教程——從無到有

2019獨角獸企業重金招聘Python工程師標準>>> 利用樹莓派跑python爬蟲的簡單教程——從無到有

C# 爬蟲簡單教程

1、使用第三方類庫 HtmlAgilityPack 官方網址：https://html-agility-pack.net/?z=codeplex、

Jackson簡單教程

技術標籤：工作學習json 寫在最前 JSON的介紹就不過多介紹了，可以直接看w3c對JSON的簡短介紹 W3C-JSON 。這篇文章介紹的Jackson是JSON的一個類庫 .

Mysql8.0.17壓縮包安裝——超詳細簡單教程

來源：https://blog.csdn.net/qq_38264999/article/details/98858903 一、Mysql下載壓縮包下載：https://dev.mysql.com/downloads/mysql/

MarkDown簡單教程

1. 工具 typro 點我進入下載頁面工欲善其事,必先利其器，typro是一個很好的編輯利器

cod18使命召喚：先鋒PC端測試最簡單教程網易UU加速器限時免費加速

《使命召喚18》PS平臺獨佔測試已經結束，9月16日至9月17日將會開啟跨平臺測試，Xbox/pc平臺預購玩家和所有PS平臺玩家都可以參與，9月18日至9月20日全平臺玩家均可參與測試。本次測試時間較短，想要儘快下載，搶先體驗

helm簡單教程

一、helm簡單介紹 Helm是k8s的包管理工具。我們在使用k8s部署服務的時候，經常要建立多個資源物件，並且這些資源物件可能還有先後順序，部署起來會比較麻煩。如果服務需要提供給其他人部署使用，那對大家都是一場災

用vscode開發除錯golang超簡單教程

目錄一、下載並安裝vscode 二、安裝Go外掛三、下載除錯工具四、開啟現有go工程資料夾或新建go專案即可進行除錯

.NET CLI簡單教程和專案結構

.NET CLI是.NET官方的一個命令列工具。本文將介紹.NET CLI的幾個主要的命令。並通過這幾個命令來了解.NET控制檯程式的專案結構。

一起來拍中國空間站，超簡單教程送給你

北京、遼寧、山西、四川、湖北、廣東…… 近日，中國空間站飛過祖國大地上空。“那是我們中國的空間站！10 月 16 日，神舟十三號飛船搭載三名航天員，進駐到我國自己的空間站，開啟了為期六個月的在軌駐留。和其他人

github簡單教程

1、註冊一個賬號，可以用國內的郵箱。以 [email protected] 為例。 2、在github上新建一個倉庫，名稱就用test，假設github的使用者名稱是：abc，則該倉庫地址：https://github.com/abc/test

unity 動畫系統簡單教程

demo倉庫 https://github.com/wyy5552/lifecycle 前言 unity動畫根據使用方式劃分，分為兩種：一種是Animation，一種是Animator。其中Animation可以實現一些基本的動畫操作，如果要製作複雜的，比如動畫有各種狀態切

XPath簡單教程

XPath簡介

在學習前應該具備的知識

什麼是XPath

XPath節點

節點

基本值

專案（item）

節點關係

父（Parent）

子（Children）

同胞（Sibling）

先輩（Ancestor）

後代（Descendant）

XML例項文件

選取節點

謂語（Predicates）

選取未知節點

選取若干路徑

XPath運算子

XPath例項

選取所有title

選取第一個book的title

選取所有價格

找書的種類

相關推薦

　　XPath簡介

　　在學習前應該具備的知識

　　什麼是XPath

　　XPath節點

　　節點

　　基本值

　　專案（item）

　　節點關係

　　父（Parent）

　　子（Children）

　　同胞（Sibling）

　　先輩（Ancestor）

　　後代（Descendant）

　　XML例項文件

　　選取節點

　　謂語（Predicates）

　　選取未知節點

　　選取若干路徑

　　XPath運算子

　　XPath例項

　　選取所有title　　

　　選取第一個book的title

　　選取所有價格

　　找書的種類