XML之XPath

阿新 • • 發佈：2018-04-10

屬於 soft 大於 pos ttr 根據包括 cgo 分割

1.在 XPath 中，有七種類型的節點：元素、屬性、文本、命名空間、處理指令、註釋以及文檔節點（或稱為根節點）。

1.1

XPath 術語

節點（Node）

在 XPath 中，有七種類型的節點：元素、屬性、文本、命名空間、處理指令、註釋以及文檔（根）節點。XML 文檔是被作為節點樹來對待的。樹的根被稱為文檔節點或者根節點。

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="en">Harry Potter</ 
title>
  <author>J K. Rowling</author> 
  <year>2005</year>
  <price>29.99</price>
</book>

</bookstore>

上面的XML文檔中的節點例子：

<bookstore> （文檔節點）
<author>J K. Rowling</author> （元素節點）
lang="en" （屬性節點）

基本值（或稱原子值，Atomic value）

基本值是無父或無子的節點。

基本值的例子：

J K. Rowling
"en"

項目（Item）

項目是基本值或者節點。

節點關系

父（Parent）

每個元素以及屬性都有一個父。

在下面的例子中，book 元素是 title、author、year 以及 price 元素的父：

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price 
>
</book>

子（Children）

元素節點可有零個、一個或多個子。

在下面的例子中，title、author、year 以及 price 元素都是 book 元素的子：

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

同胞（Sibling）

擁有相同的父的節點

在下面的例子中，title、author、year 以及 price 元素都是同胞：

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

先輩（Ancestor）

某節點的父、父的父，等等。

在下面的例子中，title 元素的先輩是 book 元素和 bookstore 元素：

<bookstore>

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

</bookstore>

後代（Descendant）

某個節點的子，子的子，等等。

在下面的例子中，bookstore 的後代是 book、title、author、year 以及 price 元素：

<bookstore>

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

</bookstore>

2. XPath 使用路徑表達式來選取 XML 文檔中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的。

XML 實例文檔

我們將在下面的例子中使用這個 XML 文檔。

<?xml version="1.0" encoding="ISO-8859-1"?>

<booksto.....................................................re>

<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

選取節點

XPath 使用路徑表達式在 XML 文檔中選取節點。節點是通過沿著路徑或者 step 來選取的。

下面列出了最有用的路徑表達式：

表達式	描述
nodename	選取此節點的所有子節點。
/	從根節點選取。
//	從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。

實例

在下面的表格中，我們已列出了一些路徑表達式以及表達式的結果：

路徑表達式	結果
bookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素 bookstore。註釋：假如路徑起始於正斜杠( / )，則此路徑始終代表到某元素的絕對路徑！
bookstore/book	選取屬於 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文檔中的位置。
bookstore//book	選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麽位置。
//@lang	選取名為 lang 的所有屬性。

謂語（Predicates）

謂語用來查找某個特定的節點或者包含某個指定的值的節點。

謂語被嵌在方括號中。

實例

在下面的表格中，我們列出了帶有謂語的一些路徑表達式，以及表達式的結果：

路徑表達式	結果
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang=‘eng‘]	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00。
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。

選取未知節點

XPath 通配符可用來選取未知的 XML 元素。

通配符	描述
*	匹配任何元素節點。
@*	匹配任何屬性節點。
node()	匹配任何類型的節點。

實例

在下面的表格中，我們列出了一些路徑表達式，以及這些表達式的結果：

路徑表達式	結果
/bookstore/*	選取 bookstore 元素的所有子元素。
//*	選取文檔中的所有元素。
//title[@*]	選取所有帶有屬性的 title 元素。

選取若幹路徑

通過在路徑表達式中使用“|”運算符，您可以選取若幹個路徑。

實例

在下面的表格中，我們列出了一些路徑表達式，以及這些表達式的結果：

路徑表達式	結果
//book/title \| //book/price	選取 book 元素的所有 title 和 price 元素。
//title \| //price	選取文檔中的所有 title 和 price 元素。
/bookstore/book/title \| //price	選取屬於 bookstore 元素的 book 元素的所有 title 元素，以及文檔中所有的 price 元素。

XPath Axes（軸）

XML 實例文檔

我們將在下面的例子中使用此 XML 文檔：

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

XPath 軸

軸可定義相對於當前節點的節點集。

軸名稱	結果
ancestor	選取當前節點的所有先輩（父、祖父等）。
ancestor-or-self	選取當前節點的所有先輩（父、祖父等）以及當前節點本身。
attribute	選取當前節點的所有屬性。
child	選取當前節點的所有子元素。
descendant	選取當前節點的所有後代元素（子、孫等）。
descendant-or-self	選取當前節點的所有後代元素（子、孫等）以及當前節點本身。
following	選取文檔中當前節點的結束標簽之後的所有節點。
namespace	選取當前節點的所有命名空間節點。
parent	選取當前節點的父節點。
preceding	選取文檔中當前節點的開始標簽之前的所有節點。
preceding-sibling	選取當前節點之前的所有同級節點。
self	選取當前節點。

位置路徑表達式

位置路徑可以是絕對的，也可以是相對的。

絕對路徑起始於正斜杠( / )，而相對路徑不會這樣。在兩種情況中，位置路徑均包括一個或多個步，每個步均被斜杠分割：

絕對位置路徑：

/step/step/...

相對位置路徑：

step/step/...

步的語法：

軸名稱::節點測試[謂語]

實例

例子	結果
child::book	選取所有屬於當前節點的子元素的 book 節點。
attribute::lang	選取當前節點的 lang 屬性。
child::*	選取當前節點的所有子元素。
attribute::*	選取當前節點的所有屬性。
child::text()	選取當前節點的所有文本子節點。
child::node()	選取當前節點的所有子節點。
descendant::book	選取當前節點的所有 book 後代。
ancestor::book	選擇當前節點的所有 book 先輩。
ancestor-or-self::book	選取當前節點的所有 book 先輩以及當前節點（如果此節點是 book 節點）
child::*/child::price	選取當前節點的所有 price 孫節點。

XPath 運算符

下面列出了可用在 XPath 表達式中的運算符：

運算符	描述	實例	返回值
\|	計算兩個節點集	//book \| //cd	返回所有擁有 book 和 cd 元素的節點集
+	加法	6 + 4	10
-	減法	6 - 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等於	price=9.80	如果 price 是 9.80，則返回 true。如果 price 是 9.90，則返回 false。
!=	不等於	price!=9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.80，則返回 false。
<	小於	price<9.80	如果 price 是 9.00，則返回 true。如果 price 是 9.90，則返回 false。
<=	小於或等於	price<=9.80	如果 price 是 9.00，則返回 true。如果 price 是 9.90，則返回 false。
>	大於	price>9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.80，則返回 false。
>=	大於或等於	price>=9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.70，則返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，則返回 true。如果 price 是 9.50，則返回 false。
and	與	price>9.00 and price<9.90	如果 price 是 9.80，則返回 true。如果 price 是 8.50，則返回 false。
mod	計算除法的余數	5 mod 2	1

XPath 實例

XML實例文檔

我們將在下面的例子中使用這個 XML 文檔：

"books.xml" :

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book category="COOKING">
  <title lang="en">Everyday Italian</title>
  <author>Giada De Laurentiis</author>
  <year>2005</year>
  <price>30.00</price>
</book>

<book category="CHILDREN">
  <title lang="en">Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

<book category="WEB">
  <title lang="en">XQuery Kick Start</title>
  <author>James McGovern</author>
  <author>Per Bothner</author>
  <author>Kurt Cagle</author>
  <author>James Linn</author>
  <author>Vaidyanathan Nagarajan</author>
  <year>2003</year>
  <price>49.99</price>
</book>

<book category="WEB">
  <title lang="en">Learning XML</title>
  <author>Erik T. Ray</author>
  <year>2003</year>
  <price>39.95</price>
</book>

</bookstore>

加載 XML 文檔

所有現代瀏覽器都支持使用 XMLHttpRequest 來加載 XML 文檔的方法。

針對大多數現代瀏覽器的代碼：

var xmlhttp=new XMLHttpRequest()

針對古老的微軟瀏覽器（IE 5 和 6）的代碼：

var xmlhttp=new ActiveXObject("Microsoft.XMLHTTP")

選取節點

不幸的是，Internet Explorer 和其他處理 XPath 的方式不同。

在我們的例子中，包含適用於大多數主流瀏覽器的代碼。

Internet Explorer 使用 selectNodes() 方法從 XML 文檔中的選取節點：

xmlDoc.selectNodes(xpath);

Firefox、Chrome、Opera 以及 Safari 使用 evaluate() 方法從 XML 文檔中選取節點：

xmlDoc.evaluate(xpath, xmlDoc, null, XPathResult.ANY_TYPE,null);

選取所有 title

下面的例子選取所有 title 節點：

/bookstore/book/title

選取第一個 book 的 title

下面的例子選取 bookstore 元素下面的第一個 book 節點的 title：

/bookstore/book[1]/title

這裏有一個問題。上面的例子在 IE 和其他瀏覽器中輸出不同的結果。

IE5 以及更高版本將 [0] 視為第一個節點，而根據 W3C 的標準，應該是 [1]。

為了解決 IE5+ 中 [0] 和 [1] 的問題，可以為 XPath 設置語言選擇（SelectionLanguage）。

下面的例子選取 bookstore 元素下面的第一個 book 節點的 title：

xml.setProperty("SelectionLanguage","XPath");
xml.selectNodes("/bookstore/book[1]/title");

選取所有價格

下面的例子選取 price 節點中的所有文本：

/bookstore/book/price/text()

選取價格高於 35 的 price 節點

下面的例子選取價格高於 35 的所有 price 節點：

/bookstore/book[price>35]/price

選取價格高於 35 的 title 節點

下面的例子選取價格高於 35 的所有 title 節點：

/bookstore/book[price>35]/title

XML之XPath

屬於 soft 大於 pos ttr 根據包括 cgo 分割 1.在 XPath 中，有七種類型的節點：元素、屬性、文本、命名空間、處理指令、註釋以及文檔節點（或稱為根節點）。 1.1 XPath 術語節點（Node）在 XPath 中，有七種類型的節點：元

Python之爬蟲-- XML與XPath

XML XML(EXtensibleMarkupLanguage) 學習文件： http://www.w3school.com.cn/xml/index.asp 案例1 概念：父節點，子節點，先輩節點，兄弟節點，後代節點案例

dom4j之xpath解析xml

Xpath解析 Xpath是xml文件中元素的唯一路徑，通過該路徑能找到一個或多個Element，與html的xpath有類似的存在意義。dom4j中可以通過getUniquePath()獲取當前元素的Xpath。 # dom4j中有三個方法可以用於xpath查詢，dom4j-1

xml+dom4j+xpath學生管理系統

cnblogs utf ext exc xpath ring remove lec code <?xml version="1.0" encoding="UTF-8"?> <student> <stu> <nam

XML之命名空間的作用(xmlns)

目標 struts ava 會同 encoding def add 轉載 get http://www.w3school.com.cn/xml/xml_namespaces.asp http://blog.csdn.net/zhch152/article/details/8

Python通過lxml庫遍歷xml通過xpath查詢（標簽，屬性名稱，屬性值，標簽對屬性）

style 去掉 odi 之間 [] 符號層次結構 div amp xml實例：版本一： <?xml version="1.0" encoding="UTF-8"?><country name="chain"><provinces>

XML之schema

cnblogs 存在 src 缺點 alt complex es2017 支持 bsp DTD雖然簡潔，但是存在缺點（1、不支持命名空間，2、支持數據類型很少，3、DTD不可擴展，4、DTD不遵循XML規範），因此需要通過schema來解決DTD的不足。在使用schema時

Python爬蟲利器三之Xpath語法與lxml庫的用法

blank color idt tab 一段並且 .text rst 基本用法前面我們介紹了 BeautifulSoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 Xpath 語法，同樣是效率比較高的解析方法。如果大家

Java 操縱XML之修改XML文件

dom nsf class port 源代碼 and transform 輸出 system Java 操縱XML之修改XML文件一、JAVA DOM PARSER DOM interfaces　　The DOM defines several Java interfac

xml 之第一課

utf 修改標記屬性包含解決應用低版本 OS 一、xml的應用 *不同的系統之間傳輸數據 *用來表示生活中有關的數據 *經常用來配置文件二、xml的語法（1）xml的文檔聲明 *創建一個文件後綴名(.xml) *第一步

四：RF框架appium工具之xpath定位

路徑 xpath 屬性 cnblogs path 方法總結書寫格式 logs 元素 XPATH定位方法具體的學會，還是在今年1月份，以前運用的都不熟練。這個定位神器是一定要掌握的，不然有你抓狂的時候。第一要掌握它的書寫格式，這個好上手。第二要掌握它的具體用法。這個就

XML之自動生成類，添加，修改，刪除類的屬性

pes 表示創建 BE gen name 待完善 ica bsp 1. class ClassHelperDemo { public static void Main() { #re

python+selenium基礎之XPATH定位

方式沒有基礎元素 w3c com pytho round con 世界上最遠的距離大概就是明明看到一個頁面元素矗在那裏，但是我卻定位不到！！ selenium定位元素的方法有很多種，像是通過id、name、class_name、tag_name、link_text

爬蟲之Xpath詳解

name 指令 pan 語法 pre lin item school 分享 XPath介紹 XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。 XPath 是 W3C XSLT 標準的主要元素，並且 XQuer

scrapy基礎之 xpath網頁結構

5.0 sel books category 層級 enc descend ray 基礎 1 ，什麽是xpath XPath 是一門在 XML 文檔中查找信息的語言。XML是一種類似於HTML的傳輸協議 2，節點 XPath 中，有七種類型的節點：元素、屬性

selenium之xpath定位

語言過濾 lang 部分 xpath定位神器標簽 XML 定位由於最新版火狐不在支持FireBug等開發工具，可以通過https://ftp.mozilla.org/pub/firefox/releases/ 下載49版本以下的火狐就可以增加Firebug等擴展了。

爬蟲學習之-xpath

path aid ebr ast 函數文本通過 passport attr sel 1、XPATH使用方法使用XPATH有如下幾種方法定位元素（相比CSS選擇器，方法稍微多一點）： a、通過絕對路徑定位元素（不推薦！） WebElement ele = driver

數據解析之Xpath解析

htm 文本 from ctrl start [1] 本地文件 title 拖動一，Xpath基本語法安裝使用： 1.下載：pip install lxml 2.導包：from lxml import etree 3.將html文檔或者xml文檔轉換成一

Selecnium之Xpath例項總結

1、XPATH是什麼 XPATH是一門在XML文件中查詢資訊的語言，XPATH可用來在XML文件中對元素和屬性進行遍歷，主流的瀏覽器都支援XPATH，因為HTML頁面在DOM中表示為XHTML文件。 XPATH語言是基於XML文件的樹結構，並提供了瀏覽樹的能力，通過多樣的標準來選擇節點。Sele

Python 爬蟲開發之xpath使用

在進行爬蟲開發中，需要的頁面資訊進行解析處理，獲取到需要的關鍵資料。可以利用xpath進行對頁面的xml檔案進行解析處理，獲取到需要的關鍵資料。XPath使用:XPath 可用來在 XML 文件中對元素和屬性進行遍歷.from lxml import etreeimport urllib2req = urll

XML之XPath

XPath 術語

節點（Node）

基本值（或稱原子值，Atomic value）

項目（Item）

節點關系

父（Parent）

子（Children）

同胞（Sibling）

先輩（Ancestor）

後代（Descendant）

XML 實例文檔

選取節點

下面列出了最有用的路徑表達式：

實例

謂語（Predicates）

謂語用來查找某個特定的節點或者包含某個指定的值的節點。

實例

選取未知節點

實例

選取若幹路徑

實例

XPath Axes（軸）

XML 實例文檔

XPath 軸

位置路徑表達式

絕對位置路徑：

相對位置路徑：

步的語法：

實例

XPath 運算符

XPath 實例

XML實例文檔

"books.xml" :

加載 XML 文檔

選取節點

選取所有 title

選取第一個 book 的 title

選取所有價格

選取價格高於 35 的 price 節點

選取價格高於 35 的 title 節點

相關推薦