1. 程式人生 > >爬蟲之Xpath詳解

爬蟲之Xpath詳解

name 指令 pan 語法 pre lin item school 分享

XPath介紹

XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。

XPath 是 W3C XSLT 標準的主要元素,並且 XQuery 和 XPointer 都構建於 XPath 表達之上。

因此,對 XPath 的理解是很多高級 XML 應用的基礎。 --------------------W3School

1. XPath 使用路徑表達式來選取 XML 文檔中的節點或者節點集。這些路徑表達式和我們在常規的電腦文件系統中看到的表達式非常相似。

2. XPath 含有超過 100 個內建的函數。這些函數用於字符串值、數值、日期和時間比較、節點和 QName 處理、序列處理、邏輯值。

3. XPath 於 1999 年 11 月 16 日 成為 W3C 標準。XPath 被設計為供 XSLT、XPointer 以及其他 XML 解析軟件使用。

XPath 術語

1. 在 XPath 中,有七種類型的節點:元素、屬性、文本、命名空間、處理指令、註釋以及文檔節點(或稱為根節點)。XML 文檔是被作為節點樹來對待的。樹的根被稱為文檔節點或者根節點。

2. 基本值(或稱原子值,Atomic value)是無父或無子的節點。

3. 項目(Item)是基本值或者節點。

XPath 語法

XPath 使用路徑表達式來選取 XML 文檔中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的。

技術分享圖片

技術分享圖片

謂語(Predicates)

謂語用來查找某個特定的節點或者包含某個指定的值的節點。

謂語被嵌在方括號中。

技術分享圖片

技術分享圖片

爬蟲之Xpath詳解