Xpath語法詳解

阿新 • • 發佈：2018-12-14

本次示例使用python的lxml 對xpath進行演示

安裝lxml

pip install lxml

xpath常規用法

示例html

htm = """
<html>
	<div>
		<ul>
			<li class="item-0"><a href="link1.html">first item</a></li>
			<li class="item-1"><a href="link2.html">second item</a></li>
			<li class="item-inactive"><a href="link3.html">third item</a></li>
			<li class="item-1"><a href="link4.html">fourth item</a></li>
			<li class="item-0"><a href="link5.html">fifth item</a></li>
			<li class="else-1">something else</li>
			this is ul item
		</ul>
	</div>
</html>		
"""

查詢xxx下的所有xx元素

from lxml import etree  # 紅線提示找不到etree的初始化方法，沒關係不影響

htm = """
<html>
	<div>
		<ul>
			<li class="item-0"><a href="link1.html">first item</a></li>
			<li class="item-1"><a href="link2.html">second item</a></li>
			<li class="item-inactive"><a href="link3.html">third item</a></li>
			<li class="item-1"><a href="link4.html">fourth item</a></li>
			<li class="item-0"><a href="link5.html">fifth item</a></li>
			<li class="else-1">something else</li>
			this is ul item
		</ul>
	</div>
</html>		
"""


selector = etree.HTML(htm)  # 初始化etree
all_li = selector.xpath('//div/ul/li')  # //代表從節結點開始查詢，這裡查詢ul下為li的所有元素
for i in all_li:
    print(i)

執行結果：
	<Element li at 0x1a7955a2808>  # 0x1a7955a2808是記憶體地址，這是一組元素，如要顯示具體可以這樣(如：/a/text() # 檢視a標籤的文字(往下看也有演示))
	<Element li at 0x1a7955a27c8>
	<Element li at 0x1a7955a28c8>
	<Element li at 0x1a7955a2908>
	<Element li at 0x1a7955a2948>
	<Element li at 0x1a7955a29c8>

查詢xxx下的第一個xx元素

from lxml import etree  # 紅線提示找不到etree的初始化方法，沒關係不影響

htm = """
<html>
	<div>
		<ul>
			<li class="item-0"><a href="link1.html">first item</a></li>
			<li class="item-1"><a href="link2.html">second item</a></li>
			<li class="item-inactive"><a href="link3.html">third item</a></li>
			<li class="item-1"><a href="link4.html">fourth item</a></li>
			<li class="item-0"><a href="link5.html">fifth item</a></li>
			<li class="else-1">something else</li>
			this is ul item
		</ul>
	</div>
</html>		
"""


selector = etree.HTML(htm)  # 初始化etree
all_li = selector.xpath('//div/ul/li[1]')  # 查詢第一個li，注意在xpath中第一個下標不是0，而是1
print(all_li)

執行結果：
	[<Element li at 0x1d0e2612608>]

注意：如果網頁中存在多個相同元素，不使用下標進行查詢，系統只會預設查詢第一個，若第一個元素不符會直接丟擲異常。

查詢xx元素對應的文字資訊

from lxml import etree  # 紅線提示找不到etree的初始化方法，沒關係不影響

htm = """
<html>
	<div>
		<ul>
			<li class="item-0"><a href="link1.html">first item</a></li>
			<li class="item-1"><a href="link2.html">second item</a></li>
			<li class="item-inactive"><a href="link3.html">third item</a></li>
			<li class="item-1"><a href="link4.html">fourth item</a></li>
			<li class="item-0"><a href="link5.html">fifth item</a></li>
			<li class="else-1">something else</li>
			this is ul item
		</ul>
	</div>
</html>		
"""


selector = etree.HTML(htm)  # 初始化etree
# all_li = selector.xpath('//div/ul/li[1]/a/text()')[0]  # 這樣寫直接輸出a下面的第一個文字
all_li = selector.xpath('//div/ul/li[1]/a/text()')  # 使用text()提取a標籤下的文字資訊
print(all_li)  # 也可以使用下標直接取出結果如：all_li[0]輸出結果 first item

執行結果：
	['first item']

小知識

如果在使用的html頁面中只要元素是唯一的，也可以不從根目錄開始查詢，簡單示例幾種：

all_li = selector.xpath('//ul/li[1]/a/text()')[0]  #省去div一樣可以
all_li = selector.xpath('//*[@class="item-inactive"]/a/text()') [0]  # 直接使用class查詢第三個li的文字
all_li = selector.xpath('//a[@href="link2.html"]/text()')[0]  # 直接使用href查詢第二個li的文字

獲取xxx下元素的屬性

獲取單個屬性

from lxml import etree  # 紅線提示找不到etree的初始化方法，沒關係不影響

htm = """
<html>
	<div>
		<ul>
			<li class="item-0"><a href="link1.html">first item</a></li>
			<li class="item-1"><a href="link2.html">second item</a></li>
			<li class="item-inactive"><a href="link3.html">third item</a></li>
			<li class="item-1"><a href="link4.html">fourth item</a></li>
			<li class="item-0"><a href="link5.html">fifth item</a></li>
			<li class="else-1">something else</li>
			this is ul item
		</ul>
	</div>
</html>		
"""


selector = etree.HTML(htm)  # 初始化etree
all_li = selector.xpath('//li[3]/a/@href')[0]  # 獲取href的屬性
print(all_li)  

執行結果：
	link3.html

獲取class的全部屬性

from lxml import etree  # 紅線提示找不到etree的初始化方法，沒關係不影響

htm = """
<html>
	<div>
		<ul>
			<li class="item-0"><a href="link1.html">first item</a></li>
			<li class="item-1"><a href="link2.html">second item</a></li>
			<li class="item-inactive"><a href="link3.html">third item</a></li>
			<li class="item-1"><a href="link4.html">fourth item</a></li>
			<li class="item-0"><a href="link5.html">fifth item</a></li>
			<li class="else-1">something else</li>
			this is ul item
		</ul>
	</div>
</html>		
"""


selector = etree.HTML(htm)  # 初始化etree
all_li = selector.xpath('//li/@class')  # 獲取href的屬性
print(all_li)

執行結果：
	['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0', 'else-1']

xpath高階用法

查找出xxx元素以xx開頭的屬性

還是這段html來做演示：

<html>
	<div>
		<ul>
			<li class="item-0"><a href="link1.html">first item</a></li>
			<li class="item-1"><a href="link2.html">second item</a></li>
			<li class="item-inactive"><a href="link3.html">third item</a></li>
			<li class="item-1"><a href="link4.html">fourth item</a></li>
			<li class="item-0"><a href="link5.html">fifth item</a></li>
			<li class="else-1">something else</li>
			this is ul item
		</ul>
	</div>
</html>		
"""

使用starts-with()

示例程式碼：

from lxml import etree  # 紅線提示找不到etree的初始化方法，沒關係不影響

htm = """
<html>
	<div>
		<ul>
			<li class="item-0"><a href="link1.html">first item</a></li>
			<li class="item-1"><a href="link2.html">second item</a></li>
			<li class="item-inactive"><a href="link3.html">third item</a></li>
			<li class="item-1"><a href="link4.html">fourth item</a></li>
			<li class="item-0"><a href="link5.html">fifth item</a></li>
			<li class="else-1">something else</li>
			this is ul item
		</ul>
	</div>
</html>		
"""


selector = etree.HTML(htm)  # 初始化etree
all_li = selector.xpath("//li[starts-with(@class, 'item-')]")  # 獲取href的屬性
all_a = []
for i in all_li:
    all_a.append(i.xpath('a/text()')[0])  # 繼續對找到的li元素使用xpath查詢其裡面的內容

print(all_a)

執行結果：
	['first item', 'second item', 'third item', 'fourth item', 'fifth item']

也可以這樣寫：

from lxml import etree  # 紅線提示找不到etree的初始化方法，沒關係不影響

htm = """
<html>
	<div>
		<ul>
			<li class="item-0"><a href="link1.html">first item</a></li>
			<li class="item-1"><a href="link2.html">second item</a></li>
			<li class="item-inactive"><a href="link3.html">third item</a></li>
			<li class="item-1"><a href="link4.html">fourth item</a></li>
			<li class="item-0"><a href="link5.html">fifth item</a></li>
			<li class="else-1">something else</li>
			this is ul item
		</ul>
	</div>
</html>		
"""


selector = etree.HTML(htm)  # 初始化etree
all_li = selector.xpath("//li[starts-with(@class, 'item-')]/a/text()")  # 獲取href的屬性
print(all_li)

執行結果：
	['first item', 'second item', 'third item', 'fourth item', 'fifth item']

查詢所有文字

使用string()

示例程式碼：

from lxml import etree  # 紅線提示找不到etree的初始化方法，沒關係不影響

htm = """
<html>
	<div>
		<ul>
			<li class="item-0"><a href="link1.html">first item</a></li>
			<li class="item-1"><a href="link2.html">second item</a></li>
			<li class="item-inactive"><a href="link3.html">third item</a></li>
			<li class="item-1"><a href="link4.html">fourth item</a></li>
			<li class="item-0"><a href="link5.html">fifth item</a></li>
			<li class="else-1">something else</li>
			this is ul item
		</ul>
	</div>
</html>		
"""


selector = etree.HTML(htm)  # 初始化etree
all_li = selector.xpath("string(//ul)")  # 獲取ul下的所有文字
print(all_li)

執行結果：
	first item
	second item
	third item
	fourth item
	fifth item
	something else
	this is ul item

小小例項

獲取豆瓣首頁的豆瓣讀書文字及連結，在首頁取出一張圖片存入本地。

import requests
from lxml import etree  # 紅線提示找不到etree的初始化方法，沒關係不影響

r = requests.get('https://www.douban.com/')
r.encoding = 'utf-8'
html = etree.HTML(r.text)
text = html.xpath('//*[@id="anony-nav"]/div[1]/ul/li[1]/a/@href')[0]
h1 = html.xpath('//*[@id="anony-nav"]/div[1]/ul/li[1]/a/text()')[0]
logs = html.xpath('//*[@id="anony-sns"]/div/div[3]/div/div[1]/ul/li[3]/div/a/img/@src')[0]
print(text)
print(h1)
print(logs)
log = requests.get(logs)
with open('d:/a.gif', 'wb') as file:  # wb 二進位制形式寫入
    file.write(log.content)  # 儲存圖片

執行結果：
	https://book.douban.com
	豆瓣讀書
	https://img3.doubanio.com/f/shire/a1fdee122b95748d81cee426d717c05b5174fe96/pics/blank.gif

Xpath語法詳解

本次示例使用python的lxml 對xpath進行演示安裝lxml pip install lxml xpath常規用法示例html htm = """ <html> <di

008-Hadoop Hive sql語法詳解3-DML 操作:元數據存儲

pan 查詢寫入所有 not insert語句 int 寫入文件文件系統一、概述 hive不支持用insert語句一條一條的進行插入操作，也不支持update操作。數據是以load的方式加載到建立好的表中。數據一旦導入就不可以修改。 DML包括：INSERT插入

Oracle create tablespace 創建表空間語法詳解

系統回滾段語法判斷臨時 extent 數值 off offline 文件的 CREATE [UNDO] TABLESPACE tablespace_name [DATAFILE datefile_spec1 [,datefile_spec2] ..

mysql-5.7.9 shutdown 語法詳解

resp 登錄 ive conn denied 權限不足這樣的 fec comm mysql-5.7.9 終於提供shutdown 語法啦：　　之前如果想關閉一個mysql數據庫可以通過kill 命令、mysqladmin shutdown 、service mysql

[持續交付實踐] pipeline：pipeline 使用之語法詳解

安裝工具詳細 href 3.0 def 實現能夠 action roo 一、引言 jenkins pipeline語法的發展如此之快用日新月異來形容也不為過，而目前國內對jenkins pipeline關註的人還非常少，相關的文章更是稀少，唯一看到w3c有篇相關的估計是

Nginx Rewrite語法詳解

服務器端 .html use rgs args port 資源如果 urn 重寫中用到的指令 if (條件) {} 設定條件,再進行重寫 set #設置變量 return #返回狀態碼 break #跳出rewrite rewrite #重寫 If 語法格式 If

017-Hadoop Hive sql語法詳解7-去重排序、數據傾斜

col 去重排序 sel cluster 可能更多分發指定 clust 一、數據去重排序 1.1、去重　　distinct與group by 　　盡量避免使用distinct進行排重，特別是大表操作，用group by代替　　 -- 不建議 selec

016-Hadoop Hive sql語法詳解6-job輸入輸出優化、數據剪裁、減少job數、動態分區

分享 hive table 取數 nbsp put union 正在 style 一、job輸入輸出優化善用muti-insert、union all，不同表的union all相當於multiple inputs，同一個表的union all，相當map一次輸出多條

(4)Smali系列學習之Smali語法詳解內部類

這一數字學習 get 私有方法如果單獨 hello 我們在這一節，我們來介紹一下內部類。對於Java文件中的每一個內部類，都會產生一個單獨的smali文件，比如ActivityThread$1.smali。這些文件的命名規範是如果是匿名內部類，則命名規則是外部類+

Shodan的http.favicon.hash語法詳解

簡單 tar 地址字段就是 mpi 舉例數值 sts 　　在Shodan搜索中有一個關於網站icon圖標的搜索語法，http.favicon.hash，我們可以使用這個語法來搜索出使用了同一icon圖標的網站，不知道怎麽用的朋友請參考我上一篇文章。　　通過上一篇文章

Android.mk 文件語法詳解

too itl 其他國內 fine 鏈接 sina 流程詳解 img Android.mk 文件語法詳解轉：http://blog.sina.com.cn/s/blog_602f8770010148ce.html =========================

Jenkins pipeline 語法詳解

數列自定義為什麽 box catcher k8s fork dom choice 原文地址http://www.cnblogs.com/fengjian2016/p/8227532.html pipeline 是一套運行於jenkins上的工作流框架，將原本獨立運行於單

使用vs code編寫Markdown文檔以及markdown語法詳解

技術代碼塊想要空行圖片 action show div 語言目錄首先安裝vscode工具，下載地址如下： https://code.visualstudio.com/ 在vs code的擴展中安裝： Markdown Preview Enhanced 這款

Javascript 陣列語法詳解

JavaScript 中的陣列相當於 Java 中的 Map ，陣列本身是一個物件，屬於引用資料型別更多精彩更多技術部落格，請移步 asing1elife’s blog 定義既然陣列是一個物件，當進行 alert(arr) 時

Linux裝置樹語法詳解【轉】

轉自：https://www.cnblogs.com/xiaojiang1025/p/6131381.html 概念 Linux核心從3.x開始引入裝置樹的概念，用於實現驅動程式碼與裝置資訊相分離。在裝置樹出現以前，所有關於裝置的具體資訊都要寫在驅動裡，一旦外圍裝置變化，驅動程式碼就要重寫。引入了裝置樹之

Hibernate學習之hql 與sql hql 語法詳解

Hibernate中查詢：　　　　createQuery( String qlString)使用的是HQL語句；　　　　createNativeQuery (String sqlString)使用的是SQL語句；關係HQL與SQL區別：　　 hql 語法詳解：　　

Spring 之AOP AspectJ切入點語法詳解（最全面、最詳細。）（轉）

6.5 AspectJ切入點語法詳解 6.5.1 Spring AOP支援的AspectJ切入點指示符切入點指示符用來指示切入點表示式目的，，在spring AOP中目

Python編程入門基礎語法詳解經典

selected ood second acc 調用局部變量 ase aca self 一、基本概念 1.內置的變量類型： Python是有變量類型的，而且會強制檢查變量類型。內置的變量類型有如下幾種： #浮點 float_number = 2.3 #復數 complex

Python程式設計入門基礎語法詳解經典

一、基本概念 1.內建的變數型別： Python是有變數型別的，而且會強制檢查變數型別。內建的變數型別有如下幾種： #浮點 float_number = 2.3 #複數 complex_number = 1 + 5j #整型 integer_number = 1 #list 序列 samp

web前端學習（四）JavaScript學習筆記部分（2）-- JavaScript語法詳解

2.1、Javascript語法-運算子(1) 　　複數運算子　　　　　　%取餘　　　　++ 　　　　-- 　　賦值運算子　　　　+= 　　　　-= 　　　　*= 　　　　/= 　　　　%= 　　字串操作 <!DOCTYPE html> <html lan

Xpath語法詳解

安裝lxml

xpath常規用法

查詢xxx下的所有xx元素

查詢xxx下的第一個xx元素

查詢xx元素對應的文字資訊

小知識

獲取xxx下元素的屬性

xpath高階用法

查找出xxx元素以xx開頭的屬性

查詢所有文字

小小例項

相關推薦