1. 程式人生 > 其它 >xpath語法規則

xpath語法規則

xpath通用性強,是最常用且最便捷高效的一種解析方式

 

xpath的解析原理

 

第一步:例項化一個etree物件,且需要將解析的頁面原始碼資料載入到該物件中

 

第二步:呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的獲取

 

環境的安裝

 

pip install lxml

 

如何例項化一個rtree物件

 

from lxml import etree

 

將本地的html文件中的原始碼資料載入到etree物件中

 

etree.parse(path)

 

將從網際網路上獲取的原始碼資料載入到該物件中

 

etree.HTML(page_text)

 

xpath表示式

 

/:若在表示式開頭表示從根節點開始定位,若在表示式中間表示的是一個層級

 

//:若在表示式開頭表示從任意位置開始定位,若在表示式中間表示的是多個層級

 

屬性定位://div[@class='song']

 

索引定位://div[@class='song']/p[3] 索引是從1開始的

 

取文字方式1: /text()獲取的是標籤中直系的文字內容

 

取文字方式2: //text() 標籤中非直系的文字內容

 

取屬性: /@屬性名稱