xpath語法規則
阿新 • • 發佈:2022-04-05
xpath通用性強,是最常用且最便捷高效的一種解析方式
xpath的解析原理
第一步:例項化一個etree物件,且需要將解析的頁面原始碼資料載入到該物件中
第二步:呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的獲取
環境的安裝
pip install lxml
如何例項化一個rtree物件
from lxml import etree
將本地的html文件中的原始碼資料載入到etree物件中
etree.parse(path)
將從網際網路上獲取的原始碼資料載入到該物件中
etree.HTML(page_text)
xpath表示式
/:若在表示式開頭表示從根節點開始定位,若在表示式中間表示的是一個層級
//:若在表示式開頭表示從任意位置開始定位,若在表示式中間表示的是多個層級
屬性定位://div[@class='song']
索引定位://div[@class='song']/p[3] 索引是從1開始的
取文字方式1: /text()獲取的是標籤中直系的文字內容
取文字方式2: //text() 標籤中非直系的文字內容
取屬性: /@屬性名稱