xpath筆記
阿新 • • 發佈:2022-03-16
''''#xpath是在xml文件中搜索內容的一門語言
#xml是html的母集
#安裝lxml模組
pip install lxml -i
xpath解析
'''
from lxml import etree
xml='''...'''
#tree=etree.parse()#載入一個檔案
tree=etree.XML(xml)
result=tree.xpath('/book')#/表示層級關係,第一個是根節點
result=tree.xpath('/book/name/text()')#text()獲取文字
result=tree.xpath('/book/name//nick/text()')#//表示name下所有nick
result=tree.xpath('/book/name/*/nick/text()')#*表示任意節點,萬用字元
result=tree.xpath('/book/name/nick[1]/text()')#nick[1]表示第一個nick,xpath順序是從1開始數的
result=tree.xpath('/book/name/nick[@href='大炮']/text()') #nick中的href屬性值必須為大炮,獲取a標籤中的值[@xxx=xxx]
ollist=tree.xpath('html/body/ol/li')
for li in ollist:
# 從每一個Li中提取到文字資訊
result = li.xpath("./a/text()")#在Li中繼續去尋找,.表示相對路徑
result2=li.xpath('./a/@href')#拿到屬性href的值
#可以在瀏覽器上覆制原始碼為xpath形式,然後自己微調