lxml解析庫的安裝及XPath使用
阿新 • • 發佈:2019-01-31
安裝lxml
pip3 install lxml
XPath是一門可以在XML和HTML文件中查詢資訊的語言
常用規則
nodename 讀取次節點的所有子節點 xpath('span') 選取span元素的所有子節點從根節點上選取div節點
/ 從當前節點選取直接子節點 xpath('/div')從根節點上選取div節點
// 從當前節點選取子孫節點 \xpath(‘//div’)從當前節點選取含有div節點的標籤選取當前節點下的div標籤
. 選取當前節點 xpath(‘./div’)選取當前節點下的div標籤
.. 選取當前節點的父節點 xpath(‘../’)回到上一級節點
@ 選取屬性 xpath(“//div[@id=’1001’]”)獲取div標籤中,含有ID屬性且值為1001的標籤
#test.html
from lxml import etree;
html=etree.parse('./test.html',etree.HTMLparse());
#獲取所有li返回列表
result=html.xpath('//li');
print(result)
print(result[0])