1. 程式人生 > >lxml解析庫的安裝及XPath使用

lxml解析庫的安裝及XPath使用

安裝lxml

pip3 install lxml

XPath是一門可以在XML和HTML文件中查詢資訊的語言

常用規則

nodename   讀取次節點的所有子節點          xpath('span') 選取span元素的所有子節點從根節點上選取div節點

/                從當前節點選取直接子節點        xpath('/div')從根節點上選取div節點

//               從當前節點選取子孫節點           \xpath(‘//div’)從當前節點選取含有div節點的標籤選取當前節點下的div標籤

.                 選取當前節點                        xpath(‘./div’)選取當前節點下的div標籤

..                選取當前節點的父節點            xpath(‘../’)回到上一級節點

@                選取屬性                            xpath(“//div[@id=’1001’]”)獲取div標籤中,含有ID屬性且值為1001的標籤

#test.html

from lxml import etree;

html=etree.parse('./test.html',etree.HTMLparse());

#獲取所有li返回列表

result=html.xpath('//li');

print(result)

print(result[0])