Python 爬蟲開發之xpath使用
阿新 • • 發佈:2018-11-10
在進行爬蟲開發中,需要的頁面資訊進行解析處理,獲取到需要的關鍵資料。可以利用xpath進行對頁面的xml檔案進行解析處理,獲取到需要的關鍵資料。
XPath使用:
XPath 可用來在 XML 文件中對元素和屬性進行遍歷.
from lxml import etree
import urllib2
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
web_info = urllib2.urlopen(req).read()
html = etree.HTML(web_info)
result = etree.tostring(html) #tostring 是補全缺失的html標籤
html_data = result.xpath('/html/body/div/ul/li/a/text()') 獲取某個標籤的資料
html_data = html.xpath('/html/body/div/ul/li/a/@href') 獲取某個標籤的屬性 獲取屬性值用@
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()') 獲取a表現屬性為link2.html的內容
html_data = html.xpath('//li/a/text()') 使用相對路徑獲取a標籤的內容
html_data = html.xpath('//li/a//@href') 使用相對路徑獲取a標籤的屬性值