1. 程式人生 > >scrapy的Xpath表達式總結

scrapy的Xpath表達式總結

int XML 信息 class resp extract div xtra 查找

我們在使用scrapy的時候,常常會用到xpath表達式,用過xpath你會覺得,哇,比正則簡單呀!確實,xpath簡單明了,但是並不代表xpath在scrapy裏面會替代掉正則哦!

1.什麽是xpath

   Xpath是一門在XML文檔中查找信息的語言,可以對XML文檔中的元素和屬性使用路徑表達式進行導航,Xpath包含一個標準函數庫。

2.xpath常用標簽

  / ------提取某個標簽下的所有內容   text() ------- 提取標簽所包含的文本內容   @ ---------- 提取標簽屬性的信息   // ---------- 尋找所有的標簽   [@屬性=值] ------ 定位標簽 3.使用舉例
  /html -----代表提取html標簽內的所有內容   /html/head/title -----代表提取title下面的所有信息   //li ------ 代表提取所有的li標簽   //li[@class=‘hidden-xs‘] -------- 直接定位到滿足條件的標簽   //li[@class=‘hidden-xs‘]/a/@heef ---------- 提取到class = hidden-cs的li標簽下面的a標簽的href的值 4.scrapy中使用xpath   下面為大家提供一個參考方法(scrapy下寫的一個爬蟲方法),是用來爬取html頁面的title標簽內容和class=‘note’的div標簽下的內容
def next(self,response):
title = response.xpath("/html/head/title/text()").extract()
note = response.xpath("//div[@class = ‘note‘]/text()").extract()
print(title)
print(note)

scrapy的Xpath表達式總結