scrapy的Xpath表達式總結
阿新 • • 發佈:2018-09-19
int XML 信息 class resp extract div xtra 查找
/html -----代表提取html標簽內的所有內容
/html/head/title -----代表提取title下面的所有信息
//li ------ 代表提取所有的li標簽
//li[@class=‘hidden-xs‘] -------- 直接定位到滿足條件的標簽
//li[@class=‘hidden-xs‘]/a/@heef ---------- 提取到class = hidden-cs的li標簽下面的a標簽的href的值
4.scrapy中使用xpath
下面為大家提供一個參考方法(scrapy下寫的一個爬蟲方法),是用來爬取html頁面的title標簽內容和class=‘note’的div標簽下的內容
我們在使用scrapy的時候,常常會用到xpath表達式,用過xpath你會覺得,哇,比正則簡單呀!確實,xpath簡單明了,但是並不代表xpath在scrapy裏面會替代掉正則哦!
1.什麽是xpath
Xpath是一門在XML文檔中查找信息的語言,可以對XML文檔中的元素和屬性使用路徑表達式進行導航,Xpath包含一個標準函數庫。
2.xpath常用標簽
/ ------提取某個標簽下的所有內容 text() ------- 提取標簽所包含的文本內容 @ ---------- 提取標簽屬性的信息 // ---------- 尋找所有的標簽 [@屬性=值] ------ 定位標簽 3.使用舉例def next(self,response):title = response.xpath("/html/head/title/text()").extract()
note = response.xpath("//div[@class = ‘note‘]/text()").extract()
print(title)
print(note)
scrapy的Xpath表達式總結