scrapy的Xpath表達式總結

阿新 • • 發佈：2018-09-19

int XML 信息 class resp extract div xtra 查找

我們在使用scrapy的時候，常常會用到xpath表達式，用過xpath你會覺得，哇，比正則簡單呀！確實，xpath簡單明了，但是並不代表xpath在scrapy裏面會替代掉正則哦！

1.什麽是xpath

　　 Xpath是一門在XML文檔中查找信息的語言，可以對XML文檔中的元素和屬性使用路徑表達式進行導航，Xpath包含一個標準函數庫。

2.xpath常用標簽

　　/ ------提取某個標簽下的所有內容　　text() ------- 提取標簽所包含的文本內容　　@ ---------- 提取標簽屬性的信息　　// ---------- 尋找所有的標簽　　[@屬性=值] ------ 定位標簽 3.使用舉例

　　/html -----代表提取html標簽內的所有內容　　/html/head/title -----代表提取title下面的所有信息　　//li ------ 代表提取所有的li標簽　　//li[@class=‘hidden-xs‘] -------- 直接定位到滿足條件的標簽　　//li[@class=‘hidden-xs‘]/a/@heef ---------- 提取到class = hidden-cs的li標簽下面的a標簽的href的值 4.scrapy中使用xpath 　　下面為大家提供一個參考方法（scrapy下寫的一個爬蟲方法），是用來爬取html頁面的title標簽內容和class=‘note’的div標簽下的內容

def next(self,response):
 
    title = response.xpath("/html/head/title/text()").extract()
    note = response.xpath("//div[@class = ‘note‘]/text()").extract()
    print(title)
    print(note)

scrapy的Xpath表達式總結

scrapy的Xpath表達式總結

EL表達式總結

java正則表達式總結

js正則表達式總結

iOS常用的正則表達式總結

15/18位身份證號碼驗證的正則表達式總結（詳細版）

正則表達式總結

Python-正則表達式總結版

常用正則表達式總結

Python常用正則表達式總結

正則表達式總結與補充.

scrapy的Xpath表達式總結

Python正則表達式初識（十）附正則表達式總結

C++ lambda表達式總結

標準I/O與管道；用戶、組和權限；文件處理工具及正則表達式總結

C#中Lambda表達式總結

正則表達式總結regex

常用正則表達式爬取網頁信息及HTML分析總結

通配符&正則表達式&特殊符號總結

JavaScript學習總結（三、函數聲明和表達式、this、閉包和引用、arguments對象、函數間傳遞參數）

總結-正則表達式

scrapy的Xpath表達式總結

相關推薦