scrapy解析庫之Xpath( Selectors)

阿新 • • 發佈：2018-12-22

#1 //與/
#2 text
#3、extract與extract_first:從selector物件中解出內容
#4、屬性：xpath的屬性加字首@
#4、巢狀查詢
#5、設定預設值
#4、按照屬性查詢
#5、按照屬性模糊查詢
#6、正則表示式
#7、xpath相對路徑
#8、帶變數的xpath

response.selector.css()
response.selector.xpath()
可簡寫為
response.css()
response.xpath()

#1 //與/
response.xpath('//body/a/')#
response.css('div a::text')

 
>>> response.xpath('//body/a') #開頭的//代表從整篇文件中尋找,body之後的/代表body的兒子
[]
>>> response.xpath('//body//a') #開頭的//代表從整篇文件中尋找,body之後的//代表body的子子孫孫
[<Selector xpath='//body//a' data='<a href="image1.html">Name: My image 1 <'>, <Selector xpath='//body//a' data='<a href="image2.html">Name: My image 2 < 
'>, <Selector xpath='//body//a' data='<a href="
image3.html">Name: My image 3 <'>, <Selector xpath='//body//a' data='<a href="image4.html">Name: My image 4 <'>, <Selector xpath='//body//a' data='<a href="image5.html">Name: My image 5 <'>]

#2 text
>>> response.xpath(' 
//body//a/text()')
>>> response.css('body a::text')

#3、extract與extract_first:從selector物件中解出內容
>>> response.xpath('//div/a/text()').extract()
['Name: My image 1 ', 'Name: My image 2 ', 'Name: My image 3 ', 'Name: My image 4 ', 'Name: My image 5 ']
>>> response.css('div a::text').extract()
['Name: My image 1 ', 'Name: My image 2 ', 'Name: My image 3 ', 'Name: My image 4 ', 'Name: My image 5 ']

>>> response.xpath('//div/a/text()').extract_first()
'Name: My image 1 '
>>> response.css('div a::text').extract_first()
'Name: My image 1 '

#4、屬性：xpath的屬性加字首@
>>> response.xpath('//div/a/@href').extract_first()
'image1.html'
>>> response.css('div a::attr(href)').extract_first()
'image1.html'

#4、巢狀查詢
>>> response.xpath('//div').css('a').xpath('@href').extract_first()
'image1.html'

#5、設定預設值
>>> response.xpath('//div[@id="xxx"]').extract_first(default="not found")
'not found'

#4、按照屬性查詢
response.xpath('//div[@id="images"]/a[@href="image3.html"]/text()').extract()
response.css('#images a[@href="image3.html"]/text()').extract()

#5、按照屬性模糊查詢
response.xpath('//a[contains(@href,"image")]/@href').extract()
response.css('a[href*="image"]::attr(href)').extract()

response.xpath('//a[contains(@href,"image")]/img/@src').extract()
response.css('a[href*="imag"] img::attr(src)').extract()

response.xpath('//*[@href="image1.html"]')
response.css('*[href="image1.html"]')

#6、正則表示式
response.xpath('//a/text()').re(r'Name: (.*)')
response.xpath('//a/text()').re_first(r'Name: (.*)')

#7、xpath相對路徑
>>> res=response.xpath('//a[contains(@href,"3")]')[0]
>>> res.xpath('img')
[<Selector xpath='img' data='<img src="image3_thumb.jpg">'>]
>>> res.xpath('./img')
[<Selector xpath='./img' data='<img src="image3_thumb.jpg">'>]
>>> res.xpath('.//img')
[<Selector xpath='.//img' data='<img src="image3_thumb.jpg">'>]
>>> res.xpath('//img') #這就是從頭開始掃描
[<Selector xpath='//img' data='<img src="image1_thumb.jpg">'>, <Selector xpath='//img' data='<img src="image2_thumb.jpg">'>, <Selector xpath='//img' data='<img src="image3_thumb.jpg">'>, <Selector xpa
th='//img' data='<img src="image4_thumb.jpg">'>, <Selector xpath='//img' data='<img src="image5_thumb.jpg">'>]

#8、帶變數的xpath
>>> response.xpath('//div[@id=$xxx]/a/text()',xxx='images').extract_first()
'Name: My image 1 '
>>> response.xpath('//div[count(a)=$yyy]/@id',yyy=5).extract_first() #求有5個a標籤的div的id
'images'

https://docs.scrapy.org/en/latest/topics/selectors.html

scrapy解析庫之Xpath( Selectors)

#1 //與/ #2 text #3、extract與extract_first:從selector物件中解出內容 #4、屬性：xpath的屬性加字首@ #4、巢狀查詢 #5、設定預設值 #4、按照屬性查詢 #5、按照屬性模糊查詢 #6、正則表示式 #7、xpath相對路徑 #8、帶變數的xpath

93、解析庫之re，Beautifulsoup

結果基本 strip 輸出父親 pytho 叠代器 next pan 本篇導航：介紹基本使用遍歷文檔樹搜索文檔樹總結 re模塊在之前的python進階中有講過不再做過多的闡述，本篇為BeautifulSoup庫的分析 20、collections模

Python爬蟲【解析庫之beautifulsoup】

close **kwargs contents pip and lac 代碼 ide num 解析庫的安裝 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析庫") from bs4 import B

解析庫之re模組

一：什麼是正則？　正則就是用一些具有特殊含義的符號組合到一起（稱為正則表示式）來描述字元或者字串的方法。或者說：正則就是用來描述一類事物的規則。（在Python中）它內嵌在Python中，並通過 re 模組實現。正則表示式模式被編譯成一系列的位元組碼，然後由用 C 編寫的匹配引擎執行。

解析庫之beautifulsoup模組

一介紹 Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現文件導航,查詢,修改文件的方式，Beautiful Soup會幫你節省數小時甚至數天的工作時間，你可能在尋找 Beautiful Soup3 的文件,

資料解析之XPath & lxml庫

XPath 定義即XML路徑語言(XML Path Language)，是一種用來確定XML文件中某部分位置的語言，它基於XML的樹狀結構，提供在資料結構樹中尋找節點的能力，也適用於HTML文件中；開發工具 Chrome 在Chrome的應用

Python爬蟲利器三之Xpath語法與lxml庫的用法

blank color idt tab 一段並且 .text rst 基本用法前面我們介紹了 BeautifulSoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 Xpath 語法，同樣是效率比較高的解析方法。如果大家

python解析HTML之:PyQuery庫的介紹與使用

att 用法 hello ext dom 的人 inf 目標 title 本篇大部分轉載於https://www.jianshu.com/p/c07f7cd1b548 先放自已自己解析techweb一個網站圖片的代碼 from pyquery import PyQuery

scrapy基礎之 xpath網頁結構

5.0 sel books category 層級 enc descend ray 基礎 1 ，什麽是xpath XPath 是一門在 XML 文檔中查找信息的語言。XML是一種類似於HTML的傳輸協議 2，節點 XPath 中，有七種類型的節點：元素、屬性

數據解析之Xpath解析

htm 文本 from ctrl start [1] 本地文件 title 拖動一，Xpath基本語法安裝使用： 1.下載：pip install lxml 2.導包：from lxml import etree 3.將html文檔或者xml文檔轉換成一

python庫之selectors 基於epoll的TP傳輸層實現和 Windows之IOCP

　　在之前的部落格中已經總結過分別在windows和linux作業系統下實現socket高併發(I/O非同步)的方法，可以參考基於epoll的TP傳輸層實現和Windows之IOCP 　　下面對Python中實現socket高併發的selectors庫進行總結，官方參考文件：https://docs.pyt

【Python3 爬蟲學習筆記】解析庫的使用 2 —— 使用XPath 2

8. 文字獲取我們使用XPath中的text()方法獲取節點中文字，接下來嘗試獲取前面li節點中的文字，相關程式碼如下： from lxml import etree html = etree.parse('./test.html', etree.HTMLParser()) re

【Python3 爬蟲學習筆記】解析庫的使用 1 —— 使用XPath 1

XPath，全稱XML Path Language，即XML路徑語言，它是一門在XML文件中查詢資訊的於洋。它最初是用來搜尋XML文件的，但它同樣適用於HTML文件的搜尋。 1. XPath概覽 XPath的選擇功能十分強大，它提供了非常簡潔明瞭的路徑選擇表示式。另外，它還提供了超過

解析庫使用（xPath）〈Python3網路爬蟲開發實戰〉

僅做記錄 XPath對網頁進行解析的過程： from lxml import etree text = ''' <div> <ul> <li class="item-0"><a href="link1.htm

爬蟲--解析庫的使用 XPath、BeautifulSoup、pyquery

1. XPath XPath ，全稱XML Path Language ，即XML 路徑語言，它是一門在XML 文件中查詢資訊的語言。它最初是用來搜尋XML 文件的，但是它同樣適用於HTML 文件的搜尋。 XPath 的選擇功能十分強大，它提供了非常簡潔明瞭的路徑選擇表

python爬蟲之xpath和lxml解析內容

上兩章說了urllib和request庫如何訪問一個頁面或者介面，從而獲取資料，如果是訪問介面，還好說，畢竟返回的json還是很好解析的，他是結構化的，我們可以把它轉化成字典來解析，但是如果返回的是xml或者html,就有點麻煩了，今天就主要說一下如果解析這些h

爬蟲學習筆記第4章.解析庫的使用.1 使用XPath

XPath：全稱XML Path Language（XML路徑語言），一門用於XML 文件中查詢資訊的語言。XPath 用於在 XML 文件中通過元素和屬性進行導航。XPath同樣可以用於HTML的搜尋。 XPath 路徑表示式：XPath 使用路徑表示式來選取

Python爬蟲框架 scrapy之xpath選擇器 css選擇器

文章目錄一、xpath 1、節點選擇二、 css css選擇三、xpath函式操作 1

Python爬蟲之Beautiful Soup解析庫的使用（五）

Python爬蟲之Beautiful Soup解析庫的使用 Beautiful Soup-介紹 Python第三方庫，用於從HTML或XML中提取資料官方：http://www.crummv.com/software/BeautifulSoup/ 安裝：pip install beautifulsoup4

python3標準庫之反解析模組——dis module

一、位元組碼 1、位元組碼是什麼。 python的原始檔是以.py結尾的，不知你是否見過或者聽說過以.pyc結尾的檔案，它儲存在__pycache__的資料夾中，這就是位元組碼。 2、位元組碼存在的作用。 python是解釋性語言，它在執行時將原始碼編譯成一組虛擬機器

scrapy解析庫之Xpath( Selectors)

相關推薦