爬蟲--解析庫的使用 XPath、BeautifulSoup、pyquery

阿新 • • 發佈：2018-12-10

1. XPath

XPath ，全稱XML Path Language ，即XML 路徑語言，它是一門在XML 文件中查詢資訊的語言。它最初是用來搜尋XML 文件的，但是它同樣適用於HTML 文件的搜尋。

XPath 的選擇功能十分強大，它提供了非常簡潔明瞭的路徑選擇表示式。另外，它還提供了超過100 個內建函式，用於字串、數值、時間的匹配以及節點、序列的處理等。幾乎所有我們想要定位的節點，都可以用XPath 來選擇。

from lxml import etree

text = '''
<div>
<ul>
<li class="item-O"><a href="linkl.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.HTML(text)
result= etree.tostring(html)
print(result.decode('utf-8'))

<html><body><div>
<ul>
<li class="item-O"><a href="linkl.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</li></ul>
</div>
</body></html>

7. 父節點

from lxml import etree

html = etree.parse('F:\\spider\\XPath\\test.html', etree.HTMLParser())
result = etree.tostring(html)
res = html.xpath('//a[@href="link4.html"]/../@class')  # 或者下面的寫法
# res = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result.decode('utf-8'))
print('\n', res)

9. 文字獲取

from lxml import etree

html = etree.parse('F:\\spider\\XPath\\test.html', etree.HTMLParser())
res = html.xpath('//li[@class="item-0"]/a/text()')  # 文字獲取
print(res)
# ['first item', 'fifth item']

這裡我們是逐層選取的，先選取了li 節點，又利用／選取了其直接子節點兒然後再選取其文字，得到的結果恰好是符合我們預期的兩個結果。

from lxml import etree

html = etree.parse('F:\\spider\\XPath\\test.html', etree.HTMLParser())
res = html.xpath('//li[@class="item-0"]//text()')  # 文字獲取
print(res)
# ['first item', 'fifth item', '\r\n\t']

不出所料，這裡的返回結果是3 個。可想而知，這裡是選取所有子孫節點的文字，其中前兩個就是li 的子節點a 節點內部的文字，另外一個就是最後一個li 節點內部的文字，即換行符。

10 . 屬性獲取 我們知道用text （）可以獲取節點內部文字，那麼節點屬性該怎樣獲取呢？其實還是用＠符號就可以。例如，我們想獲取所有li 節點下所有a 節點的href 屬性，程式碼如下：

from lxml import etree
# 屬性獲取
html = etree.parse('F:\\spider\\XPath\\test.html', etree.HTMLParser())
res = html.xpath('//li/a/@href')  # 文字獲取
print(res)
# ['linkl.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

13. 按序選擇

有時候，我們在選擇的時候某些屬性可能同時匹配了多個節點，但是隻想要其中的某個節點，如第二個節點或者最後一個節點。這時可以利用中括號傳入索引的方法獲取特定次序的節點。

from lxml import etree

text = '''
<div>
<ul>
<li class="item-O"><a href="linkl.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.parse("F:/spider/XPath/test.html", etree.HTMLParser())
res = html.xpath("//li/a/text()")  # 注意：這裡的下標從1開始
res1 = html.xpath("//li[1]/a/text()")
res2 = html.xpath("//li[last()]/a/text()")
res3 = html.xpath("//li[position()<3]/a/text()")
res5 = html.xpath("//li[last()-2]/a/text()")
print(res, res1, res2, res3, res5, sep='\n')
# ['first item', 'second item', 'third item', 'fourth item', 'fifth item']
# ['first item']
# ['fifth item']
# ['first item', 'second item']
# ['third item']

第一次選擇時，我們選取了第一個li 節點，中括號中傳入數字1即可。注意，這裡和程式碼中不同，序號是以1 開頭的，不是以0 開頭。

14. 節點軸選擇

XPath 提供了很多節點軸選擇方法，包括獲取子元素、兄弟元素、父元素、祖先元素等。

from lxml import etree

text = '''
<div>
<ul>
<li class="item-O"><a href="link1.html"><span>first item</span></a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.HTML(text)
res = html.xpath("//li[1]/ancestor::*")  # 注意：這裡的下標從1開始
print(res)
# [<Element html at 0x1991a74efc8>, <Element body at 0x1991a720dc8>, <Element div at 0x1991a760488>, <Element ul at 0x1991a760848>]
res = html.xpath("//li[1]/ancestor::div")
print(res)
# [<Element div at 0x1991a6c0188>]
res = html.xpath("//li[1]/attribute::*")
print(res)
# ['item-O']
res = html.xpath('//li[1]/child::a[@href="link1.html"]')
print(res)
# [<Element a at 0x1991a760308>]
res = html.xpath("//li[1]/descendant::span")
print(res)
# [<Element span at 0x1991a7688c8>]
res = html.xpath('//li[1]/following::*[1]')
print(res)
# [<Element li at 0x1991a6c02c8>]
res = html.xpath('//li[1]/following-sibling::*')
print(res)
# [<Element li at 0x1991a74ed48>, <Element li at 0x1991a74e748>, <Element li at 0x1991a720dc8>, <Element li at 0x1991a720bc8>]

爬蟲--解析庫的使用 XPath、BeautifulSoup、pyquery

1. XPath XPath ，全稱XML Path Language ，即XML 路徑語言，它是一門在XML 文件中查詢資訊的語言。它最初是用來搜尋XML 文件的，但是它同樣適用於HTML 文件的搜尋。 XPath 的選擇功能十分強大，它提供了非常簡潔明瞭的路徑選擇表

Python爬蟲解析網頁的三種方法，lxml、BeautifulSoup、re案例！

常用的類庫為lxml，BeautifulSoup，re(正則) 學習Python中有不明白推薦加入交流群號：960410445 &nb

【Python3 爬蟲學習筆記】解析庫的使用 10 —— 使用pyquery 3

節點操作 pyquery提供了一系列方法來對節點進行動態修改，比如為某個節點新增一個class，移除某個節點等，這些操作有時候會為提取資訊帶來極大地便利。 addClass和removeClass html = ''' <div class="wrap"> <d

【Python3 爬蟲學習筆記】解析庫的使用 9 —— 使用pyquery 2

遍歷 pyquery的選擇結果可能是多個節點，也可能是單個節點，型別都是PyQuery型別，並沒有返回像Beautiful Soup那樣的列表。對於單個節點來說，可以直接列印輸出，也可以直接轉成字串： from pyquery import PyQuery as pq doc =

【Python3 爬蟲學習筆記】解析庫的使用 8 —— 使用pyquery 1

先看示例： html = ''' <div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">secon

【Python3 爬蟲學習筆記】解析庫的使用 11 —— 使用pyquery 4

偽類選擇器 CSS選擇器之所以強大，還有一個很重要的原因，那就是它支援多種多樣的偽類選擇器，例如選擇第一個節點、最後一個節點、奇偶數節點、包含某一文字的節點等。示例如下： html = ''' <div class="wrap"> <div id="containe

Python-爬蟲-解析庫（pyquery）的使用

pyquery安裝： pip install pyquery 初始化： 1）html字串 2）url初始化 3）本地html檔案初始化例如： 1 #pyquery使用 2 3 import requests 4 from lxml import html 5 import pyq

爬蟲解析庫re,Beautifulsoup,

html ngs ror 正則表達式生成器 event 父親全部結果應該 re模塊點我回顧 Beautifulsoup模塊 #安裝 Beautiful Soup pip install beautifulsoup4 #安裝解析器 Beautifu

使用requests、re、BeautifulSoup、線程池爬取攜程酒店信息並保存到Excel中

備案 info imp lis sub host write count star import requests import json import re import csv import threadpool import time, random

爬蟲解析庫快速歸納

spa ng- @class 過濾 getting tps .html imp www XPath XPath也叫XML路徑語言，用來搜索XML文檔在python中，一般使用lxml庫來實現XPath解析： from lxml import etree html =

（最全）Xpath、Beautiful Soup、Pyquery三種解析庫解析html 功能概括

獲取信息 file 取數 hang desc previous lib 則表達式 panel 一、Xpath 解析 ? xpath：是一種在XMl、html文檔中查找信息的語言，利用了lxml庫對HTML解析獲取數據。 Xpath常用規則： &ensp; noden

93、解析庫之re，Beautifulsoup

結果基本 strip 輸出父親 pytho 叠代器 next pan 本篇導航：介紹基本使用遍歷文檔樹搜索文檔樹總結 re模塊在之前的python進階中有講過不再做過多的闡述，本篇為BeautifulSoup庫的分析 20、collections模

Windows環境下python爬蟲常用庫和工具的安裝（UrlLib、Re、Requests、Selenium、lxml、Beautiful Soup、PyQuery 、PyMySQL等等）

本文列出了使用python進行爬蟲時所需的常用庫和工具的安裝過程，基本上只有幾行命令列的功夫就可以搞定，還是十分簡單的。一、UrlLib 與 Re 這兩個庫是python的內建庫，若系統中已經成功安裝了python的話，這兩個庫一般是沒有什麼問題的。驗證開啟命令列，進入

爬蟲知識3：seletors選擇器、Xpath、 BeautifulSoup使用案例

爬蟲實戰：頁面解析詳細指南（正則表示式、XPath、jsoup、Gson）

爬蟲的第二步，是對原始碼進行解析，提煉出目標內容。本篇我們主要介紹以下 4 種常用的解析技術：正則表示式 XPath jsoup Gson 正則表示式正則表示式（Regular Expression），電腦科學的一個概念。通常被用來檢索、替

python爬蟲裡資訊提取的核心方法: Beautifulsoup、Xpath和正則表示式

20170531 這幾天重新拾起了爬蟲，算起來有將近5個月不碰python爬蟲了。對照著網上的程式和自己以前寫的抓圖的程式進行了重寫，發現了很多問題。總結和歸納和提高學習效果的有效手段，因此對於這些問題做個歸納和總結，一方面總結學習成果，使之成為自己的東西，另一方面

解析庫的使用（XPath，BeautifulSoup, pyquery）

從崔慶才的《Python3網路開發實戰》上總結而來使用XPath from lxml import etree html = etree.HTML(text) #呼叫HTML類進行初始化 html = etree.parse(text, etree,HTML.

Python命令行解析庫——argarse、docopt、click、invoke

argarse、docopt、click命令行示例：基本用法$ python [file].py hello Kyle Hello, Kyle! $ python [file].py goodbye Kyle Goodbye, Kyle!W/選項用法（標誌）$ python [file].py hello -

Python3 BeautifulSoup和Pyquery解析庫隨筆

val doc https beautiful bs4 from In tps 初始 BeautifuSoup和Pyquery解析庫方法比較 1.對象初始化： BeautifySoup庫： 1 from bs4 import BeautifulSoup 2 3 htm

Python爬蟲【解析庫之beautifulsoup】

close **kwargs contents pip and lac 代碼 ide num 解析庫的安裝 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析庫") from bs4 import B

爬蟲--解析庫的使用 XPath、BeautifulSoup、pyquery

1. XPath

相關推薦