簡單比較 BeautifulSoup 和 Xpath 的效能

阿新 • • 發佈：2019-01-08

一些說明

我為什麼要寫這篇文章？

　　其實這篇文章並不是為了比較出結論，因為結論是顯而易見的，Xpath 必然是要比 BeautifulSoup 在時間和空間上都要效能更好一些。其中理由有很多，其中一個很明顯的是 BeautifulSoup 在構建一個物件的時候需要傳入一個引數以指定解析器，而在它支援的眾多的解析器中，lxml 是效能最佳的，那麼 BeautifulSoup 物件的各種方法可以理解為是對 lxml 的封裝，換句話說，BeautifulSoup 本質上並沒有創造出自己的解析方式，而是建立在各種解析器的基礎上。考慮到其他一些內部耗時因素，BeautifulSoup 註定會比 lxml 甚至是任何一個構建物件時使用的解析器要慢，要更耗費空間。只有付出這樣子的代價才能夠換來它的簡潔、優美與使用者友好性。
　　那麼，本文其實是通過一個爬蟲例子來簡單的驗證一下這個結論，以及對它們之間的差距有一個數量上的認識。

測試例子

# test.py
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup, SoupStrainer
import traceback
import json
from lxml import etree
import re
import time

def getHtmlText(url):
    try:
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        if r.encoding == 'ISO-8859-1' 
:
            r.encoding = r.apparent_encoding
        return r.text
    except:
        traceback.print_exc()

def parseWithBeautifulSoup(html_text):
    soup = BeautifulSoup(html_text, 'html.parser') # 後改為 'lxml'
    content = []
    for mulu in soup.find_all(class_='mulu'):
        h2 = mulu.find('h2' 
)
        if h2 != None:
            h2_title = h2.string # 獲取標題
            lst = []
            for a in mulu.select('div.box a'):
                href = a.get('href')
                box_title = a.get('title')
                pattern = re.compile(r'\s*\[(.*)\]\s+(.*)') # (re) 匹配括號內的表示式，也表示一個組
                match = pattern.search(box_title)
                if match != None:
                    date = match.group(1)
                    real_title = match.group(2)
                    lst.append({'href':href,'title':real_title,'date':date})
            content.append({'title':h2_title,'content':lst})
    with open('dmbj_bs.json', 'w') as fp:
        json.dump(content, fp=fp, indent=4)

def parseWithXpath(html_text):
    html = etree.HTML(html_text)
    div_mulus = html.xpath('.//*[@class="mulu"]') # 先找到所有的 div class=mulu 標記
    content = []
    for div_mulu in div_mulus:
        # 找到所有的 div_h2 標記
        div_h2 = div_mulu.xpath('./div[@class="mulu-title"]/center/h2/text()')
        if len(div_h2) > 0:
            h2_title = div_h2[0]
            a_s = div_mulu.xpath('./div[@class="box"]/ul/li/a')
            lst = []
            for a in a_s:
                # 找到 href 屬性
                href = a.xpath('./@href')[0]
                # 找到 title 屬性
                box_title = a.xpath('./@title')[0]
                pattern = re.compile(r'\s*\[(.*)\]\s+(.*)') # (re) 匹配括號內的表示式，也表示一個組
                match = pattern.search(box_title)
                if match != None:
                    date = match.group(1)
                    real_title = match.group(2)
                    lst.append({'href':href,'title':real_title,'date':date})
            content.append({'title':h2_title,'content':lst})
    with open('dmbj_xp.json', 'w') as fp:
        json.dump(content, fp=fp, indent=4)

def main():
    html_text = getHtmlText('http://www.seputu.com')
    print(len(html_text))
    start = time.clock()
    parseWithBeautifulSoup(html_text)
    print('BSoup cost:', time.clock()-start)
    start = time.clock()
    parseWithXpath(html_text)
    print('Xpath cost:', time.clock()-start)

if __name__ == '__main__':
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'
    headers={'User-Agent': user_agent}
    main()

執行截圖

html.parser

lxml
lxml

結果分析

　　可以看到，當我們使用 html.parser 作為解析器時，BeautifulSoup 解析的耗時平均是 Xpath 的 1.8 倍+；當我們使用 lxml 作為解析器時，BeautifulSoup 解析的耗時雖有減少，但平均仍是 Xpath 的 1.5 倍+。

最後

　　BeautifulSoup 這碗美味湯確實是美味可口，但是一碗好湯煲制時間和用料上面都更加花費，這無可厚非。Xpath 相對來說可能語義性沒有前者強，但總體也是 user-friendly，也很好用，功能十分強大，最重要的是它的爸爸 lxml 使用 C 編寫的，速度自然就不必說了，如果在很追求效率和資源節約的情況下，熟練運用 Xpath 會使你感到無盡的愉悅。

簡單比較 BeautifulSoup 和 Xpath 的效能

一些說明我為什麼要寫這篇文章？　　其實這篇文章並不是為了比較出結論，因為結論是顯而易見的，Xpath 必然是要比 BeautifulSoup 在時間和空間上都要效能更好一些。其中理由有很多，其中一個很明顯的是 BeautifulSoup 在構建一個物

利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊

利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊文章開始把我喜歡的這句話送個大家：這個世界上還有什麼比自己寫的程式碼執行在一億人的電腦上更酷的事情嗎，如果有那就是讓這個數字再擴大十倍！ 1.BeautifulSoup實現 #!/usr/

簡單比較lock和synchronized

synchronized是基於jvm底層實現的資料同步，lock是基於Java編寫，主要通過硬體依賴CPU指令實現資料同步。下面一一介紹一、　　1.synchronized　優點：實現簡單，語義清晰，便於JVM堆疊跟蹤，加鎖解鎖過程由JVM自動控制，提供了多種優化方案，使用更廣泛　　缺點：悲觀的排他鎖，不能進

mysql和Oracle的簡單比較

空值 localhost pda varchar2 自連接 smi ins 修改字段條件 ORA-27101: shared memory realm does not exist解決方法: 1、用CMD進入命令行2、sqlplus /nolog3、conn / as s

angular4.0和angularJS、react.js、vue.js的簡單比較

width 文檔個人過程處理特性很好單頁應用兼容 angularJS特性模板功能強大豐富（數據綁定大大減少了代碼量）比較完善的前端MVC框架（只要學習這個框架，按照規定往裏面填東西就可以完成前端幾乎所有的的問題）引入了Java的一些概念 angu

集中式（SVN）和分布式（Git）版本控制系統的簡單比較

ron table targe 特點相對 tps ble 12px pan 集中式（SVN）分布式（Git）是否有中央服務器有。開發人員需要從中央服務器獲得最新版本的項目然後在本地開發，開發完推送給中央服務器。因此脫離服

關於DH和RSA算法的簡單比較

加解密 RSA算法 DH算法本文簡單地談下關於安全中最為常用的兩個非對稱加密的DH算法及RSA算法，文中無意於涉及一些數學原理，這個在網上已經有很多文章敘述了，再重復也沒有太多意思（這類文章只要關註兩點，**其一是密鑰生成方法，其二就是數據的加解密公式**），此文僅僅是幫助一般用戶能夠明確

DOM4J 和xpath的簡單實用

Dom4j是一個簡單靈活的開放原始碼的庫，Dom4j是由早期開發Jdom的人分離出來獨立開發的，與jdom不同的是，dom4j使用介面和抽象型別，雖然dom4j的api相對要複雜一些，但是它提供了比jdom更好的靈活性。 Dom4j是一個非常優秀的java xml api ，具有效能優異，功能強

Julia和Java效能比較

1、介紹 Julia效能號稱可以趕得上c/c++，我很好奇Julia的執行速度，因為我一直用的是Java，所以就想把Julia和Java做一下簡單的比較。這次比較一下Julia和Java做一億次加法運算的速度。 2、Julia不做優化和Java比較首先我寫的Jul

【宇潤日常瘋測-005】PHP 中的 clone 和 new 效能比較

clone和new本不應該放在一起比較，它們的作用是不同的。但可能有一些場景下，可以用clone也可以用new，那麼這時候我們選哪個呢？我編寫了兩個測試，第一個是宣告一個空類，第二個是帶構造方法、屬性的類。另外，我還加入了 PHP 序列化的測試。國際慣例，直接上程式碼，一目瞭然。程式碼 <?php

RelativeLayout和LinearLayout效能比較相對佈局和線性佈局的效能比較

看到幾篇關於RelativeLayout和LinearLayout效能分析的部落格，寫的相當不錯，這裡在大神的基礎上，增加了部分內容 RelativeLayout和LinearLayout是Android中常用的佈局，兩者的使用會極大的影響程式生成每一幀的效能，因此，正確的使用它們是提升

cookie 和session的簡單比較

1、cookie資料存放在客戶的瀏覽器上，session資料放在伺服器上。 2、cookie不是很安全，別人可以分析存放在本地的COOKIE並進行COOKIE欺騙考慮到安全應當使用session。 3、session會在一定時間內儲存在伺服器上。當訪問增多，會比較佔用你伺服器的效

比較JDBC和Mybatis進行批處理時的效能比較

執行批量操作時，做了個比較Mybatis和JDBC執行時間的記錄，JDBC還是強大太多了！ jdbc.properties檔案 jdbc.url=jdbc:mysql://localhost:3306/mybatis?useUnicode=true&characterE

int和Integer的簡單比較

int與Integer的區別 1、屬於四類八種基本型別中的一種，用int 宣告的變數是非物件型別，即不能在其上呼叫方法。Integer是一個類（包裝類），用Integer宣告變數其實一個物件型別（或者是一個引用型別） 2、“==”作用於基本型別時比較的是基本型別的值，作用於物件上

簡單比較國內外主流瀏覽器的效能

伴隨著WEB3.0的發展與成熟，瀏覽器不僅僅只作為一款軟體陳列在桌面上，它如同一扇心靈的窗戶將使用者帶進五彩繽紛的WEB世界，在網際網路天高海闊中盡情衝浪。隨著各大產商對各瀏覽器的更新與改進，目前國內外瀏覽器的市場佔有率不再是“一家獨大”，格局正在潛移默化的轉變

LongAdder與AtomicInteger併發效能的簡單比較測試

測試程式碼如下： package lhever.JVM; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ExecutorService; import java

說說markdown和latex的簡單比較

latex是純學術風格，寫paper寫書用 markdown是程式設計師風格，寫筆記貼程式碼片段用簡單說，latex適合長篇、精緻，比如數學公式、圖片位置調整、表格樣式調整。而markdown

python list/tuple/dict/set/deque的簡單比較、優化和時間複雜度

一、關於增刪改查序列listtupledictsetdeque能否增加元素√×√√√是否有序√√××√能否刪除√×√√√可否雜湊×√√√×序列listtupledictsetdeque增加方法append、extend、insert×updateadd、updateappen

簡單比較init-method，afterPropertiesSet和BeanPostProcessor

一、簡單介紹 1、init-method方法，初始化bean的時候執行，可以針對某個具體的bean進行配置。init-method需要在applicationContext.xml配置文件中bean的定義裡頭寫明。例如：這樣，當TestBean在初始化的時候會執行TestBean中定義的init方法。2、af

比較List和ArrayList的效能及ArrayList和LinkedList優缺點

List和ArrayList的效能比較在使用ArrayList這樣的非泛型集合的過程中，要進行裝箱和拆箱操作，會有比較大的效能損失，而使用泛型集合就沒有這樣的問題。List是泛型，而ArrayList是非泛型。存資料島ArrayList都需要專程object,讀取又要轉換成相應的資料型別,List則不需要。

簡單比較 BeautifulSoup 和 Xpath 的效能

一些說明

測試例子

最後

相關推薦