Python 之資料抓取三種方法

阿新 • • 發佈：2022-04-01

Python 之資料抓取三種方法

正則表示式（re庫）
BeautifulSoup（bs4）
lxml

利用之前構建的下載網頁函式，獲取目標網頁的html。

例子

我們以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/為例，獲取html。

from get_html import download
 
url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)

假設我們需要爬取該網頁中的國家名稱和概況，我們依次使用這三種資料抓取的方法實現資料抓取。

正則表示式

from get_html import download
import re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是list
survey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)
survey_info_list = re.findall('<p>　　(.*?)</p>', survey_data[0])
survey_info = ''.join(survey_info_list)
print(country[0],survey_info)

BeautifulSoup（bs4）

from get_html import download
from bs4 import BeautifulSoup

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
html = download(url)
#建立 beautifulsoup 物件
soup = BeautifulSoup(html,"html.parser")
#搜尋
country = soup.find(attrs={'class':'h2dabiaoti'}).text
survey_info = soup.find(attrs={'id':'wzneirong'}).text
print(country,survey_info)

lxml

from get_html import download
from lxml import etree #解析樹

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
selector = etree.HTML(page_content)#可進行xpath解析
country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表
for country in country_select:
 print(country.text)
survey_select = selector.xpath('//*[@id="wzneirong"]/p')
for survey_content in survey_select:
 print(survey_content.text,end='')

執行結果

對比

引用《用python寫網路爬蟲》中對三種方法的效能對比，如下圖：

最後加個自己使用後得一些理解：

re：無敵，但是比較複製，各種排序什麼的要熟練，熟練後基本全部資料都可以爬。
BeautifulSoup（bs4）：使用雖然簡單，但侷限性個人認為比較大，因為很多網頁的元素不是固定的，還有可能是動態class和id。
lxml ：問題和 BeautifulSoup（bs4）一樣，動態class和id的問題。

感謝原博：https://www.jb51.net/article/205596.htm

Python 之資料抓取三種方法

Python 之資料抓取三種方法正則表示式（re庫） BeautifulSoup（bs4） lxml 利用之前構建的下載網頁函式，獲取目標網頁的html。

爬蟲與Python：（四）爬蟲進階一之資料抓取——2.Python模擬Ajax

如何用用Python模擬Ajax請求，我們仍然以飛常準大資料為例（https://data.variflight.com/analytics/CodeQuery），通過查詢北京機場的三個字母碼“PEK”來請求獲取它的資料，把北京機場的資訊提取出來。

Python操作MySQL資料庫的三種方法總結

1. MySQLdb 的使用 (1) 什麼是MySQLdb？ MySQLdb 是用於 Python 連線 MySQL 資料庫的介面，它實現了 Python 資料庫 API 規範 V2.0，基於 MySQL C API 上建立的。

python+mongodb資料抓取詳細介紹

分享點乾貨！！！ Python資料抓取分析程式設計模組：requests,lxml，pymongo，time，BeautifulSoup

python操作redis資料庫的三種方法

安裝依賴 pip3 install redis 使用的三種方式直接使用 import redis r = redis.Redis(host=\'127.0.0.1\',port=6379,db=1,password=None,decode_responses=True)

python基礎教程python操作redis資料庫的三種方法

更多python教程請到：安裝依賴 pip3 install redis 使用的三種方式直接使用 import redis

Python 刪除List元素的三種方法remove、pop、del

1.remove: 刪除單個元素，刪除首個符合條件的元素，按值刪除，從左向右依次刪除符合條件的值

python中實現棧的三種方法

棧是一種線性資料結構，用先進後出或者是後進先出的方式儲存資料，棧中資料的插入刪除操作都是在棧頂端進行，常見棧的函式操作包括

盤點Python列表生成式的三種方法

一、前言列表生成式即List Comprehensions，是Python內建的非常簡單卻強大的可以用來建立list的生成式。

vue中資料請求的三種方法

注意請求可能存在跨域問題，需要去配置好這三種建議使用axios 1.resource 　　Vue 要實現非同步載入需要使用到 vue-resource 庫。

python之資料型別的內建方法(str, list)

目錄字串的內建方法移除首尾指定字元字母大小寫相關操作判斷字串的開頭或結尾是否是指定字元

Python爬蟲之json動態資料抓取

python爬蟲之get請求 # 安裝requests包：pip install requests import requests response = requests.get(\'https://www.baidu.com/more/\')

python從ftp抓取最近三天資料

https://blog.csdn.net/weixin_42496466/article/details/120293070?spm=1001.2014.3001.5502、不囉嗦，直接上程式碼：

python保留小數位的三種實現方法

前言保留小數位是我們經常會碰到的問題，尤其是刷題過程中。那麼在python中保留小數位的方法也非常多，但是筆者的原則就是什麼簡單用什麼，因此這裡介紹幾種比較簡單實用的保留小數位的方法：

python 字典訪問的三種方法小結

定義字典 dic = {\'a\':\"hello\",\'b\':\"how\",\'c\':\"you\"} 方法一： for key in dic: 　　print key,dic[key]

python求絕對值的三種方法小結

如下所示： 1.條件判斷 2.內建函式abs() 3.內建模組 math.fabs abs() 與fabs()的區別 abs()是一個內建函式，而fabs()在math模組中定義的。

python解析命令列引數的三種方法詳解

這篇文章主要介紹了python解析命令列引數的三種方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

詳解python播放音訊的三種方法

第一種使用pygame模組 pygame.mixer.init() pygame.mixer.music.load(self.wav_file) pygame.mixer.music.set_volume(0.5)

python GUI庫圖形介面開發之PyQt5中QWebEngineView內嵌網頁與Python的資料互動傳參詳細方法例項

這幾天研究了下PyQt5中QWebEngineView內嵌網頁與Python的資料互動，今天把例項方法與程式碼釋出出來供大家引數

Python計算指定日期是今年的第幾天(三種方法)

今天早上和騰訊面試官進行了視訊面試，由於音量和網路以及我的垃圾電腦的原因，個人感覺黃了...