【網路爬蟲的三種解析方式】

阿新 • • 發佈：2019-01-13

三種解析方式

正則解析
Xpath解析
BeautifulSoup解析

本文將詳細為大家講解三種聚焦爬蟲中的資料解析方式。

requests模組可實現資料爬取的流程

指定url

基於requests模組發起請求

獲取響應物件中的資料

進行持久化儲存

其實，在上述流程中還需要較為重要的一步，就是在持久化儲存之前需要進行指定資料解析。因為，在大多數情況下，我們都是指定去使用聚焦爬蟲，也就是爬取頁面中指定部分的資料值，而不是整個頁面的資料。因此，本文將詳細為大家講解三種聚焦爬蟲中的資料解析方式。至此，我們的資料爬取流程可以修改為：

指定url

基於requests模組發起請求

獲取響應中的資料

資料解析

進行持久化儲存

正則解析

注：這裡將從Python語言的視角講解

re.I 忽略大小寫
re.M 多行匹配
re.S 單行匹配

.* 貪婪模式
.*? 非貪婪(惰性)模式

? 0次或1次
+ 1次或多次
* 0次或1次或多次

{m} 固定m次
{m, } 至少m次
{m, n} m－n次

(\d?) 分組
(?P<name>\d?) 分組命名
(?P=name) 引用前面定義的命名分組
(?:\d?)

取消分組優先
(\d?)\1\1 通過預設分組編號向後引用（這裡將匹配3個相同的數字）
(?<=pattern) 向後肯定斷言的語法

關於正則的更多介紹，可見此文獻：【正則表示式介紹篇】

Xpath解析

pip install lxml

示例

我們先準備好用於測試的HTML頁面：

<html lang="en">
<head>
	<meta charset="UTF-8" />
	<title>Xpath解析測試</title>
</head>
<body 
>
	<div>
		<p>百里守約</p>
	</div>
	<div class="song">
		<p>李清照</p>
		<p>王安石</p>
		<p>蘇軾</p>
		<p>柳宗元</p>
		<a href="http://www.song.com/" title="趙匡胤" target="_self">
			<span>this is span</span>
		宋朝是最強大的王朝，不是軍隊的強大，而是經濟很強大，國民都很有錢</a>
		<a href="" class="du">總為浮雲能蔽日,長安不見使人愁</a>
		<img src="http://www.baidu.com/meinv.jpg" alt="" />
	</div>
	<div class="tang">
		<ul>
			<li><a href="http://www.baidu.com" title="qing">清明時節雨紛紛,路上行人慾斷魂,借問酒家何處有,牧童遙指杏花村</a></li>
			<li><a href="http://www.163.com" title="qin">秦時明月漢時關,萬里長征人未還,但使龍城飛將在,不教胡馬度陰山</a></li>
			<li><a href="http://www.126.com" alt="qi">岐王宅裡尋常見,崔九堂前幾度聞,正是江南好風景,落花時節又逢君</a></li>
			<li><a href="http://www.sina.com" class="du">杜甫</a></li>
			<li><a href="http://www.dudu.com" class="du">杜牧</a></li>
			<li><b>杜小月</b></li>
			<li><i>度蜜月</i></li>
			<li><a href="http://www.haha.com" id="feng">鳳凰臺上鳳凰遊,鳳去臺空江自流,吳宮花草埋幽徑,晉代衣冠成古丘</a></li>
		</ul>
	</div>
</body>
</html>

開始測試：

from lxml import etree  # pip install lxml

# 本地檔案
tree = etree.parse('test01.html')
# 如果是網路檔案，應使用etree.HTML()


# 1.取出class為song的div標籤下的所有文字內容
ret01 = tree.xpath('//div[@class="song"]//text()')
# //text() 表示取出某個標籤下文字內容和所有子標籤下的文字內容，如果存在文字，則返回的是單個元素的列表


# 2.取出class為tang的div下的直系子標籤ul下的直系子標籤第二個li下的直系子標籤a標籤下的內容
ret02 = tree.xpath('//div[@class="tang"]/ul/li[2]/a/text()')
# /text() 表示取出某個標籤下的文字內容，如果存在文字，則返回的是單個或多個元素的文字
# li[2] 表示取第2個li標籤

# 3.取出href屬性值為空 且 class屬性值為du的a標籤內的文字內容
ret03 = tree.xpath('//a[@href="" and @class="du"]/text()')
# 邏輯運算：and

# 4.取出class包含 ta 的div標籤下的所有文字內容(包括子孫標籤)
ret04 = tree.xpath('//div[contains(@class, "ta")]//text()')
ret05 = tree.xpath('//div[starts-with(@class, "ta")]//text()')
# 模糊匹配：contains(@class, "ta") 或 starts-with(@class, "ta")

# 5.取出class為tang的div標籤下的任意標籤下li標籤(第2個)下的a標籤內href屬性的值
ret06 = tree.xpath('//div[@class="tang"]//li[2]/a/@href')

# 6. / 開頭的，表示最外層的標籤
ret07 = tree.xpath('/html/body/div[@class="tang"]//text()')

# 定位所有class為tang的div
tree.xpath('//div[@class="tang"]')  

# 7. .// 表示從當前標籤開始找
ret08 = tree.xpath('.//a/text()')

> # 8. | 表示或者
ret08 = tree.xpath('//div[@class="song"] | //div[@class="tang"]')

你還可以在瀏覽器中安裝xpaht外掛，以實現在瀏覽器中對xpath表示式進行驗證，以及通過html元素獲得xpath表示式。

例項：下載煎蛋網中的圖片

import os
import base64
import requests
from lxml import etree
import urllib.request  # 使用其來快速儲存內容
from fake_useragent import UserAgent  # 隨機UA


url = 'http://jandan.net/pic/page-%s#comments'  # 煎蛋網

headers = {
    'User-Agent': UserAgent(use_cache_server=False).random
}

page_text = requests.get(url=url % 1, headers=headers)  # 爬取第1頁的內容
page_text.encoding = 'utf-8'
content = page_text.text


# 檢視頁面原始碼：發現所有圖片的src值都是一樣的。
# 簡單觀察會發現每張圖片載入都是通過jandan_load_img(this)這個js函式實現的。
# 在該函式後面還有一個class值為img-hash的標籤，裡面儲存的是一組hash值，該值就是加密後的img地址
# 加密就是通過js函式實現的，所以分析js函式，獲知加密方式，然後進行解密。
# 通過抓包工具抓取起始url的資料包，在資料包中全域性搜尋js函式名（jandan_load_img），然後分析該函式實現加密的方式。
# 在該js函式中發現有一個方法呼叫，該方法就是加密方式，對該方法進行搜尋
# 搜尋到的方法中會發現base64和md5等字樣，md5是不可逆的所以優先考慮使用base64解密


tree = etree.HTML(content)

# 獲取所有加密的圖片地址
img_code_list = tree.xpath('//span[@class="img-hash"]/text()')

# 開始解密
img_url_list = []
for code_url in img_code_list:
    img_url = 'http:' + base64.b64decode(code_url).decode()
    img_url_list.append(img_url)

# 儲存圖片
dirname = '煎蛋圖'
os.mkdir(dirname)
for url in img_url_list:
    file_name = url.split('/')[-1]
    file_path = os.path.join(dirname, file_name)
    urllib.request.urlretrieve(url=url, filename=file_path)
    print(f'{file_path}已儲存')

BeautifulSoup解析

待

【網路爬蟲的三種解析方式】

三種解析方式正則解析 Xpath解析 BeautifulSoup解析本文將詳細為大家講解三種聚焦爬蟲中的資料解析方式。 requests模組可實現資料爬取的流程指定url 基於requests模組發起請求

爬蟲的三種解析方式(正則解析, xpath解析, bs4解析)

匹配本地文件 appdata 顯示屬性 fall js函數定位加載一 : 正則解析 : 常用正則回顧: 單字符: . : 除換行符以外的所有字符 [] : [aoe] [a-w] 匹配集合中任意

JSON的三種解析方式

www stat 一個數字符串 .json rom gson 總結 turn 一、什麽是JSON？ JSON是一種取代XML的數據結構,和xml相比,它更小巧但描述能力卻不差,由於它的小巧所以網絡傳輸數據將減少更多流量從而加快速度。 JSON就是一串字符串只不過元素會使

爬蟲三種解析方法

回顧requests實現資料爬取的流程指定url 基於requests模組發起請求獲取響應物件中的資料進行持久化儲存其實，在上述流程中還需要較為重要的一步，就是在持久化儲存之

XML的三種解析方式與JSON解析方式

XML的三種原生解析方式 DOM,SAX,PULL DOM:記憶體消耗大但是便於遍歷.開啟文件,將其轉化為節點樹,然後在其用迴圈的方式,遍歷節點,一一查詢. SAX:速度快,戰記憶體少.但是檔案結構資訊會丟失,採用的是流的處理方式.從起始標籤開始一一

xml中三種解析方式介紹

1）dom: 文件物件模型(Document Object Model) 官方推薦的標準 dom原理:會把我們要解析的整個xml載入到到記憶體中.在記憶體中形成一個樹形結構優點:可以進行增刪改查缺點:由於把整個文件載入到記憶體中.所以會造成記憶體

JSON 的三種解析方式

一、什麼是JSON？ JSON是一種取代XML的資料結構,和xml相比,它更小巧但描述能力卻不差,由於它的小巧所以網路傳輸資料將減少更多流量從而加快速度。 JSON就是一串字串只不過元素會使用特定的符號標註。 {} 雙括號表示物件 [] 中括號表示陣列 "" 雙引號內是

【C#學習筆記】using 三種使用方式

ride over 啟動類型 thread catch key log 調用 1.using指令。using + 命名空間名字，這樣可以在程序中直接用命令空間中的類型，而不必指定類型的詳細命名空間，類似於Java的import，這個功能也是最常用的，幾乎每個cs的程序都會

C++中類的三種繼承方式public（公有繼承）、protected（保護繼承）、private（私有繼承）之間的差別（附思維導圖）【轉】

（轉自：https://blog.csdn.net/coco56/article/details/80467975）注：若不指明繼承方式，則預設是私有繼承。一：對於公有繼承（public)方式：基類的public和protected成員的訪問屬性在派生類中保持不變，但基類的p

爬蟲-三種資料解析方式

引入回顧requests實現資料爬取的流程指定url 基於requests模組發起請求獲取響應物件中的資料進行持久化儲存其實，在上述流程中還需要較為重要的一步，就是在持久化儲存之前需要進行指定資料解析。因為大多數情況下的需求，我們都會指定去使用聚焦爬蟲，也就是爬取頁面中指

Python學習【第20篇】：互斥鎖以及程序之間的三種通訊方式（IPC）以及生產者個消費者模型 python併發程式設計之多程序1-----------互斥鎖與程序間的通訊

python併發程式設計之多程序1-----------互斥鎖與程序間的通訊一、互斥鎖程序之間資料隔離，但是共享一套檔案系統，因而可以通過檔案來實現程序直接的通訊，

CSS【03】：CSS 基礎選擇器與三種引入方式

基礎選擇器選擇器：css 選擇 html 標籤的一個工具，是將 css 與 html 建立起聯絡，那麼 css 就可以控制 html 樣式選擇器其實就是給 html 標籤起名字標籤選擇器作用：根據指定的標籤名稱，在當前介面中找到所有該名稱的標籤，然後設定屬性格式：標籤

Spring-Boot -- RESTFUL風格的API介面的三種呼叫方式【測試】

專案目錄結構圖：說明：博主所有基於學習的內容全部基於上圖中的Spring-Boot框架，專案暫時不會上傳，因為還在完善，而且內容都比較離散，都是學習中遇到哪個知識點就往裡面加，因此，我只拆分

【SpringBoot】HelloWord與SpringBoot的三種啟動方式

第一個SpringBoot應用在這裡我選擇的開發工具是IntelliJ IDEA。在開發前，你需要把環境都裝好，Maven，JDK。按照下面的圖片步驟，即可建好一個helloword專案了。勾選中web選項的web 這三個

大資料（二十三）Hive【Hive三種啟動方式、 HIVE Server2詳解、 jdbc連結HIVE】

一：Hive的三種啟動方式 1， hive 命令列模式進入hive安裝目錄，輸入bin/hive的執行程式，或者輸入 hive –service cli 用於linux平臺命令列查詢，查詢語句基本跟mysql查詢語句類似 2， hive

【JavaWeb】CSS_css的語法和三種使用方式

1.css全稱：cacading style sheet（層疊樣式表） 2.作用：對html標籤進行操作（標籤中文字內容進行設定），美化頁面 CSS語法 1.語法格式：屬性：屬性值； 2.css屬

【網路爬蟲】【java】微博爬蟲（四）：資料處理——jsoup工具解析html、dom4j讀寫xml

之前提到過，對於簡單的網頁結構解析，可以直接通過觀察法、手工寫正則解析，可以做出來，比如網易微博。但是對於結構稍微複雜點的，比如新浪微博，如果還用正則，用眼睛一個個去找，未免太麻煩了。本文介紹兩個工具包：解析html, xml的jsoup，

【Android 併發程式設計】執行緒間通訊的三種基本方式，android執行緒

1. 使用管道流Pipes “管道”是java.io包的一部分。它是Java的特性，而不是Android特有的。一條“管道”為兩個執行緒建立一個單向的通道。生產者負責寫資料，消費者負責讀取資料。下面是一個使用管道流進行通訊的例子。 public class Pip

NBIoT三種部署方式【轉】

des 射頻識別 nec dac 博覽會通信打怪適合終端轉自：https://472880.kuaizhan.com/89/34/p441944286fccf2 本文作者：吳老司撩通信　　本文來源：EETOP NB-IoT支持在頻段內(In-Band)、保

【朝花夕拾】Android自定義View篇之（四）自定義View的三種實現方式及自定義屬性詳解

前言儘管Android系統提供了不少控制元件，但是有很多酷炫效果仍然是系統原生控制元件無法實現的。好在Android允許自定義控制元件，來彌補原生控制元件的不足。但是在很多初學者看來，自定義View似乎很難掌握。其中有很大一部分原因是我們平時看到的自定

【網路爬蟲的三種解析方式】

正則解析

Xpath解析

BeautifulSoup解析

相關推薦