BeautifulSoup4 提取資料爬蟲用法詳解

阿新 • • 發佈：2019-01-15

Beautiful Soup 是一個HTML/XML 的解析器，主要用於解析和提取 HTML/XML 資料。
它基於 HTML DOM 的，會載入整個文件，解析整個 DOM樹，因此時間和記憶體開銷都會
大很多，所以效能要低於lxml。 BeautifulSoup 用來解析 HTML 比較簡單，API非常人性化，支援CSS選擇器、Python
標準庫中的HTML解析器，也支援 lxml 的 XML解析器。雖然說BeautifulSoup4 簡單容易比較上手，但是匹配效率還是遠遠不如正則以及xpath的，一般不推薦使用，推薦正則的使用。

第一步：pip install beautifulsoup4 ，萬事開頭難，先安裝 beautifulsoup4，安裝成功後就完成了第一步。

第二步：匯入from bs4 import BeautifulSoup 這個模組

第三步：建立 Beautiful Soup 物件 soup = BeautifulSoup(html)

開始使用：

Beautiful Soup將複雜HTML文件轉換成一個複雜的樹形結構,每個節點都是Python對
象,所有物件可以歸納為 4種: （1）Tag （2） NavigableString （3） BeautifulSoup （4） Comment

（1）用BeautifulSoup來獲取Tags ：Tag 通俗點講就是 HTML 中的一個個標籤，直接用BeautifulSoup來呼叫

soup = BeautifulSoup(html,’lxml’) 
print(soup.title) 
print(soup.head) 
print(soup.a) 
print(soup.p)
 print(type(soup.p))

這樣就可以得到你想要的標籤內容了。

tag還可以進行增刪改查的操作：

#soup 物件本身比較特殊，它的 name 即為 [document] 
print(soup.name) 
print(soup.head.name) 
#把 p 標籤的所有屬性列印輸出了出來，得到的型別是一個字典。 
print(soup.p.attrs) 
#根據名稱獲取對應的屬性值，型別為列表 
print(soup.p['class'])  
print(soup.p.get('class')) 
# 可以對這些屬性和內容等等進行修改 
soup.p['class'] = "newClass" 
print(soup.p)  
# 刪除屬性
 del soup.p['class'] 
 print(soup.p)

（2） NavigableString

獲取標籤內部的文字用 .string 即可

print(soup.p.string) 
# The Dormouse's story 
 
print(type(soup.p.string)) 
# In [13]: <class 'bs4.element.NavigableString'

(3) BeautifulSoup

BeautifulSoup 物件表示的是一個文件的內容。大部分時候,可以把它當作 Tag物件，是
一個特殊的 Tag，我們可以分別獲取它的型別，名稱，以及屬性

print(type(soup.name)) 
# <type 'unicode'>  
print(soup.name) 
# [document] 
print(soup.attrs) 
# 文件本身的屬性為空 # {}

(4) Comment

Comment物件是一個特殊型別的NavigableString 物件，其輸出註釋但不包含註釋符號。

print(soup.a) 
# <a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a> 
 
print(soup.a.string)
 # Elsie  

 
print(type(soup.a.string))
 # <class 'bs4.element.Comment'>

a 標籤裡的內容實際上是註釋，但是如果我們利用 .string 來輸出它的內容時，註釋符號已經去掉了

一開始搜尋文件樹：.find_all(name, attrs, recursive, text, **kwargs)

1）name 引數
name 引數可以查詢所有名字為 name 的 tag,字串物件會被自動忽略掉
A.傳字串
Beautiful Soup會查詢與字串完整匹配的內容
範例：用於查詢文件中所有的<b>標籤:
print(soup.find_all('b')) print(soup.find_all('a'))
B.傳正則表示式
Beautiful Soup會通過正則表示式的 match()來匹配內容.
範例：找出所有以 b開頭的標籤,這表示<body>和<b>標籤都應該被找到
import re for tag in soup.find_all(re.compile("^b")): print(tag.name)
C.傳列表
Beautiful Soup會將與列表中任一元素匹配的內容返回.
範例：找到文件中所有<a>標籤和<b>標籤:
print(soup.find_all(["a", "b"]))
2）keyword 引數
print(soup.find_all(id='link2'))
3）text 引數
text 引數接受字串,正則表示式,列表, 可以搜搜文件中的字串內容
print(soup.find_all(text="Elsie"))
print(soup.find_all(text=["Tillie", "Elsie", "Lacie"]))
print(soup.find_all(text=re.compile("Dormouse")))

二 CSS選擇器（重點！！！！！！）

寫 CSS時，標籤名不加任何修飾，類名前加.，id名前加#
可以利用類似的 soup.select()方法來篩選元素，返回結果是 list
soup.select_one() 返回值是list的首個。
（1）通過標籤名查詢
print(soup.select('title')) print(soup.select('a')) print(soup.select('b'))
（2）通過類名查詢
print(soup.select('.sister'))
（3）通過 id 名查詢
print(soup.select('#link1'))
（4）組合查詢
組合查詢即和寫 class檔案時，標籤名與類名、id名進行的組合原理是一樣的，例如查詢
p 標籤中，id 等於 link1的內容，二者需要用空格分開
print(soup.select('p #link1')) 直接子標籤查詢，則使用 > 分隔
print(soup.select("head > title"))
（5）屬性查詢
查詢時還可以加入屬性元素，屬性需要用中括號括起來，注意屬性和標籤屬於同一節點，
所以中間不能加空格，否則會無法匹配到。
print(soup.select('a[class="sister"]'))
print(soup.select('a[href="http://example.com/elsie"]'))
同樣，屬性仍然可以與上述查詢方式組合，不在同一節點的空格隔開，同一節點的不加
空格
print(soup.select('p a[href="http://example.com/elsie"]'))
（6）獲取內容
可以遍歷 select 方法返回的結果，然後用 get_text() 方法來獲取它的內容。
soup = BeautifulSoup(html, 'lxml')
print(type(soup.select('title')))
print(soup.select('title')[0].get_text())
for title in soup.select('title'):
print(title.get_text())

學會以上這些，基本就可以自己掌握BeautifulSoup4的使用了

BeautifulSoup4 提取資料爬蟲用法詳解

BeautifulSoup4 提取資料爬蟲用法詳解

Android官方資料繫結框架DataBinding用法詳解+附帶DEMO原始碼

Vue2.0學習——axios用法詳解2引入本地json資料(axios和vue-axios)

python爬蟲基礎:Beautiful Soup用法詳解

JavaScript中return的用法詳解

SVN trunk(主線) branch(分支) tag(標記) 用法詳解和詳細操作步驟

js 定時器用法詳解——setTimeout()、setInterval()、clearTimeout()、clearInterval()

selenium用法詳解

C# ListView用法詳解

linux cp命令參數及用法詳解---linux 復制文件命令cp

Python數據類型方法簡介一————字符串的用法詳解

C# ListView用法詳解（轉）

java中的instanceof用法詳解

@RequestMapping 用法詳解

Css中路徑data:image/png;base64的用法詳解 (轉載)

global用法詳解

java中靜態代碼塊的用法—— static用法詳解

<!CDATA[]]用法詳解

Es6 Promise 用法詳解

[轉] angular2-highcharts用法詳解

BeautifulSoup4 提取資料爬蟲用法詳解

相關推薦