python3爬蟲（二）-使用beautiful soup 讀取網頁

阿新 • • 發佈：2019-01-16

Beautiful Soup簡介

簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下：

Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為簡單，所以不需要多少程式碼就可以寫出一個完整的應用程式。

Beautiful Soup自動將輸入文件轉換為Unicode編碼，輸出文件轉換為utf-8編碼。你不需要考慮編碼方式，除非文件沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然後，你僅僅需要說明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python直譯器，為使用者靈活地提供不同的解析策略或強勁的速度。

Beautiful Soup四大物件

Beautiful Soup將複雜HTML文件轉換成一個複雜的樹形結構,每個節點都是Python物件,所有物件可以歸納為4種:

Tag
NavigableString
BeautifulSoup
Comment

建立Beautiful Soup物件

from bs4 import BeautifulSoup
from urllib import request

html = request.urlopen("https://movie.douban.com/" 
)  
bs=BeautifulSoup(html,"lxml")    #將html物件轉化為BeautifulSoup物件

Tag

Tag通俗點講就是HTML中的一個個標籤，下面我們來感受一下怎樣用 Beautiful Soup 來方便地獲取 Tags。
我們可以利用 soup加標籤名輕鬆地獲取這些標籤的內容，是不是感覺比正則表示式方便多了？不過有一點是，它查詢的是在所有內容中的第一個符合要求的標籤

print(bs.title)

<title>
        豆瓣電影
</title>

print(bs.head)

只寫一部分返回

<head 
>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="webkit" name="renderer"/>
<meta content="always" name="referrer"/>
<title>
        豆瓣電影
</title>
<meta content="cZdR4xxR7RxmM4zE" name="baidu-site-verification"/>
<meta content="no-cache" http-equiv="Pragma"/>
<meta content="Sun, 6 Mar 2005 01:00:00 GMT" http-equiv="Expires"/>
<meta content="format=xhtml; url=http://m.douban.com/movie/" http-equiv="mobile-agent"/>
<meta content="13753521351564752166375" property="qc:admins"/>
<meta content="電影、經典電影、熱映、電視劇、美劇、影評、電影院、電影票、排行、推薦" name="keywords"/>
<meta content="豆瓣電影提供最新的電影介紹及評論包括上映影片的影訊查詢及購票服務。你可以記錄想看、在看和看過的電影電視劇，順便打分、寫影評。根據你的口味，豆瓣電影會推薦好電影給你。" name="description"/>

print(bs.a)
#<a class="nav-login" href="https://www.douban.com/accounts/login?source=movie" rel="nofollow">登入</a>
print(bs.p)
<p class="appintro-title">豆瓣</p>

對於Tag，有兩個重要的屬性：name和attr
name
soup 物件本身比較特殊，它的 name 即為 [document]，對於其他內部標籤，輸出的值便為標籤本身的名稱。

print(bs.name)
print(bs.title.name)
#[document]
#title

attrs

print(bs.a.attrs)

{'class': ['nav-login'], 'href': 'https://www.douban.com/accounts/login?source=movie', 'rel': ['nofollow']}

在這裡，我們把 a 標籤的所有屬性列印輸出了出來，得到的型別是一個字典。

如果我們想要單獨獲取某個屬性，可以這樣，例如我們獲取a標籤的class叫什麼，兩個等價的方法如下：

print(bs.a['class'])
print(bs.a.get('class'))

['nav-login']

NavigableString

既然我們已經得到了標籤的內容，那麼問題來了，我們要想獲取標籤內部的文字怎麼辦呢？很簡單，用 .string 即可，例如

print(bs.a.string)

登入

BeautifulSoup

BeautifulSoup 物件表示的是一個文件的全部內容.大部分時候,可以把它當作 Tag 物件，是一個特殊的 Tag，我們可以分別獲取它的型別，名稱，以及屬性
Comment

Comment物件是一個特殊型別的NavigableString物件，其實輸出的內容仍然不包括註釋符號，但是如果不好好處理它，可能會對我們的文字處理造成意想不到的麻煩。

from bs4 import element

if type(soup.li.string) == element.Comment:
     print(soup.li.string)

上面的程式碼中，我們首先判斷了它的型別，是否為 Comment 型別，然後再進行其他操作，如列印輸出。

遍歷文件數

直接子節點(不包含孫節點)
contents：
tag的content屬性可以將tag的子節點以列表的方式輸出：

輸出方式為列表，我們可以用列表索引來獲取它的某一個元素：

print(bs.body.contents[1])
#<script type="text/javascript">var _body_start = new Date();</script>

children
它返回的不是一個 list，不過我們可以通過遍歷獲取所有子節點，它是一個 list 生成器物件：
這裡寫圖片描述

利用列表解析
這裡寫圖片描述

搜尋文件樹

find_all(name, attrs, recursive, text, limit, **kwargs)：

find_all() 方法搜尋當前tag的所有tag子節點,並判斷是否符合過濾器的條件。

1) name引數：
name 引數可以查詢所有名字為 name 的tag,字串物件會被自動忽略掉。

傳遞字元：

最簡單的過濾器是字串，在搜尋方法中傳入一個字串引數,Beautiful Soup會查詢與字串完整匹配的內容,下面的例子用於查詢文件中所有的標籤：
這裡寫圖片描述

傳遞正則表示式：

如果傳入正則表示式作為引數,Beautiful Soup會通過正則表示式的 match() 來匹配內容.下面例子中找出所有以b開頭的標籤,這表示body和b標籤都應該被找到

這裡寫圖片描述

傳遞列表：
如果傳入列表引數，Beautiful Soup會將與列表中任一元素匹配的內容返回，下面程式碼找到文件中所有title標籤和b標籤：

print(bs.find_all(['title','b']))

[<title>
        豆瓣電影
</title>]

傳遞True：

True 可以匹配任何值,下面程式碼查詢到所有的tag,但是不會返回字串節點：

for tag in bs.find_all(True):
    print(tag.name)

這裡寫圖片描述

上述圖片均只取一部分

2）attrs引數

我們可以通過 find_all() 方法的 attrs 引數定義一個字典引數來搜尋包含特殊屬性的tag。

print(bs.find_all(attrs={"class":"title"}))

這裡寫圖片描述

3）recursive引數

呼叫tag的 find_all() 方法時,Beautiful Soup會檢索當前tag的所有子孫節點,如果只想搜尋tag的直接子節點,可以使用引數 recursive=False。
4）text引數

通過 text 引數可以搜搜文件中的字串內容，與 name 引數的可選值一樣, text 引數接受字串 , 正則表示式 , 列表, True

print(bs.find_all(text="機器之血"))
['機器之血']

5）limit引數

find_all() 方法返回全部的搜尋結構,如果文件樹很大那麼搜尋會很慢.如果我們不需要全部結果,可以使用 limit 引數限制返回結果的數量.效果與SQL中的limit關鍵字類似,當搜尋到的結果數量達到 limit 的限制時,就停止搜尋返回結果。

print(bs.find_all('a',limit=5))
[<a class="nav-login" href="https://www.douban.com/accounts/login?source=movie" rel="nofollow">登入</a>, <a class="nav-register" href="https://www.douban.com/accounts/register?source=movie" rel="nofollow">註冊</a>, <a class="lnk-doubanapp" href="https://www.douban.com/doubanapp/app?channel=top-nav">下載豆瓣客戶端</a>, <a href="https://www.douban.com/doubanapp/redirect?channel=top-nav&amp;direct_dl=1&amp;download=iOS">iPhone</a>, <a class="download-android" href="https://www.douban.com/doubanapp/redirect?channel=top-nav&amp;direct_dl=1&amp;download=Android">Android</a>]

結果只返回了5個,因為我們限制了返回數量：
- 6）kwargs引數

如果傳入 class 引數,Beautiful Soup 會搜尋每個 class 屬性為 title 的 tag 。kwargs 接收字串，正則表示式
這裡寫圖片描述

基於bs4庫的HTML內容遍歷方法

這裡寫圖片描述
平行遍歷

上行遍歷

下行遍歷

由find_all()擴充套件的七個方法
這裡寫圖片描述

#傳遞一個ID，定位到導航欄
rev_bar = bs.find(id="reviews")
#遍歷導航欄的後繼
for d in rev_bar.descendants:
    print(d)

#到導航欄的最後一個後繼，使用.previous_siblings來遍歷導航元素的鄰居
for s in d.previous_siblings:
    print(s)

這裡寫圖片描述

參考文件

很好的文章
 官方文件
 bs4的遍歷

python3爬蟲（二）-使用beautiful soup 讀取網頁

Beautiful Soup簡介

Beautiful Soup四大物件

遍歷文件數

基於bs4庫的HTML內容遍歷方法

參考文件

python3爬蟲（二）-使用beautiful soup 讀取網頁

爬蟲學習筆記（五） Beautiful Soup使用

Python3使用selenium庫簡單爬蟲（二）

Python3.7 爬蟲（二）使用 Urllib2 與 BeautifulSoup4 抓取解析網頁

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

Python3安裝（二）

Python學習之路（三）爬蟲（二）

爬蟲（二）：Urllib庫詳解

Python爬蟲（二）網絡爬蟲的尺寸與約束

Python3爬蟲（四）請求庫的使用requests

Python3爬蟲（八）數據存儲之TXT、JSON、CSV

Python3爬蟲（九）數據存儲之關系型數據庫MySQL

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

Python從零開始寫爬蟲（二）BeautifulSoup庫使用

爬蟲（二）：Lucene

自學Python爬蟲（二）Requests庫的使用

爬蟲（二）

Python爬蟲（二）：爬蟲獲取資料儲存到檔案

python3教程（二）：下載安裝python

python爬蟲（二）----正則表示式

python3爬蟲（二）-使用beautiful soup 讀取網頁

Beautiful Soup簡介

Beautiful Soup四大物件

遍歷文件數

基於bs4庫的HTML內容遍歷方法

參考文件

相關推薦