python BeautifulSoup庫的安裝與使用

阿新 • • 發佈：2020-12-18

1.BeautifulSoup簡介

BeautifulSoup4和 lxml 一樣，Beautiful Soup 也是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 資料。

BeautifulSoup支援Python標準庫中的HTML解析器,還支援一些第三方的解析器，如果我們不安裝它，則 Python 會使用 Python預設的解析器，lxml 解析器更加強大，速度更快，推薦使用lxml 解析器。

Beautiful Soup自動將輸入文件轉換為Unicode編碼，輸出文件轉換為utf-8編碼。你不需要考慮編碼方式，除非文件沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然後，你僅僅需要說明一下原始編碼方式就可以了。

2.BeautifulSoup的安裝

首先我們需要安裝一個BeautifulSoup庫。我安裝的版本是python3。所以就可以直接在cmd下用pip3命令進行安裝。

命令：

pip3 install beautifulsoup4

在安裝好BeautifulSoup後，我們可以通過匯入該庫來判斷是否安裝成功。

命令：

>>>from bs4 import BeautifulSoup

回車後不報錯，這說明我們已經將其安裝成功。

3.BeautifulSoup常用功能

# beautiful soup 網頁中提取資訊的python庫
#  BeautifulSoup 物件表示的是一個文件的全部內容
#  prettify() 按照標準的縮排格式的結構輸出
#  get_text() 會將HTML文件中的所有標籤清除,返回一個只包含文字的字串
from bs4 import BeautifulSoup

text='''
<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
 <title lang="eng">Harry Potter</title>
 <price>29.99</price>
</book>

<book>
 <title lang="eng">Learning XML</title>
 <price>39.95</price>
</book>

</bookstore>
'''

# create 物件
bf=BeautifulSoup(text)

# 按照標準縮排格式輸出
print(bf.prettify())
# 會將HTML文件中的所有標籤清除,返回一個只包含文字的字串
print(bf.get_text())

# Tag物件 
# 標籤 表示HTML中的一個個標籤
# name
# attrs

tag=bf.title # 獲取title標籤
print(tag)
print(type(tag)) # tag型別
print(tag.name) # 標籤名稱
print(tag.attrs) #標籤屬性
print(tag.attrs["lang"]) #單獨獲取某個屬性 方法1
print(bf.title["lang"]) #單獨獲取某個屬性 方法2

# NavigableString tag.string
# 表示標籤中的文字
print(tag.string)
print(type(tag.string)) # 檢視資料型別

# Comment 註釋部分
# 一個特殊型別的NavigableString物件
# 輸出的內容不包括註釋符號
string='''
<p><!-- 這是註釋！ --></p>
'''
sp=BeautifulSoup(string)
print(sp)
print(sp.p.string) # 去獲取標籤中是文字

# 兩個常用函式 


# find_all() 搜尋當前tag的所有tag子節點,並判斷是否符合給定的條件
# 返回結果是一個列,可以包含多個元素
print(soup.find_all('title'),end="\n-------\n")

#find() 直接返回第一個元素
print(soup.find("title"))

print(soup.find_all("title",lang="eng")) # 查詢title標籤 屬性lang=eng
print(soup.find_all("title",{"lang":"eng"})) # 結果同上
print(soup.find_all(["title","price"])) #獲取多個標籤
print(soup.find_all("title",lang="eng")[0].get_text()) # 獲取文字


# 三大常見節點
#  子節點 一個Tag可能包含多個字串或其他的tag，這些都是這個tag的子節點
#  父節點 配個tag或字串都有父節點：被包含在某個tag中
#  兄弟節點 平級的節點
end="\n-------\n"
print(soup.book,end) # 獲取book節點資訊
print(soup.book.contents,end) # 獲取book下的所有子節點
print(soup.book.contents[1],end) # 獲取book下的所有子節點中的第一個節點

print(soup.book.children,end) # children 生成迭代器
for child in soup.book.children:
  print("===",child)
  
print(soup.title.parent,end)
print(soup.book.parent,end)
for parent in soup.title.parents: #注意parent和parents區別
  print("===",parent.name)
  
print(soup.title.next_sibling,end) # 獲取該節點的下一個兄弟節點
print(soup.title.previous_sibling,end) # 獲取該節點的上一個兄弟節點
print(soup.title.next_siblings,end) # 獲取該節點的全部兄弟節點
for i in soup.title.next_siblings: 
  print("===",i)

以上就是python BeautifulSoup庫的安裝與使用的詳細內容，更多關於python BeautifulSoup庫的資料請關注我們其它相關文章！

python BeautifulSoup庫的安裝與使用

1.BeautifulSoup簡介

2.BeautifulSoup的安裝

3.BeautifulSoup常用功能

python BeautifulSoup庫的安裝與使用

mysqldb庫安裝與python互動操作

常用python爬蟲庫介紹與簡要說明

Python HTMLTestRunner庫安裝過程解析

AD元件庫安裝與使用

Python實用庫使用與淺析系列一：httmock

055 Python第三方庫安裝

Python wordcloud庫安裝方法總結

Python第三方庫安裝和解除安裝

python第三方庫安裝教程

Python解析庫lxml與xpath用法總結

Python爬蟲庫BeautifulSoup的介紹與簡單使用例項

Python pip 安裝與使用(安裝、更新、刪除)

使用Python爬蟲庫BeautifulSoup遍歷文件樹並對標籤進行操作詳解

Python爬蟲庫BeautifulSoup獲取物件(標籤)名,屬性,內容,註釋

Python 中的pygame安裝與配置教程詳解

python標準庫sys和OS的函式使用方法與例項詳解

Python安裝與解除安裝流程詳細步驟（圖解）

Python模組/包/庫安裝的六種方法及區別

python GUI庫圖形介面開發之PyQt5美化窗體與控制元件(異形窗體)例項

python BeautifulSoup庫的安裝與使用

1.BeautifulSoup簡介

2.BeautifulSoup的安裝

3.BeautifulSoup常用功能

相關推薦