1. 程式人生 > 其它 >python 第三方庫BeautifulSoup4文件學習(1)

python 第三方庫BeautifulSoup4文件學習(1)

戳這裡:bs4.4.0 的官方文件

ps:下面部分內容摘自官方文件

來自bs4的簡介

Beautiful Soup是一個可以提取html或者xml這種具有格式的檔案控制代碼或者字串的python三方庫,它可以在短時間內通過轉換器對符合提取條件的檔案進行批量的修改、檔案指南等操作;

安裝Beautiful Soup

因為Beautiful Soup是通過PyPi釋出,可以通過easy_install BeautifulSoup4或者pip install BeautifulSoup4來安裝,筆者這裡使用的pip安裝的,安裝過程如果比較緩慢可以使用pip install BeautifulSoup4 -i [指定映象源,如http://pypi.doubanio.com/simple/] 的方式進行安裝,可以避免官網下載速度比較慢的情況;還有的系統如Debian或者Ubuntu新版本中使用自帶的包管理器就可以安裝;當然也可以下載原始碼包的方式等

安裝解析器

也有多種方式,這裡也可以使用pip install lxml命令安裝,注意這個lxml是眾多解析中的一個,但是也是比較推薦使用的一個

簡單的使用

例如:
# 首先我需要引入BeautifulSoup包

from bs4 import BeautifulSoup

# 獲取一個BeautifulSoup的物件soup,傳入的引數可以是一個檔案控制代碼或者字串

soup = BeautifulSoup('<a id="link_tag">這是一個html標籤</a>')

# 為soup指定解析器,預設不指定的話會自動選擇最合適的解析器

soup = BeautifulSoup('<a id="link_tag">這是一個html標籤</a>','xml')

# 指定後的soup:

<?xml version="1.0" encoding="utf-8"?>
<a id="link_tag">這是一個html標籤</a>

# 預設的soup:

<html><body><a id="link_tag">這是一個html標籤</a></body></html>