Python BeautifulSoup 簡單筆記
Beautiful Soup 是用 Python 寫的一個 HTML/XML 的解析器,它可以很好的處理不規範標記並生成剖析樹。通常用來分析爬蟲抓取的web文件。對於 不規則的 Html文件,也有很多的補全功能,節省了開發者的時間和精力。
Beautiful Soup 的官方文件齊全,將官方給出的例子實踐一遍就能掌握。官方英文文件,中文文件
一 安裝 Beautiful Soup
安裝 BeautifulSoup 很簡單,下載 BeautifulSoup 原始碼。解壓執行
python setup.py install 即可。
測試安裝是否成功。鍵入 import BeautifulSoup 如果沒有異常,即成功安裝
二 使用 BeautifulSoup
1. 匯入BeautifulSoup ,建立BeautifulSoup 物件
1 2 3 4 5 6 7 8 9 10 11 12 |
from
BeautifulSoup import
BeautifulSoup #
HTML
from
BeautifulSoup import
BeautifulStoneSoup #
XML
import
BeautifulSoup #
ALL
doc
=
[
'<html><head><title>Page
title</title></head>' ,
'<body><p
id="firstpara" align="center">This is paragraph <b>one</b>.' ,
'<p
id="secondpara" align="blah">This is paragraph <b>two</b>.' ,
'</html>' ]
#
BeautifulSoup 接受一個字串引數
soup
=
BeautifulSoup(''.join(doc))
|
2. BeautifulSoup物件簡介
用BeautifulSoup 解析 html文件時,BeautifulSoup將 html文件類似 dom文件樹一樣處理。BeautifulSoup文件樹有三種基本物件。
2.1. soup BeautifulSoup.BeautifulSoup
1 2 |
type (soup)
< class
'BeautifulSoup.BeautifulSoup' >
|
2.2. 標記 BeautifulSoup.Tag
1 2 |
type (soup.html)
< class
'BeautifulSoup.Tag' >
|
2.3 文字 BeautifulSoup.NavigableString
1 2 |
type (soup.title.string)
< class
|