1. 程式人生 > >beautiful soup的用法

beautiful soup的用法

編碼方式 class 編碼 代碼 簡單的 hello ring htm 工具

  beautiful soup 是Python的一個HTML或XML的解析庫。

  他提供一個簡單的、Python式的函數來處理導航、搜索、修改分析數等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程序。

  beautiful soup 自動將輸入文檔轉化為Unicode編碼,輸出文檔轉化為utf-8編碼。你不需要考慮編碼方式,除非文檔沒有指定一個編碼方式,這時你僅僅需要說明一下原始的編碼方式就可以了。

from bs4 import Beautiful
soup=Beautifulsoup(‘<p>hello</p>‘,‘lxml‘)
print(soup.p.string)

beautiful soup的用法