python 第三方庫BeautifulSoup4文件學習（1）

阿新 • • 發佈：2021-11-03

ps:下面部分內容摘自官方文件

來自bs4的簡介

Beautiful Soup是一個可以提取html或者xml這種具有格式的檔案控制代碼或者字串的python三方庫，它可以在短時間內通過轉換器對符合提取條件的檔案進行批量的修改、檔案指南等操作；

安裝Beautiful Soup

因為Beautiful Soup是通過PyPi釋出，可以通過easy_install BeautifulSoup4或者pip install BeautifulSoup4來安裝，筆者這裡使用的pip安裝的，安裝過程如果比較緩慢可以使用pip install BeautifulSoup4 -i [指定映象源，如http://pypi.doubanio.com/simple/] 的方式進行安裝，可以避免官網下載速度比較慢的情況；還有的系統如Debian或者Ubuntu新版本中使用自帶的包管理器就可以安裝；當然也可以下載原始碼包的方式等

安裝解析器

也有多種方式，這裡也可以使用pip install lxml命令安裝，注意這個lxml是眾多解析中的一個，但是也是比較推薦使用的一個

簡單的使用

例如：
# 首先我需要引入BeautifulSoup包

from bs4 import BeautifulSoup

# 獲取一個BeautifulSoup的物件soup，傳入的引數可以是一個檔案控制代碼或者字串

soup = BeautifulSoup('<a id="link_tag">這是一個html標籤</a>')

# 為soup指定解析器，預設不指定的話會自動選擇最合適的解析器

soup = BeautifulSoup('<a id="link_tag">這是一個html標籤</a>','xml')

# 指定後的soup：

<?xml version="1.0" encoding="utf-8"?>
<a id="link_tag">這是一個html標籤</a>

# 預設的soup：

<html><body><a id="link_tag">這是一個html標籤</a></body></html>

python 第三方庫BeautifulSoup4文件學習（1）

來自bs4的簡介

安裝Beautiful Soup

安裝解析器

簡單的使用

python 第三方庫BeautifulSoup4文件學習（1）

python 第三方庫BeautifulSoup4文件學習（2）

python 第三方庫BeautifulSoup4文件學習（3）

基於python-pptx庫中文文件及使用詳解

一起來讀官方文件-----SpringIOC（08）

一起來讀官方文件-----SpringIOC（11）

記錄學習《流暢的python》的一些知識-----一等函式（1）

Python個人學習（1）——變數及簡單資料型別

CSS3繼承&選擇器權重&畫素&百分比&em&rem&RGB值&HSL值&文件流（佈局）

產品經理資料埋點文件指南（入門）

Python學習（1）-基礎語法學習丨【生長吧！Python】

一文解讀JavaScript中的文件物件（DOM）

python人臉識別專案之基礎學習（二）：TensorFlow的簡單操作

Python人臉識別專案之基本學習（一）：安裝TensorFlow

python安裝和學習（1）

文件宣告（Doctype）和<!Doctype html>有何作用? 嚴格模式與混雜模式如何區分？它們有何意義?

文件宣告（Doctype）和<!Doctype html>有何作用

FFmpeg學習（1）開篇

UiAutomator原始碼學習（1）-- UiDevice

spring學習（1）-IOC容器

python 第三方庫BeautifulSoup4文件學習（1）

來自bs4的簡介

安裝Beautiful Soup

安裝解析器

簡單的使用

相關推薦