Beautiful_Soup 自學筆記 001 -- 建立Beautiful Soup物件, Features Argument, TreeBuilder & Parsers

阿新 • • 發佈：2020-12-20

技術標籤：python

Beautiful_Soup 自學筆記 001

1. 建立Beautiful Soup物件

方法一：通過string來建立

# Method 1 -- Create from String
hello = "<p>Hello</p>"
soup_str = BeautifulSoup(hello)

方法二：通過URL來建立

# Method 2 -- Create from URL
url = 'https://mcc.osu.edu/events.aspx'
page = requests.get(url) # Get the webpage with GET request 

soup_url = BeautifulSoup(page.text, "html.parser")

注意: 此處的 html.parser 叫做 features argument，在後面的TreeBuilder Class部分有詳細說明

方法三：通過file來建立

with open("foo.html","r") as foo_file:
    soup_file = BeautifulSoup(foo_file)

2. 有關TreeBuilder Class

The TreeBuilder class is used for creating the HTML/XML tree from the

input document

在建立object時註明 “features argument” (e.g. html, xml, etc.) (Default: HTML parser)
BeautifulSoup會根據提供的argument選擇最合適的TreeBuilder (根據parser的優先順序)
例如:
features argument: html
BeautifulSoup選擇parser優先順序為: lxml > html5lib > html.parser
於是根據parser優先順序，BeautifulSoup選擇TreeBuilder優先順序為
- lXmlTreeBuilder > HTML5TreeBuilder > HTMLPraserTreeBuilder

# Example Code -- Features specified as xml
soup_xml = BeautifulSoup(hello,features= "xml")
soup_xml = BeautifulSoup(hello,"xml")

bs4

A Better Practice – specify parser

不同的parser parse的結果不同，所以註明parser結果會更準確

“It is good to specify the parser by giving the features argument because this helps to ensure that the input is processed in the same manner across different machines”

Beautiful_Soup 自學筆記 001 -- 建立Beautiful Soup物件, Features Argument, TreeBuilder & Parsers

技術標籤：python Beautiful_Soup 自學筆記 001 1. 建立Beautiful Soup物件方法一：通過string來建立

Java自學筆記（二）：面向物件

學習網站：https://www.runoob.com/java/java-tutorial.html 目錄類和物件基本構造和訪問繼承

Linux自學筆記——LVM2的建立與管理

LVM2，Logical VolumeManager，邏輯卷管理，它是linux環境下對磁碟分割槽進行管理的一種機制，它由Heinz Mauelshagen在linux 2.4核心上實現。Linux使用者安裝Linux作業系統時遇到一個常見的難以決定的

筆記：建立桶-上傳物件-獲取物件

複習Maven 專案建立和管理 pom.xml配置規則 Maven專案的目錄結構（約定大於規則）

【學習筆記之程式設計師】物件陣列的建立方式

技術標籤：程式設計師筆記基礎 Java中 //物件陣列的建立方式為： ClassName[] varName =new ClassName[numberOfArray];

dotnet 讀 WPF 原始碼筆記 XAML 建立物件的方法

技術標籤：WPF# WPF原始碼WPF原始碼WPFdotnetc#dotnet core 在 WPF 中，在 XAML 裡面定義的物件的建立，實際上不是完全通過反射來進行建立的，在WPF框架裡面，有進行了一系列的優化

【基礎07】【自學筆記】python普通函式建立與呼叫

函式是一種僅在呼叫時執行的程式碼塊。您可以將資料（稱為引數）傳遞到函式中，然後由函式可以把資料作為結果返回。

【進階09】【自學筆記】Python 物件賦值、淺拷貝和深度拷貝解析

一、定義：物件賦值：其實就是物件的引用（別名）。淺拷貝(copy)：淺拷貝會建立一個新物件，該新物件儲存原始元素的引用

python爬蟲開發之Beautiful Soup模組從安裝到詳細使用方法與例項

python爬蟲模組Beautiful Soup簡介簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能

《javascript設計模式》學習筆記一：Javascript面向物件程式設計物件成員的定義分析

本文例項講述了Javascript面向物件程式設計物件成員的定義。分享給大家供大家參考，具體如下：

《javascript設計模式》學習筆記二：Javascript面向物件程式設計繼承用法分析

本文例項講述了Javascript面向物件程式設計繼承用法。分享給大家供大家參考，具體如下：

《javascript設計模式》學習筆記四：Javascript面向物件程式設計鏈式呼叫例項分析

本文例項講述了Javascript面向物件程式設計鏈式呼叫。分享給大家供大家參考，具體如下：

《javascript設計模式》學習筆記三：Javascript面向物件程式設計單例模式原理與實現方法分析

本文例項講述了Javascript面向物件程式設計單例模式原理與實現方法。分享給大家供大家參考，具體如下：

《javascript設計模式》學習筆記五：Javascript面向物件程式設計工廠模式例項分析

本文例項講述了Javascript面向物件程式設計工廠模式。分享給大家供大家參考，具體如下：

《javascript設計模式》學習筆記七：Javascript面向物件程式設計組合模式詳解

本文例項講述了Javascript面向物件程式設計組合模式。分享給大家供大家參考，具體如下：

原生JavaScript建立不可變物件的方法簡單示例

本文例項講述了原生JavaScript建立不可變物件的方法。分享給大家供大家參考，具體如下：

JavaScript 面向物件程式設計詳解【類的建立、例項物件、建構函式、原型等】

本文例項講述了JavaScript 面向物件程式設計。分享給大家供大家參考，具體如下：

java使用反射建立並操作物件的方法

Class 物件可以獲得該類裡的方法（由 Method 物件表示）、構造器（由 Constructor 物件表示）、成員變數（由 Field 物件表示），這三個類都位於 java.lang.reflect 包下，並實現了 java.lang.reflect.Member 介面。程

JAVA自學筆記（9）——網路通訊、函式式介面

TCP通訊 1.0 客戶端的實現 import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;

前端筆記（建立順序陣列、取選中月最後一天日期、判斷變數、git命令）

建立一個從0開始的順序陣列 [...new Array(5).keys()] //[0,1,2,3,4] 陣列反向 [0,1,2,3,4,5].reverse() //[4,3,2,1,0]