beautifulSoup20%基礎知識

阿新 • • 發佈：2018-12-31

詳細的內容請看這裡——參考部落格，下面是自己需要參考的部分總結。

建立 Beautiful Soup 物件,首先必須要匯入 bs4 庫

from bs4 import BeautifulSoup

建立一個字串，請將字串拷貝出來，再參考後面的例子，這樣才能明白。

html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse" 
><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2" 
>Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

建立 beautifulsoup 物件

soup = BeautifulSoup(html)

Beautiful Soup將複雜HTML文件轉換成一個複雜的樹形結構,每個節點都是Python物件,所有物件可以歸納為4種:Tag、NavigableString、BeautifulSoup、Comment。

(1) Tag:Tag 是什麼？通俗點講就是 HTML 中的一個個標籤，例如head,title,a,p等，註釋為輸出。

print soup.title
#<title>The Dormouse's story</title>
print soup.head
#<head><title>The Dormouse's story</title></head>
print soup.a
#<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
print soup.p
#<p class="title" name="dromouse"><b>The Dormouse's story</b></p>

它有兩個屬性，name和attrs，使用如下。

#name到沒什麼，主要在sttrs。
print soup.name #[document]
print soup.head.name #head

print soup.p.attrs
#{'class': ['title'], 'name': 'dromouse'}
print soup.p['class'] #['title']

(2)NavigableString:獲取標籤內的字串。

print soup.p.string
#The Dormouse's story

(3)BeautifulSoup:
(4)Comment

遍歷文件樹，.contents .children 屬性。

print soup.head.contents 
#[<title>The Dormouse's story</title>]
print soup.head.contents[0]#會以列表的形式出書。
#<title>The Dormouse's story</title>

CSS選擇器，我們在寫 CSS 時，標籤名不加任何修飾，類名前加點，id名前加 #，在這裡我們也可以利用類似的方法來篩選元素，用到的方法是 soup.select()，返回型別是 list。

print soup.select('title') 
#[<title>The Dormouse's story</title>]
print soup.select('a')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

print soup.select('.sister')#通過類名查詢
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

print soup.select('#link1')#通過id查詢
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

#組合查詢，二者需要用空格分開
print soup.select('p #link1')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]
print soup.select("head > title")
#[<title>The Dormouse's story</title>]

#屬性查詢，屬性需要用中括號括起來，注意屬性和標籤屬於同一節點，所以中間不能加空格，
print soup.select('p a[href="http://example.com/elsie"]')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

beautifulSoup20%基礎知識

詳細的內容請看這裡——參考部落格，下面是自己需要參考的部分總結。建立 Beautiful Soup 物件,首先必須要匯入 bs4 庫 from bs4 import BeautifulSoup 建立一個字串，請將字串拷貝出來，再參考後面的例子，這樣才能明

Spring 基礎知識 - 依賴註入

ans factory control 自己 int pac java str actor 所謂的依賴註入是指容器負責創建對象和維護對象間的依賴關系，而不是通過對象本身負責自己的創建和解決自己的依賴。依賴註入主要目的是為了解耦，體現了一種“組合”的理念。無論是xml配置

Java基礎知識二次學習--第八章流

cti 註意 spa 基礎 2個 cnblogs images 方向視頻第八章流時間：2017年4月28日11:03:07~2017年4月28日11:41:54 章節：08章_01節視頻長度：21:15 內容：IO初步心得：所有的流在java.io包裏面

UVM系統驗證基礎知識0(Questasim搭建第一個UVM環境)

javascript基礎知識整理（不定時更新）

nsh firefox 可用 splice mage true size -1 對數 1.js中真與假的定義：　　真：true，非零數字，非空字符串，非空對象　　假：false，數字零，空字符串，空對象（null），undefined 2.使用for循環對json進

C#基礎知識-函數的定義和調用（五）

返回 {0} string 訪問修飾符容器列表 rdquo 所有 func 函數也可以稱為方法，可以很方便的把一些行為封裝到函數裏面，當調用這一函數時會把函數塊裏面的代碼按照順序執行，方法可以有多種形式，有無參數，有無返回值等。 1. 函數的定義函數定

C#基礎知識-流程控制的應用（四）

相關 ats 循環 nbsp 使用 logs 嘗試 exc 設置斷點流程控制我們在編程中運用到的地方非常的多，在上篇中僅僅只是簡單的介紹每一種的使用，並沒有運用到實例中，很難去理解它真正的作用。下面我們將實際的運用流程控制的代碼寫一些實例相關的程序，加深對流程控制的理解，

java基礎知識應用--雙色球開獎號碼

雙色球開獎 java基礎開獎號碼 public 　　雙色球是中國福利彩票的玩法，雙色球分為紅色球號碼區和藍色球號碼區，紅色球號碼區由1-33共３３個號碼組成，藍色球號碼區由1-16共１６個號碼組成，開獎號碼由6個不重復的紅色球號碼和1個藍色球號碼共７個數組成。　　首先要設置三個數組來分別保存

redis的一些分散的基礎知識

redis基礎知識 ant風格 redis簡單命令中午的時候學了redis一些基礎操作，簡單記錄一下，方便記憶1、redis是一種基於內存也可以持久化的 key - value分布式數據具，默認設置數據庫的數量為 16 個。如圖示，redis.conf配置文件中寫到，默認的數據庫的 db

網絡相關基礎知識

html tro 綜合布線裝修公司轉化 blog scn www 不同 1. Q：強電跟弱電怎麽區分？ A1：強電和弱電是俗稱了，工程上強電一般指的是建築電力安裝，照明、插座、配電房，根據各國的標準不同，基本上施工的都是110V或220的電力設備、管線安裝。弱電是指消

c語言-樹的基礎知識（一）

相交 ges 最大 .cn nbsp 分享 blog com lin 第一、樹的定義： 1.有且只有一個稱為根的節點 2.有若幹個互不相交的子樹，這些子樹本身也是一顆樹第二、專業術語：樹的深度：從根節點到最低層，節點的層數，稱之為樹的深度。

前端基礎知識總結

pla 部分一個知識法則總結情況元素保存一、html中alt和title的區別 1.alt是圖片的屬性值，當圖片無法加載的時候，會用alt屬性的值來替換圖片。 2.而title是圖片的標題，當鼠標移動到圖片上時，會顯示圖片的名稱。 [email

Redux學習筆記-基礎知識

事件處理學習筆記情況分發 .org 新的分數 class 特點 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 18.0px "Helvetica Neue"; color: #404040 } p.p2 { margin

jQuery筆記——基礎知識

就會 col cti 獲得通過重要我們 class mic jQuery是一個JavaScript庫，它通過封裝原生的JavaScript函數得到一整套定義好的方法。在jQuery程序中，不管是頁面元素的選擇、內置的功能函數，都是美元符號“$”

C#基礎知識-引用類型和值類型的區別（六）

值類型 type 調用執行 new 內存堆 ada ont 不同類在第一篇中我們介紹了C#中基本的15種數據類型，這15種數據類型中又分為兩大類，一種是值類型，一種是引用類型。值類型有sbyte、short、long、int、byte、ushort、uint、u

為Play初學者準備的Scala基礎知識

scala play 1 前言本文的主要目的是為了讓Play Framework的初學者快速了解Scala語言，算是一篇Play Framework的入門前傳吧。使用PlayFramework可以極大的提高開發效率，但是需要註意，PlayJava入門很簡單，我之前帶過一個實習小姑娘，有一點編程經驗，但

C語言基礎知識整理

除法當前 www 做到初步編寫 main函數配對十進制數用一個簡單的c程序例子，介紹C語言基礎知識的基本構成、格式、以及良好的書寫風格，使小夥伴對c語言有個初步認識。例1：計算兩個整數之和的c程序： #includemain(){int a,b,sum;

基礎知識

引入協議 ast nbsp 過程 fin 將不斷線 .get 線程或者鎖在並發變成在並發編程中的作用，類似於鉚釘和工字梁在土木工程中的作用。 java中主要的同步機制是關鍵字synchroinzed，它提供了一種獨占的加鎖方式，但“同步”這個術語還包括voliatile

MySQL數據庫基礎知識002

highlight 刪除 blog var 自動包括 fill 區別 tab 一、My yS SQ QL L 支持的數據類 1、對於整型數據，MySQL 還支持在類型名稱後面的小括號內指定顯示寬度，例如 int(5)表示當數值寬度小於 5 位的時候在數字前面填

關於php的一些基礎知識

urn 高級 ddr atp ech utf-8 length 亂碼數據 1.HTTP協議中幾個狀態碼的含義：503 500 401 403 404 200 301 302. 答案： 503 （服務不可用）服務器目前無法使用（由於超載或停機維護）。通常，這只是暫時狀態

beautifulSoup20%基礎知識

相關推薦