BeautifulSoup_第一節

阿新 • • 發佈：2017-11-30

應該 ont sharp html標簽符號註釋符 tor 方便 ref

源自http://cuiqingcai.com/1319.html

import bs4
from bs4 import BeautifulSoup

html = """
<html><head><title>The Dormouse‘s story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse‘s story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

soup = BeautifulSoup(html)
#soup = BeautifulSoup(open(‘index.html))

#print(soup.prettify())
‘‘‘
#Tag  通俗點講就是 HTML 中的一個個標簽
#我們可以利用 soup加標簽名輕松地獲取這些標簽的內容，是不是感覺比正則表達式方便多了？
# 不過有一點是，它查找的是在所有內容中的第一個符合要求的標簽
#print(soup.title)

#Tag的name屬性
print(soup.name)
print(soup.head.name)
#Tag的attrs屬性
#獲取p標簽的所有屬性，返回字典
print(soup.p.attrs)
#獲取單個屬性
print(soup.p[‘class‘])
print(soup.p.get(‘class‘))

‘‘‘
‘‘‘
#NavigableString         可以遍歷的字符串
#獲取標簽內部的文字
print(soup.p.string)

#BeautifulSoup 對象表示的是一個文檔的全部內容.
# 大部分時候,可以把它當作 Tag 對象，是一個特殊的 Tag
# 我們可以分別獲取它的類型，名稱，以及屬性來感受一下
print(type(soup.name))
print(soup.name)
print(soup.attrs)
‘‘‘
‘‘‘
#Comment
#Comment 對象是一個特殊類型的 NavigableString 對象，
# 其實輸出的內容仍然不包括註釋符號，但是如果不好好處理它，可能會對我們的文本處理造成意想不到的麻煩。
print(soup.a)
print(soup.a.string)
print(type(soup.a.string))

#a 標簽裏的內容實際上是註釋，但是如果我們利用 .string 來輸出它的內容，我們發現它已經把註釋符號去掉了
#另外我們打印輸出下它的類型，發現它是一個 Comment 類型，所以，我們在使用前最好做一下判斷
if type(soup.a.string)==bs4.element.Comment:
    print(soup.a.string)
‘‘‘
#6. 遍歷文檔樹
#（1）直接子節點------  .contents   .children屬性
#tag 的 .content 屬性可以將tag的子節點以-列表-的方式輸出
print(soup.head.contents)

#.children它返回的不是一個 list，不過我們可以通過遍歷獲取所有子節點。
#我們打印輸出 .children 看一下，可以發現它是一個 list 生成器對象
print(soup.head.children)
for child in soup.body.children:
    print(child)

#(2)所有子孫節點  .descendants 屬性
#運行結果如下，可以發現，所有的節點都被打印出來了，先生最外層的 HTML標簽，其次從 head 標簽一個個剝離，以此類推。
#一層一層剝開它的標簽
for child in soup.descendants:
    print(child)
#（3）節點內容   .string 屬性
#如果tag只有一個 NavigableString 類型子節點,那麽這個tag可以使用 .string 得到子節點。
# 如果一個tag僅有一個子節點,那麽這個tag也可以使用 .string 方法,輸出結果與當前唯一子節點的 .string 結果相同。
#也就是說 如果一個標簽裏面沒有標簽了，那麽 .string 就會返回標簽裏面的內容。如果標簽裏面只有唯一的一個標簽了，那麽 .string 也會返回最裏面的內容
print(soup.head.string)
print(soup.title.string)
#如果tag包含了多個子節點,tag就無法確定，string 方法應該調用哪個子節點的內容, .string 的輸出結果是 None
print(soup.html.string)

#（4）多個內容 .strigs  .stripped_strings 屬性
#.strings  獲取多個內容，不過需要遍歷獲取
for strings in soup.strings:
    print(repr(strings))
# .stripped_strings  輸出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白內容
for strings in soup.stripped_strings:
    print(repr(strings))
#（5）父節點  .parent 屬性

p = soup.p
print(p.parent.name)

content = soup.head.title.string
print(content.parent.name)
#（6）全部父節點   .parents
content = soup.head.title.string
for parent in content.parents:
    print(type(parent))
    print(parent.name)

BeautifulSoup_第一節

應該 ont sharp html標簽符號註釋符 tor 方便 ref 源自http://cuiqingcai.com/1319.html import bs4 from bs4 import BeautifulSoup html = """ <html

webpack第一節

image 響應 .com 分享多個 cnblogs 開發工具 windows blog webpack是一個前端打包工具它可以優化網頁、例如頁面模塊化加載、圖片優化、css、js壓縮等等。模塊化加載也就是懶加載，按需加載，以前的模式是所以得css寫在一起、加載量

Aop第一節

aop使用 lte 流程 iso 公司 user 集合如何使用攔截器什麽是AOP AOP（Aspect-OrientedProgramming，面向方面編程），可以說是OOP（Object-Oriented Programing，面向對象編程）的補充和完善。OOP引入

2014年辛星解讀css第一節

教學 back hit pre 分離設計功能 one 文件 CSS是Cascading Style Sheets的縮寫。即層疊樣式表，它用於表現HTML的樣式，即HTML僅僅是去寫該網頁有哪些內容，至於怎樣去表現它們，由CSS去定制。 *******

第一節mysql 安裝

mage for ron sql 安裝數據庫名沒有 my.cnf show root用戶登錄 1 安裝之前的檢查先要檢查Linux系統中是否已經安裝了MySQL，輸入命令嘗試打開MySQL服務：輸入密碼後，如果出現以下提示，則說明系統中已經安裝有 MySQL：

Python心得【第一節】：認識python

license c# 動態編譯 spa 縮進開發 pypy 廣泛語言概念 Python（英國發音：/?pa?θ?n/ 美國發音：/?pa?θɑ?n/）, 是一種面向對象的解釋型計算機程序設計語言，由荷蘭人Guido van Rossum於1989

【第一節】：認識python

源文件 tps sum https 運行自由 oss hit general 概念 Python（英國發音：/?pa?θ?n/ 美國發音：/?pa?θɑ?n/）, 是一種面向對象的解釋型計算機程序設計語言，由荷蘭人Guido van Rossum

第一節：Node.js簡介

而是 php util i/o 加載瀏覽器 tcp服務器左右數量第一節：Node.js簡介 1.什麽是Node.js? 　　Node.js是一個用於開發各種Web服務器的開發工具，仔Node.js服務器中，運行的高性能V8 JavaScript腳本語言，該語言是一種

jmeter 使用第一節

login png 運行 coo user cnblogs log sta username 1.打開jmeter 增添線程組，HTTP Cookie 管理器，cookie主要用於傳遞訪問狀態，一般多用於登錄傳遞登錄狀態 2.添加HTTP請求（） 3.添加查看結

Python第一節課

{} format rtl imp gre world 3.1 oat cnblogs print("hello world") name=input("What‘s your name:") print("{},it is good for you to study

第一節：神經網絡和深度學習

進化 alt 自然這就是 eve 人類網絡應用快照函數修正現行單元單神經元網絡在監督學習當中，你輸入一個x，習得一個函數，映射到輸出y 例如房屋價格預測例子當中，輸入房屋的一些特征，就能輸出或者是預測價格y，在現今，深度學習神經網絡效果拔群，最主要的就是在線廣告，

HTML學習筆記基礎標簽及css引用案例第一節（原創）參考使用表

set utf har del 文件定義 .com eight head <!DOCTYPE html><html lang="en"><!--表示網頁文字以什

JAVAscript學習筆記 js事件第一節（原創）參考js使用表

onchange onf form 看不見鼠標 hello cnblogs html 加載 <!DOCTYPE html> <html lang="en" onUnload="ud()"> <head> <meta ch

tkinter entry框第一節

del width shell ace mman 密碼 conf fin mos >>> from tkinter import *>>> from tkinter import ttk>>> root=Tk()>

tkinter checkbutton 第一節

eggs src error: mos fas 變量類型 sage es2017 bcd >>> from tkinter import *>>> from tkinter import ttk>>> root=Tk()

tkinter text widget 第一節

inter 3.0 widget nor normal 2.0 rep 換行 long >>> from tkinter import *>>> root=Tk()>>> text=Text(root,width=40,

第一節虛擬機的安裝

normal 筆記 width 分享 logs 宋體 idt 百度 href 1.相關軟件虛擬環境：VMware virtualbox 獲取方法：百度一下linux 鏡像： mirrors.sohu.com 下載地址：http://mirrors.sohu.com/

OpenGL第一節：繪制一個四邊形

printf 加載 argc 錯誤 height args load utc bsp MyOpengGL.h：//導入頭文件，註意：先導入freeglut.h #include <GL/freeglut.h>#include <GL/gl.h>#in

【Java框架型項目從入門到裝逼】第一節 - Spring框架 IOC的喪心病狂解說

ng- turn ins int 代碼入門到 extends comm min 大家好，好久不見，今天我們來一起學習一下關於Spring框架的IOC技術。控制反轉——Spring通過一種稱作控制反轉（IoC）的技術促進了松耦合。當應用了IoC，一個對象依賴的其它對象

第一節：吳堅鴻談初學單片機的誤區。

高級功能 array 掌握世界通信協議應該 switch 別人現在（1）很難記住繁雜的寄存器？寄存器不用死記硬背，鴻哥我行走江湖多年，連一個寄存器都記不住。需要配置寄存器的時候，直接在網上或者書本上參考別人現成的配置程序是上策，查找芯片數據手冊是中策，死記硬背寄存

BeautifulSoup_第一節

相關推薦