Python爬蟲教程-24-數據提取-BeautifulSoup4（二）

阿新 • • 發佈：2018-09-06

筆記 rgs hub 表達 ren () tags .com desc

Python爬蟲教程-24-數據提取-BeautifulSoup4（二）

本篇介紹 bs 如何遍歷一個文檔對象

遍歷文檔對象

contents：tag 的子節點以列表的方式輸出
children：子節點以叠代器形式返回
descendants：所有子孫節點
string：用string打印出標簽的具體內容，不帶有標簽，只有內容
案例代碼27bs3.py文件：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py27bs3.py

# BeautifulSoup 的使用案例
# 遍歷文檔對象

from urllib import request
from bs4 import BeautifulSoup

url = ‘http://www.baidu.com/‘

rsp = request.urlopen(url)
content = rsp.read()

soup = BeautifulSoup(content, ‘lxml‘)

# bs 自動解碼
content = soup.prettify()

print("=="*12)
# 使用 contents
for node in soup.head.contents:
    if node.name == "meta":
        print(node)
    if node.name == "title":
        print(node.string)
print("=="*12)

運行結果

技術分享圖片
常用string打印出標簽的具體內容，不帶有標簽，只有內容
當然，如果覺得遍歷太耗費資源，沒有必要遍歷的時候，可以使用搜索

搜索文檔對象

find_all(name, attrs, recursive, text, ** kwargs)
- 使用find_all()，返回的列表格式，也就是說如果 find_all(name=‘meta‘) ，如果有多個 meta 就以列表形式返回
- name 參數：按照哪個字符搜索，可以傳入的內容為
  - 1.字符串
  - 2.正則表達式，使用正則需要編譯：
    例如：我們需要打印所有以 me 開頭的標簽內容
    tags = soup.find_all(re.compile(‘^me‘))
  - 3.也可以是列表
keyword 參數，可以用來表示屬性
text：對應 tag 的文本值
案例代碼27bs4.py文件：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py27bs4.py

# BeautifulSoup 的使用案例
# 搜索文檔對象

from urllib import request
from bs4 import BeautifulSoup
import re

url = ‘http://www.baidu.com/‘

rsp = request.urlopen(url)
content = rsp.read()

soup = BeautifulSoup(content, ‘lxml‘)

# bs 自動解碼
content = soup.prettify()

# 使用 find_all
# 使用 name 參數
print("=="*12)
tags = soup.find_all(name=‘link‘)
for i in tags:
    print(i)

# 使用正則表達式
print("=="*12)
# 同時使用兩個條件
tags = soup.find_all(re.compile(‘^me‘), content=‘always‘)
# 這裏直接打印 tags 會打印一個列表
for i in tags:
    print(i)

運行結果

技術分享圖片
因為使用兩個條件，所以只匹配到一條 meta
下一篇介紹，BeautifulSoup 的 css 選擇器
拜拜

- 本筆記不允許任何個人和組織轉載

Python爬蟲教程-24-數據提取-BeautifulSoup4（二）

筆記 rgs hub 表達 ren () tags .com desc Python爬蟲教程-24-數據提取-BeautifulSoup4（二）本篇介紹 bs 如何遍歷一個文檔對象遍歷文檔對象 contents：tag 的子節點以列表的方式輸出 children：子節

Python爬蟲教程-25-數據提取-BeautifulSoup4（三）

運行 .com div 分享 size content bs4 text ont Python爬蟲教程-25-數據提取-BeautifulSoup4（三）本篇介紹 BeautifulSoup 中的 css 選擇器 css 選擇器使用 soup.select 返回一個列

python 數據類型（二）

必須 one set 方式數據順序就是 erro art 一、dict d = { ‘Adam‘: 95, ‘Lisa‘: 85, ‘Bart‘: 59 }查：訪問dict中的元素：d[‘Adam‘]如果dict中Key不存在會報錯：KeyEr

python基本數據類型（二）-python3.0學習筆記

tin 基本數據 abcde 返回屬性方法 mat sizeof 不可變 map python基本數據類型序列類型的自帶方法 1.列表的常用方法 2.元祖的常用方法 3.字符串的常用方法 1.列表常用的方法 L.append(obj) #在列表末尾添加新的對

python 條件語句與數據類型（一）

info 分享基本語句額外 -a 縮進 == inpu pass 　例：　　如果 1=1，那麽就會輸出 "hello world" 否則輸出 "hello penphy" 代碼塊： 1 if 條件： 2　　 print（"hello wor

python數據類型（二）

use c++ fff 編譯索引次循環 tin 字符串每次 python基礎---數據類型（二）回顧和補充編譯型語言和解釋性語言？解釋性語言：代碼逐句轉化執行，代表語言：（python，PHP，，，，等等）編譯型語言：代碼全部轉化，然後全部執行代表語言：（

圖書管理系統總結——數據庫操縱（二）

span emp .get 語句動態 query tin != pst 這裏以最基本的DML語句作為例子，其他各種復雜的DML語句可以根據這些基本JDBC語句得到。一、查詢表格這裏以兩張表關聯查詢為例，采用動態方式，根據輸入的條件在WHERE語句後面接上相應的各種條件

數據結構系列（二）算法

nal log 如何空間復雜度計算 youdao 最好時間 bsp 高斯求和計算1+2+...+100 算法的概念就不多說了強調一點就是，沒有通用的算法，就像永遠沒有銀彈，所有的算法都有自己的適用領域評判算法好壞的方法復雜度用大O表示，又分為時間復雜度

python學習之函數學習進階（二）

python學習之函數進階二一、內置函數 zip函數: zip()是Python的一個內建函數，它接受一系列可叠代的對象作為參數，將對象中對應的元素按順序組合成一個tuple，每個tuple中包含的是原有序列中對應序號位置的元素，然後返回由這些tuples組成的list。若傳入參數的長度不等，則返回li

MySQL數據庫管理（二）單機環境下MySQL Cluster的安裝

img 任務管理器 value 機器 tail -a bsp ron 技術分享上文《MySQL數據庫管理（一）MySQL Cluster集群簡單介紹》對MySQL Cluster集群做了簡要介紹。本文將教大家一步步搭建單機環境下的MySQL數據庫集群。一、單機

需求分析與數據庫設計（二）

-s size spa blog png 設計需求分析技術詳細需求分析：作為一名觀眾，我希望知道詳細的隊伍比分變化和隊伍得分信息，以便於了解比賽信息和運動員的精彩得分用例圖：數據庫設計：用mvc中自帶的數據庫SQL Server

[數據結構]緒論（二）

分析描述算法設計結構存儲鏈式邏輯結構鏈式存儲結構多對多邏輯結構類型集合（平等）線性結構（一對一）樹形結構（一對多）圖形結構（多對多）存儲結構類型順序存儲結構鏈式存儲結構索引存儲結構哈希（散列）存儲結構數據類型：一個值的集合和定義

redis 數據結構基礎（二）鏈表

ear 數據結構 dup 設計 pty ndt 萬能 div 語言 redis中的鏈表恐怕是最簡單的數據結構了，redis鏈表中總共有3個數據結構： listNode: 1 typedef struct listNode { 2 struct listNode *

Java面試-數據庫篇（二）

全部 exe 並不會數據頁 .com 元組 www 每次方式準備Java面試期間所見到的面試題和自己的整理歸納（僅供我個人學習使用的資料） 1. 主鍵超鍵候選鍵外鍵主鍵：數據庫表中對儲存數據對象予以唯一和完整標識的數據列或屬性的組合。一個數據列只

c語言數據類型（二）

nbsp tex 字符 pre 字符串輸入 mce 一個命令 char 類型 1.char 變量常量　　char c; 定義一個char變量　　c = ‘a’ ‘a‘字符常量　　char 的本質就是一個整數，只有一個字節大小的整數 2.printf 輸出ch

來學學數據分析吧（二）第一章預測和關聯數量特征

想要夠快均方誤差容易預測適用於 color 就是工程 Chapter 1 Regression: Predicting and Relating Quantitative Features 1.1 統計學，數據分析，回歸統計學是利用數學來研究和提高從不完

數據庫查詢（二）學習心得

wid 數據庫動態 placement ... ediff 如果新的 star 數據查詢（二）一．聚合函數主要函數類型 COUNT() 統計元組或列的個數 MIN() 統計元組或列的最小值 SUM() 統計元組或列的

【VMCloud雲平臺進階篇】應用數據層面優化（二）

vmcloud在上一篇中我們講到準備SQL基礎環境改造，這一篇將繼續講述如何為應用提供高可用的底層數據層，以下是本次要進行實驗的拓撲（紅色為已完成搭建，藍色是本次文章涉及的區域）：1、上一篇我們搭建好了SQL底層，這一篇來講述如何創建一個AlwayOn可用組對外提供服務，設置兩個SQL節點的AlwayOn高

數據庫語句（二）——查詢

int avi 表示註意下一個 gpo 相同 brush lec 數據查詢我們是分單表查詢，連接查詢，嵌套查詢，集合查詢以及了解Select語句的一般形式。好了，首先說說單表查詢，其分五個內容，為選擇表中的若幹列，選擇表中的若幹元組（重行與不重行的問題），ORD

DBA成長之路---mysql數據庫服務（二）

連接查詢過程 where 存在 arc nat 唯一索引 rest nal 管理表記錄增加insert into 庫.表 values(字段值列表);insert into 庫.表(字段值列表) values(字段值列表);insert into 庫.表 values(

Python爬蟲教程-24-數據提取-BeautifulSoup4（二）

Python爬蟲教程-24-數據提取-BeautifulSoup4（二）

遍歷文檔對象

運行結果

搜索文檔對象

運行結果

相關推薦