Python中的BS4模組

阿新 • • 發佈：2018-12-04

Python中的bs4模組

bs4 模組的 BeautifulSoup 可以用來爬取html頁面的內容，配合requests庫可以用於簡單的爬蟲。

1. 獲取標籤內容

# 1. 獲取標籤內容
from bs4 import  BeautifulSoup

# 構造物件
soup = BeautifulSoup(open('villa.html'), 'html.parser')
# 獲取標籤, 預設獲取找到的第一個符合的內容
print(soup.title)
print(type(soup.title))
print(soup.p)

在這裡插入圖片描述

2. 獲取標籤的屬性

from bs4 import  BeautifulSoup

# 構造物件
soup = BeautifulSoup(open('villa.html'), 'html.parser')
# #獲取標籤的屬性
print(soup.p.attrs)
# 獲取標籤指定屬性的內容
print(soup.p['id'])
print(soup.p['class'])
print(soup.p['style'])
# 對屬性進行修改
soup.p['id'] = 'modifyid'
print(soup.p)
print(type(soup.p))

在這裡插入圖片描述

3. 獲取標籤的文字內容

#獲取標籤的文字內容
from bs4 import  BeautifulSoup

# 構造物件
soup = BeautifulSoup(open('villa.html'), 'html.parser')
print(dir(soup.title))
print(soup.title.text)
print(soup.title.string)
print(soup.title.name)
print(soup.head.title.string)

在這裡插入圖片描述

4. 操作子節點

# 構造物件
soup = BeautifulSoup(open('villa.html'), 'html.parser')
print(soup.head.contents)
print(soup.head.children)
for el in soup.head.children:
    print('--->', el)

在這裡插入圖片描述

5. 面向物件的匹配

# # 查詢指定的標籤內容(指定的標籤)
res1 = soup.find_all('p')
print(res1)

# # 查詢指定的標籤內容(指定的標籤)--與正則的使用
res2 = soup.find_all(re.compile(r'd+'))
print(res2)

# # 對於正則表示式進行編譯， 提高查詢速率；
pattern = r'd.+'
pattern = re.compile(pattern)
print(re.findall(pattern, 'dog hello d'))



# 構造物件
soup = BeautifulSoup(open('villa.html'), 'html.parser')

# 詳細查詢標籤
print(soup.find_all('p', id='test2'))
print(soup.find_all('p', id=re.compile(r'test\d{1}')))
print(soup.find_all('p', class_="class1"))
print(soup.find_all('p', class_=re.compile(r'class\d{1}')))
# 查詢多個標籤
print(soup.find_all(['p', 'div']))
print(soup.find_all([re.compile('^d'), re.compile('p')]))


# 內容的匹配
print(soup.find_all(text='文章標題'))
print(soup.find_all(text=re.compile('標題')))
print(soup.find_all(text=[re.compile('標題'), 'Title']))

在這裡插入圖片描述

6.CSS匹配


import re
from bs4 import  BeautifulSoup
# 構造物件
soup = BeautifulSoup(open('villa.html'), 'html.parser')
# CSS常見選擇器: 標籤選擇器(div), 類選擇器(.class1)， id選擇器(#idname)， 屬性選擇器(p[type="text"])
# 標籤選擇器(div)
res1 = soup.select("p")
print(res1)
# 類選擇器(.class1)
res2 = soup.select(".class2")
print(res2)
# id選擇器(#idname)
res3 = soup.select("#test1")
print(res3)
#  屬性選擇器(p[type="text"]
print(soup.select("p[id='test1']"))
print(soup.select("p['class']"))

在這裡插入圖片描述

python中multiprocessing模組之Pipe管道

原文地址，本文在原文基礎上添加了部分註釋。 multiprocessing.Pipe([duplex]) 方法返回2個連線物件(conn1, conn2),代表管道的兩端,預設duplex為True，是雙向通訊。如果duplex為False，則conn1只能用來接收訊息，conn2只能用來

python中os模組的作用

簡介 OS模組簡單的來說它是一個Python的系統程式設計的操作模組，可以處理檔案和目錄這些我們日常手動需要做的操作。如果你希望你的程式能夠與平臺無關的話，這個模組是尤為重要的。常用函式和變數 os.sep可以取代作業系統特定的路徑分隔符。windows下為 “\” os.

Python中Matplotlib模組的簡單使用

目錄 Matplotlib pyplot類 pyplot.plot() 配置屬性 pyplot.subplot() Matplotlib Matplotlib 是 Python 2D 繪圖領域使用最廣泛的套件。它能讓使用者很輕鬆地將資料圖形化，並且提供多樣化的輸出格式

Python中Numpy模組的使用

目錄 NumPy ndarray物件 Numpy資料型別 Numpy陣列屬性 NumPy NumPy(Numerical Python) 是 Python 的一個擴充套件程式庫，支援大量的維度陣列與矩陣運算，此外也針對陣列運算提供大量的數學函式庫。Nupmy可用來儲存和處

Python中 Wxpy模組以及其監控

概述: 　　本文主要分享一下博主在學習wxpy 的過程中開發的一個小程式。博主在最近有一個監控報警的需求需要完成，然後剛好在學習wxpy 這個東西，因此很巧妙的將工作和學習聯絡在一起。　　博文中主要使用到的技術設計到Python，Redis，以及Java。涉及到的技術看

Python中logging模組

1、日誌級別日誌級別數值 Critical 50 Error 40 Warning 30 Info 20

Python中shodan模組的使用

關於shodan的安裝和使用，傳送門——> 滲透測試之Shodan的安裝和使用常用 Shodan 庫函式 shodan.Shodan(key) ：初始化連線API Shodan.count(query, facets=None)：返回查詢結果數量

python 歷險記(五）—— python 中的模組

目錄前言基礎模組化程式設計模組化有哪些好處? 什麼是 python 中的模組？引入模組有幾種方式？模組的查詢順序模組中包含執行語句的情況用 dir() 函式來窺探模組 python 的內建模組有哪些？結語參考文件

python中socket模組詳解

socket模組簡介網路上的兩個程式通過一個雙向的通訊連線實現資料的交換，這個連線的一端稱為一個socket。socket通常被叫做“套接字”，用於描述IP地址和埠，是一個通訊鏈的控制代碼，可以用來實現不同虛擬機器或不同計算機之間的通訊。在Internet上的主機一般運行了多個服務

python中configparser模組的使用

configparser模組用於生成和修改常見配置文件，當前模組的名稱在 python 3.x 版本中變更為 configparser。首先要寫一個如下所示的配置檔案： [DEFAULT] serveraliveinterval = 45 compression = yes c

Python中 json模組基礎功能小結

json支援的資料型別：int, bool, str, list, dict, Null；不支援的資料型別有:set,函式等； json 的優勢，相對其他序列化資料模組，json將資料序列化為字元存入檔案後的內容易讀易懂，且可以和通行很多語言互動資料，給不同語言的程式設計師之間互通資料提供了極大的便利性；

Python中xlrd模組使用

安裝xlrd 該模組需要自行安裝，直接使用pip安裝就能安裝簡單使用測試使用的表格 1、開啟表格檔案並獲取所有sheet名稱 >>> rb = xlrd.open_workbook(r'E:\py-test\tests.xls') >>

Python中collections模組的用法

在內建資料型別（dict、list、set、tuple）的基礎上，collections模組提供了幾個額外的資料型別： namedtuple：生成可以使用名字來訪問元素內容的tuple，通常用來增強程式碼的可讀性，在訪問一些tuple型別的資料時尤其好用. deque

Python中inspect模組的一些認識

學習python時遇到了inspect模組的使用，不甚瞭解，在此簡要的認識一下。 inspect模組主要提供了四種用處：對是否是模組，框架，函式等進行型別檢查。獲取原始碼獲取類或函式的引數資訊解析堆疊這裡我不詳細的敘述這四種用法，噹噹講一

python 中 seaborn 模組畫熱度圖

https://seaborn.pydata.org/generated/seaborn.heatmap.html#seaborn.heatmap 使用seaborn這個模組畫熱度圖，其中mask引數決定了畫那一塊兒。mask矩陣的大小和資料矩陣的大小是一直的，其中0表示fal

Python中fnmatch模組的使用

fnmatch()函式匹配能力介於簡單的字串方法和強大的正則表示式之間，如果在資料處理操作中只需要簡單的萬用字元就能完成的時候，這通常是一個比較合理的方案。此模組的主要作用是檔名稱的匹配，並且匹配的模式使用的Unix shell風格。原始碼很簡單： """Filename matching with

python中lxml模組下的xpath用法

安裝 pypi下載地址：https://pypi.python.org/pypi/lxml/3.4.2#downloads pip install lxml XPath 是一門在 XML 文件中查詢資訊的語言。XPath 可用來在 XML 文件中對元素和屬

Python中collections模組的使用

本文將詳細講解collections模組中的所有類，和每個類中的方法，從原始碼和效能的角度剖析。一個模組主要用來幹嘛，有哪些類可以使用，看__init__.py就知道 '''This module implements specialized container datatyp

python使用bs4模組去除html標籤字串方法

使用bs4模組去除html標籤方法 from bs4 import BeautifulSoup s = ''' /usr/sbin/tgt-admin <span class="token comment">#配置工具</span> /usr/sbin/tgtadm <

python中 os模組操作檔案路徑

python中的os.path模組用法： dirname() 用於去掉檔名，返回目錄所在的路徑如： >>> import os >>> os.path.dirname('d:\\library\\book.txt') >>>

Python中的BS4模組