python處理p標籤裡面多餘的class 和其它標籤[html內容處理]

阿新 • • 發佈：2022-03-01

1、去掉p標籤自帶的class

2、去掉p標籤裡面的其他標籤

text = """<p><img src="https://www.yikaow.com/upload/images/2019/6/2711221356.jpg" alt="《風雨哈佛路》原型" /></p><p class="cintro"><span class="red">回答</span>《風雨哈佛路》的原型是全美“奇蹟女孩”莉茲·默裡，講述的是她從流浪女以自強不息的奮鬥精神考上哈佛的勵志經歷，激勵人們跨越困境去追尋心中的夢想。在2003年4月7日的時候，這本圖書的同名電影《風雨哈佛路》在美國上映，還獲得了第55屆艾美獎3項提名。</p> 
"""

步驟

1、使用正則去除p標籤

inner_text = re.findall(r'<p[^>]*>(.*?)</p>', text)

>>>輸出結果

['<img src="/uploads/images/2019-6-2711221356.jpg" alt="《風雨哈佛路》原型" />', '<span class="red">回答</span>《風雨哈佛路》的原型是全美“奇蹟女孩”莉茲·默裡，講述的是她從流浪女以自強不息的奮鬥精神考上哈佛的勵志經歷，激勵人們跨越困境去追尋心中的夢想。在2003年4月7日的時候，這本圖書的同名電影《風雨哈佛路》在美國上映，還獲得了第55屆艾美獎3項提名。 
']

2、新建一個空字串，使用for迴圈遍歷inner_text，再使用正則匹配span標籤裡面的內容，sub函式進行替換

new_text = ""
for inner in inner_text:
    new_inner = re.sub(r'<\w+[^>]*>([^<]+?)</\w+>', '\g<1>', inner)
    new_text += f"<p>{new_inner}</p>"

<<<輸出結果

<p><img src="/uploads/images/2019-6-2711221356.jpg 
" alt="《風雨哈佛路》原型" /></p><p>回答《風雨哈佛路》的原型是全美“奇蹟女孩”莉茲·默裡，講述的是她從流浪女以自強不息的奮鬥精神考上哈佛的勵志經歷，激勵人們跨越困境去追尋心中的夢想。在2003年4月7日的時候，這本圖書的同名電影《風雨哈佛路》在美國上映，還獲得了第55屆艾美獎3項提名。</p>

python處理p標籤裡面多餘的class 和其它標籤[html內容處理]

1、去掉p標籤自帶的class 2、去掉p標籤裡面的其他標籤 text = \"\"\"<p><img src=\"https://www.yikaow.com/upload/images/2019/6/2711221356.jpg\" alt=\"《風雨哈佛路》原型\" /></p><p cl

Golang Web下返回HTML內容處理方法

有兩種顯示方式，都是一樣的，假設我們的方法就叫say,兩種呼叫如下： {{ say \"<div style=\\\"\\\">你好</div>\" }}

呼叫其他python指令碼檔案裡面的類和方法過程解析

這篇文章主要介紹了呼叫其他python指令碼檔案裡面的類和方法過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python 面向物件之類class和物件基本用法示例

本文例項講述了Python 面向物件之類class和物件基本用法。分享給大家供大家參考，具體如下：

python常見報錯資訊！錯誤和異常！附帶處理方法

作為 Python 初學者，在剛學習 Python 程式設計時，經常會看到一些報錯資訊。 Python 有兩種錯誤很容易辨認：語法錯誤和異常。

python去除html標籤及標籤裡面的內容

使用正則表示式去除htm標籤，只取出標籤裡面的文字內容 >>> import re >>>

Python做影象處理及視訊音訊檔案分離和合成功能

一、簡介 Imageio是一個Python庫，提供了一個簡單的介面來讀取和寫入各種影象資料，包括動畫影象，視訊，體積資料和科學格式。它是跨平臺的，執行在Python 2.7和3.4+上，易於安裝。

處理Excel的Python演算法_4.2_：陣列匯入和整理模組——Panda（基本用法.程式碼）

技術標籤：Python程式設計.資料處理索引建立方式修改名稱Pandas讀寫檔案選取資料、篩選資料資料排序資料運算資料刪除資料拼接

js excel裡面的字母和數字的轉換處理

字母轉數字 function stringTonum(a) {　　var str = a.toLowerCase().split(\"\");　　var num = 0;　　var al = str.length;　　var getCharNumber = function (charx) {　　　　return charx.charCodeAt() - 96;

python裝飾器帶引數和方法帶引數的處理

閒話少說~~~ from CustomLogger import mylog from time import sleep, time import functools \"\"\" 裝飾器帶引數和方法帶引數實現，統計方法執行時間

GNE 預處理技術——如何移除特定標籤但是保留文字到父標籤

在開發新聞網頁正文通用抽取器GNE的過程中，需要對目標網頁的原始碼進行一些預處理，從而提高正文抓取的準確性。其中之一就是把 <p>標籤內部的 <span>標籤中的文字，合併到<p>標籤中，再刪除 <

Python量化交易進階講堂-股票分筆資料跨週期處理

《Python實戰-構建基於股票的量化交易系統》小冊子主要側重於 Python 實戰講解，但在內容設計上提供了前置基礎章節幫助讀者快速掌握基礎工具的使用。同時我們會持續更新一些關於Python和量化相關擴充套件文章，幫助大

python 獲取sqlite3資料庫的表名和表字段名的例項

Python中對sqlite3資料庫進行操作時，經常需要用到欄位名，然而對於sqlite使用select語句並不能象MySql等資料庫一樣返回帶欄位名的字典資料集。特別是對於一個不熟悉的sqlite資料庫，寫程式碼時如果需要藉助工具檢視

Python操作Oracle資料庫的簡單方法和封裝類例項

本文例項講述了Python操作Oracle資料庫的簡單方法和封裝類。分享給大家供大家參考，具體如下：

python cx_Oracle的基礎使用方法(連線和增刪改查)

問題使用python操作oracle資料庫，獲取表的某幾個欄位作為變數值使用。使用Popen+sqlplus的方法需要對格式進行控制，通過流獲取這幾個欄位值不簡潔（個人觀點……）。（優點是能夠使用sqlplus的方法直接訪問sql檔

Python呼叫Windows API函式編寫錄音機和音樂播放器

功能描述： 1）使用tkinter設計程式介面； 2）呼叫Windows API函式實現錄音機和音樂播放器。

python中p-value的實現方式

案例： tt = (sm-m)/np.sqrt(sv/float(n)) # t-statistic for mean pval = stats.t.sf(np.abs(tt),n-1)*2 # two-sided pvalue = Prob(abs(t)>tt)

Python+Selenium+phantomjs實現網頁模擬登入和截圖功能(windows環境)

本文全部操作均在windows環境下安裝 Python Python是一種跨平臺的計算機程式設計語言，它可以執行在Windows、Mac和各種Linux/Unix系統上。是一種面向物件的動態型別語言，最初被設計用於編寫自動化指令碼(shell)，隨

Python Sympy計算梯度、散度和旋度的例項

sympy有個vector 模組，裡面提供了求解標量場、向量場的梯度、散度、旋度等計算,官方參考連線：

python 遍歷pd.Series的index和value

遍歷pd.Series的index和value的方法如下，python built-in list的enumerate方法不管用 for i,v in s.items():

python處理p標籤裡面多餘的class 和 其它標籤[html內容處理]

相關推薦

python處理p標籤裡面多餘的class 和其它標籤[html內容處理]