Python通過正則表示式獲取,去除(過濾)或者替換HTML標籤的幾種方法(本文由169it.com蒐集整理)

阿新 • • 發佈：2019-01-07

python正則表示式關鍵內容:

python正則表示式轉義符:

. 匹配除換行符以外的任意字元
\w 匹配字母或數字或下劃線或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配單詞的開始或結束
^ 匹配字串的開始
$ 匹配字串的結束
\W 匹配任意不是字母，數字，下劃線，漢字的字元
\S 匹配任意不是空白符的字元
\D 匹配任意非數字的字元
\B 匹配不是單詞開頭或結束的位置
[^x] 匹配除了x以外的任意字元
[^aeiou] 匹配除了aeiou這幾個字母以外的任意字元

關於python正則表示式命名組：

命名組:(?P<name>.....)
這篇文章裡面還提到了界定( 問號開頭,前向則有個'<'號,非則有個'!' 號 ):
前向界定 (?<=…)
後向界定 (?=…)  
前向非界定 (?<!....)
後向非界定 (?!.....)

常用的python正則表示式限定符程式碼/語法說明:

*重複零次或更多次
+重複一次或更多次
?重複零次或一次
{n}重複n次
{n,}重複n次或更多次
{n,m}重複n到m次

Python通過正則表示式獲取,去除(過濾)或者替換HTML標籤程式碼舉例

Python通過正則表示式取html中天氣資訊程式碼示例:

#!/usr/bin/env python  
#-*- coding: utf8 -*-  
import re 
   
html = """ 
    <h2>多雲</h2> 
"""  
   
if __name__ == '__main__':  
    p = re.compile('<[^>]+>')  
    print p.sub("", html)

Python通過正則表示式取html中溫度資訊程式碼示例:

#!/usr/bin/env python  
#-*- coding: utf8 -*-  
import re  
   
html = """ 
    <div class="w-number"> <span class="tpte">14℃</span> </div> 
"""  
   
if __name__ == '__main__':  
    p = re.compile('<[^>]+>')  
    print p.sub("", html)

Python通過正則表示式去除(過濾)HTML標籤示例程式碼:

# -*- coding: utf-8-*-
import re
##過濾HTML中的標籤
#將HTML中標籤等資訊去掉
#@param htmlstr HTML字串.
def filter_tags(htmlstr):
    #先過濾CDATA
    re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA
    re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script
    re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style
    re_br=re.compile('<br\s*?/?>')#處理換行
    re_h=re.compile('</?\w+[^>]*>')#HTML標籤
    re_comment=re.compile('<!--[^>]*-->')#HTML註釋
    s=re_cdata.sub('',htmlstr)#去掉CDATA
    s=re_script.sub('',s) #去掉SCRIPT
    s=re_style.sub('',s)#去掉style
    s=re_br.sub('\n',s)#將br轉換為換行
    s=re_h.sub('',s) #去掉HTML 標籤
    s=re_comment.sub('',s)#去掉HTML註釋
    #去掉多餘的空行
    blank_line=re.compile('\n+')
    s=blank_line.sub('\n',s)
    s=replaceCharEntity(s)#替換實體
    return s
##替換常用HTML字元實體.
#使用正常的字元替換HTML中特殊的字元實體.
#你可以新增新的實體字元到CHAR_ENTITIES中,處理更多HTML字元實體.
#@param htmlstr HTML字串.
def replaceCharEntity(htmlstr):
    CHAR_ENTITIES={'nbsp':' ','160':' ',
                'lt':'<','60':'<',
                'gt':'>','62':'>',
                'amp':'&','38':'&',
                'quot':'"','34':'"',}
     
    re_charEntity=re.compile(r'&#?(?P<name>\w+);')
    sz=re_charEntity.search(htmlstr)
    while sz:
        entity=sz.group()#entity全稱，如>
        key=sz.group('name')#去除&;後entity,如>為gt
        try:
            htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
            sz=re_charEntity.search(htmlstr)
        except KeyError:
            #以空串代替
            htmlstr=re_charEntity.sub('',htmlstr,1)
            sz=re_charEntity.search(htmlstr)
    return htmlstr
def repalce(s,re_exp,repl_string):
    return re_exp.sub(repl_string,s)
if __name__=='__main__':
    s=file('169it.com_index.htm').read()
    news=filter_tags(s)
    print news

Python通過正則表示式獲取,去除(過濾)或者替換HTML標籤的幾種方法(本文由169it.com蒐集整理)

python正則表示式關鍵內容: python正則表示式轉義符: . 匹配除換行符以外的任意字元 \w 匹配字母或數字或下劃線或漢字 \s 匹配任意的空白符 \d 匹配數字 \b 匹配單詞的開始或結束 ^ 匹配字串的開始 $ 匹配字串的結束 \W 匹配任意不是字母，數字

Python通過正則表示式和字串處理獲取方式獲取所需子字串的方式

在爬蟲軟體時我們經常需要從url中尋找並獲取我們所需要的那一部分內容此例我們需要從網址new_url= "http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml"中獲取 fyfzf

一個js通用函式，通過正則表示式獲取url的各個部分。

這個函式的功能就是把一段url的域名、路徑、檔名等等用陣列返回，通過陣列的索引訪問。這個函式的核心是一段正則表示式，這段正則表達主要參考了微軟的指令碼文件。註釋的內容較多，所以各個部分我就不一一說明了。這個函式主要是為了另外的一個功能"通過cookie控制頁面跳轉"而開發

Python正則表示式過濾或者替換HTML標籤的方法

python正則表示式關鍵內容: python正則表示式轉義符:. 匹配除換行符以外的任意字元 \w 匹配字母或數字或下劃線或漢字 \s 匹配任意的空白符 \d 匹配數字 \b 匹配單詞的開始或結束 ^ 匹配字串的開始 $ 匹配字串的結束 \W 匹配任意不是字母，數字，下劃

通過正則表示式獲取標準url地址的域名和檔案字尾名

形如“http://www.abcdef.com/index.php”或“http://www.abcdef.com/index.php?g=Index&m=Index&a=index”的地址即為標準的url地址，現在我們要通過正則式來獲取它的域名“abcd

js獲取富文字中的第一張圖片url正則公式及去除字串裡面的html標籤的正則公式

js獲取富文字中的第一張圖片url正則公式及去除字串裡面的html標籤後臺發來一個富文字字串裡面可能包含了0、1、2、3…個圖片標籤（img）,我們的任務是獲取這個字串裡面第一張圖片的url，如果沒有圖片則返回空 var imgUrlFun = function(str){

過濾表情獲取過濾後的字元長度（通過正則表示式）

import java.util.regex.Pattern; /** * Created by Basil on 2017/5/10 13:00 */ public class GetInputContentLengh { //加入白名單 public stat

Python 網路爬蟲 009 (程式設計) 通過正則表示式來獲取一個網頁中的所有的URL連結，並下載這些URL連結的原始碼

通過正則表示式來獲取一個網頁中的所有的 URL連結，並下載這些 URL連結的原始碼使用的系統：Windows 10 64位 Python 語言版本：Python 2.7.10 V 使用的程式設計 Python 的整合開發環境：PyCharm 201

python輸入框通過正則表示式的校驗

之前一直沒有用過正則表示式，這回需要校驗輸入框的輸入，看是否符合格式要求。相容如“v1.0.0”和”1.0.0”的格式。臨時查了一下，就用上了。程式碼如下，以便備查。 import re

通過正則表示式進行過濾日期

----------------正則表示式--------日期校驗格式為2017/01/01 (([0-9]{3}[1-9]|[0-9]{2}[1-9][0-9]{1}|[0-9]{1}[1-9][0-9]{2}|[1-9][0-9]{3})/(((0[13578]|1[

ASP 通過正則表示式過濾敏感詞

/// <summary> /// 判斷使用者的評論中是否有禁用詞 /// </summary> /// <param name="msg"></param>

python通過正則獲取字符串指定開頭和結尾的中間字符串的代碼

關於 def start 正則 pat 取字符串 tar 中間 middle 下面的代碼是關於python通過正則獲取字符串指定開頭和結尾的中間字符串的代碼，應該能對各位朋友有些好處。 def GetMiddleStr(content,startStr,endStr):

python爬蟲系列（1）：使用python3和正則表示式獲取貓眼電影排行榜資料

簡述這次打算寫一個爬蟲系列，一邊也想好好總結鞏固學習的知識，一邊做總結筆記，方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊，就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神，期望您能不吝賜教，指正錯誤，如果您是小白，咋們可以一同

python學習-正則表示式及re模塊

我只 com 返回現在輸出 -1 完全匹配 group clu python中的所有正則表達式函數都在re模塊中。import re導入該模塊。 1，創建正則表達式對象想re.compile()傳入一個字符串值，表示正則表達式，它將返回一個Regex模式對象。創建一

Python中正則表示式re.match的用法

re.match(pattern, string, flags) 第一個引數是正則表示式,如果匹配成功，則返回一個Match，否則返回一個None；第二個引數表示要匹配的字串；第三個引數是標緻位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。需要特別注意的是，這個方法並不是完

Python中正則表示式常用函式sub,search,findall,split等使用

1.原生字串r python中字串前面加上 r 表示原生字串,不會轉義。與大多數程式語言相同，正則表示式裡使用"\"作為轉義字元，這就可能造成反斜槓困擾。假如你需要匹配文字中的字元"\"，那麼使用程式語言表示的正則表示式裡將需要4個反斜槓"\\"：前兩個和後兩個分別用於在程式語言裡轉義成反斜

Python中正則表示式對單個字元，多個字元，匹配邊界等使用

Regular Expression，正則表示式，又稱正規表示式、正規表示法、正則表示式、規則表示式、常規表示法（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），是電腦科學的一個概

【轉】Python之正則表示式（re模組）

【轉】Python之正則表示式（re模組）本節內容 re模組介紹使用re模組的步驟 re模組簡單應用示例關於匹配物件的說明說說正則表示式字串前的r字首 re模組綜合應用例項參考文件提示：由於該站對MARKDOWN的表格支援的不是很好，所以本文中的表

[Python模組]正則表示式 re模組的使用與例項

很喜歡Python教材中的這句格言: 有些人面臨問題時會想:“我知道, 我將使用正則表示式來解決這個問題.” 這讓他們面臨的問題變成了兩個. ---------Jamie Zawinski 正則表示式的確好用,但是複雜的模式難以閱讀和維護,與其把花在研究用正則表示式處理複雜的問題上,

PHP通過正則表示式動態修改配置檔案

一、相關的知識點正表示式 preg_match_all – 進行全域性正則表示式匹配 preg_replace – 執行正則表示式的搜尋和替換檔案的讀和寫 file_get_contents()–檔案讀取資訊函式 file_put_con

Python通過正則表示式獲取,去除(過濾)或者替換HTML標籤的幾種方法(本文由169it.com蒐集整理)

相關推薦