python 過濾文字中的HTML標籤

阿新 • • 發佈：2019-02-17

'''過濾HTML中的標籤 #將HTML中標籤等資訊去掉 #@param htmlstr HTML字串.''' def filter_tag(htmlstr): re_cdata = re.compile('<!DOCTYPE HTML PUBLIC[^>]*>', re.I) re_script = re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>', re.I) #過濾指令碼 re_style = re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>', re.I) #過濾style re_br = re.compile('<br\s*?/?>') re_h = re.compile('</?\w+[^>]*>') re_comment = re.compile('') s = re_cdata.sub('', htmlstr) s = re_script.sub('', s) s=re_style.sub('',s) s=re_br.sub('\n',s) s=re_h.sub(' ',s) s=re_comment.sub('',s) blank_line=re.compile('\n+') s=blank_line.sub('\n',s) s=re.sub('\s+',' ',s) s=replaceCharEntity(s) return s '''##替換常用HTML字元實體. #使用正常的字元替換HTML中特殊的字元實體. #你可以新增新的實體字元到CHAR_ENTITIES中,處理更多HTML字元實體. #@param htmlstr HTML字串.''' def replaceCharEntity(htmlstr): CHAR_ENTITIES={'nbsp':'','160':'', 'lt':'<','60':'<', 'gt':'>','62':'>', 'amp':'&','38':'&', 'quot':'"''"','34':'"'} re_charEntity=re.compile(r'&#?(?P<name>\w+);') #命名組,把匹配欄位中\w+的部分命名為name,可以用group函式獲取 sz=re_charEntity.search(htmlstr) while sz: #entity=sz.group() key=sz.group('name') #命名組的獲取 try: htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1) #1表示替換第一個匹配 sz=re_charEntity.search(htmlstr) except KeyError: htmlstr=re_charEntity.sub('',htmlstr,1) sz=re_charEntity.search(htmlstr) return htmlstr

python 過濾文字中的HTML標籤

python 過濾文字中的HTML標籤

取出html程式碼中的一段文字去除html標籤

Python通過正則表示式獲取,去除(過濾)或者替換HTML標籤的幾種方法(本文由169it.com蒐集整理)

富文字內容中html標籤的去除

Python正則表示式過濾或者替換HTML標籤的方法

用python提取文字中的數字, 文字複製

關於在php中html標籤的轉換問題的解決,轉義與反轉義

關於在php中html標籤的轉換問題的解決

iOS 刪除字串中html標籤

如何用python讀取文字中指定行的內容

python提取文字中的中文

js過濾（去除）富文字編輯器中的html標籤和換行回車等標記的正則表示式

js獲取富文字中的第一張圖片url正則公式及去除字串裡面的html標籤的正則公式

Python學習 Day 039 - html - body中標籤的分類

在Python中使用正則表示式去掉字串裡的html標籤

angular~ 文字中支援html標籤

去除富文字中的html標籤及vue、react、微信小程式中的過濾器

簡單的將一個html（xml）文字中的img標籤（圖片）提取出來的方法

python 正則表示式去除文字中標籤內容

Java 獲取Html文字中的img標籤下src中的內容

python 過濾文字中的HTML標籤

相關推薦