python對html過濾處理

阿新 • • 發佈：2019-02-13

##過濾HTML中的標籤
#將HTML中標籤等資訊去掉
#@param htmlstr HTML字串.
def filter_tags(htmlstr):
    #先過濾CDATA
    re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA
    re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script
    re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>' 
,re.I)#style
    re_br=re.compile('<br\s*?/?>')#處理換行
    re_h=re.compile('</?\w+[^>]*>')#HTML標籤
    re_comment=re.compile('<!--[^>]*-->')#HTML註釋
    re_stopwords=re.compile('\u3000')#去除無用的'\u3000'字元
    s=re_cdata.sub('',htmlstr)#去掉CDATA
    s=re_script.sub('',s) #去掉SCRIPT
    s=re_style.sub('' 
,s)#去掉style
    s=re_br.sub('\n',s)#將br轉換為換行
    s=re_h.sub('',s) #去掉HTML 標籤
    s=re_comment.sub('',s)#去掉HTML註釋
    s=re_stopwords.sub('',s)
    #去掉多餘的空行
    blank_line=re.compile('\n+')
    s=blank_line.sub('\n',s)
    s=replaceCharEntity(s)#替換實體
    return s

##替換常用HTML字元實體.
#使用正常的字元替換HTML中特殊的字元實體. 

#你可以新增新的實體字元到CHAR_ENTITIES中,處理更多HTML字元實體.
#@param htmlstr HTML字串.
def replaceCharEntity(htmlstr):
    CHAR_ENTITIES={'nbsp':' ','160':' ',
                'lt':'<','60':'<',
                'gt':'>','62':'>',
                'amp':'&','38':'&',
                'quot':'"','34':'"',}

    re_charEntity=re.compile(r'&#?(?P<name>\w+);')
    sz=re_charEntity.search(htmlstr)
    while sz:
        entity=sz.group()#entity全稱，如&gt;
        key=sz.group('name')#去除&;後entity,如&gt;為gt
        try:
            htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
            sz=re_charEntity.search(htmlstr)
        except KeyError:
            #以空串代替
            htmlstr=re_charEntity.sub('',htmlstr,1)
            sz=re_charEntity.search(htmlstr)
    return htmlstr

python對html過濾處理

##過濾HTML中的標籤 #將HTML中標籤等資訊去掉 #@param htmlstr HTML字串. def filter_tags(htmlstr): #先過濾CDATA re_cdata=re.compile('//<!\[CDATA

Python 對cookies的處理——urllib2

res ces build cookie值 ons for cookie value pre import urllib2 import cookielib cookie = cookielib.CookieJar() opener = urllib2.bui

python 對時間的處理

時間處理來源： from datetime import datetime from datetime import timedelta if "剛剛" in publish_time: publish_time = datetime.now().strftime

Python---對html檔案內容進行搜尋取出特定URL地址字串，儲存成列表，並使用每個url下載圖片，並儲存到硬碟上，使用正則re

Python—對html檔案內容進行搜尋取出特定URL地址字串，儲存成列表，並使用每個url下載圖片，並儲存到硬碟上，正則re 對目標回包內容取出這樣類似的內容： https://xian

[轉載]Python-對Pcap檔案進行處理，獲取指定TCP流 https://www.cnblogs.com/sunpudding/p/9538889.html

https://www.cnblogs.com/sunpudding/p/9538889.html Python-對Pcap檔案進行處理，獲取指定TCP流通過對TCP/IP協議的學習，本人寫了一個可以實現對PCAP檔

對html中特殊的符號進行過濾處理_Filter類

需要牢記的一個類StringBuffer及sb物件！ package util; public class HtmlFilter { public static String html

【原創】Python 對象創建過程中元類, new, call, init 的處理

diff regular luci 自定義 weight ica 一般來說 att ray 原始type: type是最原始的元類，其__call__方法是在你使用" t_class = type(classname_string, base_classes_tuple,

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

Python 編程核心知識體系-文件對象|錯誤處理（四）

錯誤技術 com 9.png href log alt 體系 lan 錯誤處理文件對象 Python 編程核心知識體系-文件對象|錯誤處理（四）

Python對字符串進行MD5加密處理

python color hashlib rip Coding lib reload md5加密進行 import hashlibimport sysreload(sys)sys.setdefaultencoding(‘utf-8‘)m = hashlib.md5()m.

python面向對象--異常處理

UC pri open pen exce 下標索引處理 dex fine 1.常見異常類型 IOError 文件讀寫異常 ValueError值異常，一般是數據類型不對應 IndexError下標索引越界 2.try...except... try: f=ope

Python-對Pcap文件進行處理，獲取指定TCP流

serve cap dscp 解析地址沒有 ont wikipedia 校驗和通過對TCP/IP協議的學習，本人寫了一個可以實現對PCAP文件中的IPV4下的TCP流提取，以及提取指定的TCP流，鑒於為了學習，沒有采用第三方包解析pcap，而是對byt

python導入模塊時對路徑的處理

import char project code rom bin int pyc har 導入模塊時的理論部分: 如果自定義一個模塊，導入的時候很可能出問題，因為系統自動回去sys.path輸出的這幾個目錄下去找，而自定義的模塊很可能不再這些目錄下，就需要人為的添加進去才能

Java對html標籤的過濾和清洗

OWASP HTML Sanitizer 是一個簡單快捷的java類庫，主要用於放置XSS 優點如下：　　1.使用簡單。不需要繁瑣的xml配置，只用在程式碼中少量的編碼　　2.由Mike Samuel（谷歌工程師）維護　　3.通過了AntiSamy超過95%的UT覆蓋　　4.高效能，低記憶體

python對樣本進行歸一化處理

資料歸一化處理是資料探勘中一項基本的工作，不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到資料分析的結果，為了消除指標之間量綱的影響，需要進行資料標準化處理，以解決資料指標之間的可比性。例如要求解距離(歐氏距離等)，需要平方和操作，非常小的數貢獻很小，反之大的

Python對千分位的處理

有一個需求，需要給數字新增千分位，對於大數字來說觀感會更好，不然數位數也是一件蠻累的事情。第一反應是寫一個暴力新增逗號的函式，從個位數開始倒推，每三位新增一次逗號，直到取完所有位數。細想之下，如果是小數的話，需要判斷哪一位是個位數，而不是直接取最後一位，這個函式的複雜度因此增加了不少

python爬蟲學習筆記四：BeautifulSoup庫對HTML文字進行操作

只要你提供的資訊是標籤，就可以很好的解析怎麼使用BeautifulSoup庫？ from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data<p>','html.parser'）例如： import

Python requests-html扔多處理錯誤

我試圖移動web抓取程式使用請求圖書館requests-html圖書館允許我把網頁上的javascript。匯入的模組丟擲這個錯誤: Traceback (most recent call last):File "backend2.py", line 2, in <module>import

利用python對2012美國大選進行資料分析(四，時間處理)

1，str轉datetime 我們可以使用pd.to_datetime(series,format='%Y%m%d')將字元轉化為日期，格式為年月日。 data_vs['time'] = pd.to_datetime(data_vs['contb_receipt_dt']

Python + OpenCV 學習筆記（八）>>> 利用卷積對影象模糊處理

模糊操作基本原理：基於離散卷積定義好每個卷積核不同卷積核得到不同的卷積效果模糊是卷積的一種表象程式碼層面知識點均值模糊中值模糊自定義模糊意義與應用場合 -------------------

python對html過濾處理

相關推薦