「Python」資料清洗常用正則

阿新 • • 發佈：2019-01-02

對爬蟲資料進行自然語言清洗時用到的一些正則表示式

標籤中的所有屬性匹配（排除src,href等指定引數）

# \b(?!src|href)\w+=[\'\"].*?[\'\"](?=[\s\>])
# 匹配特徵 id="..." 
# \b(?!...)排除屬性名中的指定引數，零寬斷言前向界定判斷屬性結束
# tips: 帶\b的python正則匹配一定要加r轉義

str1 = '''
<div class="concent" id="zoomcon" style="padding:15px;">
<img border="0" src="/xcsglj/zyhd/201802/f5492c1752094f44bcebae4a68480c64/images/9a900610afc54ee3b468780785a2ecec.gif" 
>
<img border="0" src="/xcsglj/zyhd/201802/f5492c1752094f44bcebae4a68480c64/images/4b802f5d2d8c4ecd9a0525e0da7d886e.gif">
<img href="0" src="/xcsglj/zyhd/201802/f5492c1752094f44bcebae4a68480c64/images/4b802f5d2d8c4ecd9a0525e0da7d886e.gif">
'''

print(re.findall(r'\b(?!src)\w+=[\'\"].*?[\'\"](?=[\s\>])', string=str1))
# result: ['class="concent"', 'id="zoomcon"', 'style="padding:15px;"', 'border="0"', 'border="0"', 'href="0"']

html標籤的所有引數

# (?<=\<\w{1}\s).*?(?=\>)
# (?<=\<\w{2}\s).*?(?=\>)
# ...
# 清除n個字母的標籤的所有引數
# tips: 零寬斷言不支援不定長度的匹配

str1 = '''
<a class="1" id="1" style="padding:1;">
<td class="2" id="2" style="padding:2;">
<div class="3" id="3" style="padding:3;">
<span class 
="4" id="4" style="padding:4;">
<table class="5" id="5" style="padding:5;">
'''

print(re.findall('(?<=\<\w{1}\s).*?(?=\>)', string=str1))
# result: ['class="1" id="1" style="padding:1;"']
print(re.findall('(?<=\<\w{2}\s).*?(?=\>)', string=str1))
# result: ['class="2" id="2" style="padding:2;"']
print(re.findall('(?<=\<\w{3}\s).*?(?=\>)', string=str1))
# result: ['class="3" id="3" style="padding:3;"']
print(re.findall('(?<=\<\w{4}\s).*?(?=\>)', string=str1))
# result: ['class="4" id="4" style="padding:4;"']
print(re.findall('(?<=\<\w{5}\s).*?(?=\>)', string=str1))
# result: ['class="5" id="5" style="padding:5;"']

非中文字元

# u'[^\u4e00-\u9fa5]+'
# 清除非中文字元

str1 = 'aa.，a中文,aa。a'

print(re.compile(u"[^\u4e00-\u9fa5]+").sub('', str1))
# result: 中文

指定萬用字元中的內容

# \{.*?\} // 匹配{}中的內容
# \<.*?\> // 匹配<>中的內容

str1 = '{萬用字元}你好，今天開學了{萬用字元},你好'
print(re.compile(r'\{.*?\}').sub('', str1))
# result: 你好，今天開學了,你好

html標籤尾部的空格

# \s*(?=\>)

指定標籤（包括中間的內容）

# \<style.*?/style\>

清除常用中英文字元/標點/數字外的特殊符號

# u'[^\u4e00-\u9fa5\u0041-\u005A\u0061-\u007A\u0030-\u0039\u3002\uFF1F\uFF01\uFF0C\u3001\uFF1B\uFF1A\u300C\u300D\u300E\u300F\u2018\u2019\u201C\u201D\uFF08\uFF09\u3014\u3015\u3010\u3011\u2014\u2026\u2013\uFF0E\u300A\u300B\u3008\u3009\!\@\#\$\%\^\&\*\(\)\-\=\[\]\{\}\\\|\;\'\:\"\,\.\/\<\>\?\/\*\+\_"\u0020]+'

str1 = re\
    .compile(\
        u "[^"
        u "\u4e00-\u9fa5"
        u "\u0041-\u005A"
        u "\u0061-\u007A"
        u "\u0030-\u0039"
        u "\u3002\uFF1F\uFF01\uFF0C\u3001\uFF1B\uFF1A\u300C\u300D\u300E\u300F\u2018\u2019\u201C\u201D\uFF08\uFF09\u3014\u3015\u3010\u3011\u2014\u2026\u2013\uFF0E\u300A\u300B\u3008\u3009"
        u "\!\@\#\$\%\^\&\*\(\)\-\=\[\]\{\}\\\|\;\'\:\"\,\.\/\<\>\?\/\*\+\_"
        u "\u0020"
        u "]+")\
    .sub('', str1)

「Python」資料清洗常用正則

對爬蟲資料進行自然語言清洗時用到的一些正則表示式標籤中的所有屬性匹配（排除src,href等指定引數）參考連結 # \b(?!src|href)\w+=[\'\"].*?[\'\"](?=[\s\>]) # 匹配特徵 id="..

利用正則表示式處理爬取的今日頭條內容資料（Python爬蟲資料清洗）

本次要處理的是抓取的頭條內容，內容如下： content = '''content: '<div><blockquote><p><strong>想要更多科技類資訊，歡迎關注公眾號“

Python爬蟲---資料的提取和清洗的正則應用規則

最近在做一個專案，爬蟲獲取的資料可謂一鍋粥，果斷選擇了正則表示式，下面是常用的規則：表示式全集字元描述 \ 將下一個字元標記為一個特殊字元、或一個原義字元、或一個向後引用、或一個八進位制轉義符。例如，“n”匹配字元“n”。“\n”匹配一個換行符。序列

python 基礎 8.0 regex 正則表達式--常用的正則表達式

nbsp 額外 ext .... alt name 在線 -- div 一. python 中常用的正則表達式二. 正則表達式的網站，可以進行在線正則匹配 https://regex101.com/ 1. 使用方法及正則介紹 1》 ‘.’

python 字符串之常用正則

alt python3 pos style 整數 fortran 匹配分享圖片 d+ 一、前面簡單寫了一下re模塊操作字符串的寫法，加上正則之後 re模塊才能發揮更強大的功能。先看看常見的正則符號：復習一下基礎的re模塊： import re text = ‘c

Python常用正則表達式總結

reat col 數字 ima del 正則表達 TP 匹配中文 .com 1 非負整數：^\d+$ 2 3 正整數：^[0-9]*[1-9][0-9]*$ 4 5 非正整數：^((-\d+)|(0+))$ 6 7 負整數：^-[0-9]*[1-

python爬蟲三大解析資料方法：正則及圖片下載案例

基本正則用法回顧 # 提取python key = 'javapythonc++php' print(re.findall('python', key)[0]) # 提取hello world key = '<html><h1>hello world</h

python之re模組（正則表示式）常用函式

1、compile() 編譯正則表示式模式，返回一個物件的模式。（可以把那些常用的正則表示式編譯成正則表示式物件，這樣可以提高一點效率。）格式： re.compile(pattern,flags=0) pattern: 編譯時用的表示式字串。 flags 編譯標誌位，用於修改正

「Python」爬蟲自然語言清洗元件 v1.0.0

公告：博主因使用魔理沙的掃把表達清洗，已被車萬粉拉去祭天。設計思路我認為從網站上爬取下來的內容要清洗的有兩大塊：通用清洗和規則清洗，換句話說就是可複用的和不可複用的。通用清洗是每個爬蟲

python 正則,常用正則表示式大全

Nginx訪問日誌匹配 re.compile #re.compile 規則解釋,改規則必須從前面開始匹配一個一個寫到後面，前面一個修改後面全部錯誤。特殊標準結束為符號為空或者雙引號: 改符號開始從“開始匹配無限個到”碰到“結束 "(?P<request>[^"]*) 例二：匹配顏色

【python學習筆記】用正則表示式從含中文的網頁中提取資料（含編碼轉換）

目標：用正則表示式從含中文的網頁中提取資料 1、獲得網頁全部資料 1.1思考過程確定我們要操作的網頁：url = 'http://q.stock.sohu.com/cn/603077/cwzb.shtml' 開啟要操作的網頁：req = urllib2.open(url)

[python] 常用正則表示式爬取網頁資訊及分析HTML標籤總結

這篇文章主要是介紹Python爬取網頁資訊時，經常使用的正則表示式及方法。它是一篇總結性文章，實用性比較大，主要解決自己遇到的爬蟲問題，也希望對你有所幫助~ 當然如果會Selenium基於自動化測試爬蟲、BeautifulSoup分析網頁DOM節點，這就更方便了，但本文更多

[轉]常用正則表示式大全-----使用者名稱、密碼、郵箱、等資料格式的校驗

正則表示式收集，供自己查閱之用轉自：http://www.jb51.net/article/72867.htm 一、校驗數字的表示式 1 數字：^[0-9]*$ 2 n位的數字：^\d{n}$ 3 至少n位的數字：^\d{n,}$ 4 m-n位的數字：^

Python常用正則表示式語法和寫法

今天因為看一個爬蟲的例子,看到資料抓取的時候別人用的正則表示式去匹配想要的資料.當即對這個表示式感興趣起來,仔細閱讀了一下相關文件,對其有了大概的認識,索性寫了一篇文章來介紹python中相關正則表示式的用法,以便自己日後參閱! 相關介紹正則表示式是一

python五十六課——正則表達式（常用函數之findall）

如果 sina com 常用 div mpi .com earch string 4).函數：findall(regex,string,[flags=0])：參數：和match、search一樣理解功能：將所有匹配成功的子數據(子串)，以列表的形式返回；如果一個都沒有匹配成

PHP 常用正則表達式

參考 arr replace search 上一個 tput 位或 $1 以及 PHP代碼 $str = preg_replace("/(<a.*?>)(.*?)(<\/a>)/", ‘\1<span class="link">\2<

常用正則表達式爬取網頁信息及HTML分析總結

logfile mpi 開始 order 標題 ear 爬取網頁常用 enter Python爬取網頁信息時，經常使用的正則表達式及方法。 1.獲取<tr></tr>標簽之間內容 2.獲取<a href..></a>超鏈接

python進階十_正則表達式(一)

之前 dsm 常見 style ear 單個字符 src ace 例如近期狀態一直不太好，至於原因。怎麽說呢，不好說，總之就是糾結中覆蓋著糾結。心思全然不在點上。希望能夠借助Python的學習以及博客的撰寫來調整回來,有的時候回頭想一想。假設真的是我自己的問題呢，曾經

常用正則表達式

ror reg 有用 p地址成對劃線 set 是個 blank 常用正則表達式大全！（例如：匹配中文、匹配html）匹配中文字符的正則表達式： [u4e00-u9fa5] 　　評註：匹配中文還真是個頭疼的事，有了這個表達式就好辦了　　匹配雙字節字符(包括漢字在

常用正則表達式速查表

tle 效果 table 邏輯改變小寫 body 換行符特殊元字符(配匹字符串用) 字符補集(相反的) . 除換行符（\n）以外的任意字符 \n（換行） \w 單詞字符 (指大小寫字母、0-9的數字、下劃線、漢字) \W \d 數字(0-

「Python」資料清洗常用正則

標籤中的所有屬性匹配（排除src,href等指定引數）

html標籤的所有引數

非中文字元

指定萬用字元中的內容

html標籤尾部的空格

指定標籤（包括中間的內容）

清除常用中英文字元/標點/數字外的特殊符號

相關推薦