15-python基礎知識-正則表示式

阿新 • • 發佈：2018-12-27

正則表示式

應用場景

特定規律字串的查詢，切割、替換等
特定格式(郵箱、手機號、IP、URL等)的校驗
爬蟲專案中，提取特定內容

使用原則

只要使用字串函式能夠解決的問題就不要使用正則
正則的效率比較低，同時會降低程式碼的可讀性
世界上最難理解的三樣東西：醫生的處方、道士的神符、碼農的正則
提醒：正則是用來寫的，不是用來讀的；在不清楚功能的情況下，不要閱讀別人的正則

基本使用

說明：正則的解析不是我們來做的，需要藉助re模組

相關函式：

match：只從開頭進行匹配，匹配到就返回結果物件，沒有找到返回None

search：從任意位置匹配，功能同上，都是單次匹配(找到就停)

m = re.search('abc', 'hadajabcadjlae')

if m:
    # 返回匹配的內容
    print(m.group())
    # 返回匹配內容的位置
    print(m.span())

findall：全部匹配，返回所有匹配的到結果列表，沒有找到返回空列表

f = re.findall('abcd', 'abcasjdlaabcaksjd;abcasdjla')
print(f)

compile：建立正則表示式物件，可以讓建立正則物件和內容匹配分開操作

# 可以先生成正則表示式物件，然後再進行匹配
c = re.compile('cba')
# print(type(c))

# 從開頭匹配
# m = c.match('cbasdhaj;acbaalsdk')
# 從任意位置匹配
m = c.search('casdhaj;acbaalsdk')

if m:
    print(m.group())

# 匹配所有
f = c.findall('ahkjdcbasdkjalcbasakldjacba')
print(f)

此方式可以分開操作，比較靈活

正則語法

單個字元

普通字元：簡單理解就是一對一的完全匹配
[]：中間的任意一個字元
	[abc]：abc的任意一個字元
	[0-9]：任意的數字字元
	[a-zA-Z]：任意的字母
	[^0-9]：非數字字元
. ：除'\n'以外的任意字元
\d：數字字元，等價於[0-9]
\D：非數字字元，等價於[^0-9]
\w：匹配字(數字、字母、下劃線)
\W：匹配非字(\w相反的內容)
\s：空白字元(\n、\r、\t、空格)
\S：非空白字元(\s相反的內容)
\b：詞邊界(開頭、結尾、空格、標點)
\B：非詞邊界(\b相反的內容)

次數限定：修飾前面的單個字元出現的次數

*：任意次
+：至少一次
?：至多一次
{m}：指定m次
{m,n}：m <= 次數 <=n
{m,}：至少m次
{,m}：至多m次

邊界限定

^：以指定的內容開頭
$：以指定的內容結尾
示例：

import re

# 只從開頭匹配
# f = re.findall('^hello', 'asjdhelloaskd')
# 只從結尾匹配
f = re.findall('world$', 'asjdhelloaskworld')
# 同時限制開頭和結尾
f = re.findall('^\w*$', 'asjdhelloaskworld')
print(f)

優先順序與整體

import re

# |：表示或，擁有最低的優先順序
# ()：可以表示一個整體
s = re.search('hell(o|w)orld', 'akdhahellworld')

if s:
    print(s.group())

分組匹配

示例1：

import re

c = re.compile('(\d+)([a-z]+)(\d+)')

s = c.search('agaj2635sdhasda237adjsd')

if s:
    # 0：表示完整匹配內容，之後的數字表示第幾組，也就是第幾個()匹配的內容
    print(s.group(0), s.span(0))
    print(s.group(1), s.span(1))
    print(s.group(2), s.span(2))
    print(s.group(3), s.span(3))

示例2：

import re

# 固定匹配
# c = re.compile('<div><a>\w+</a></div>')
# 動態匹配：匹配兩次巢狀的標籤
# c = re.compile('<[a-z]+><[a-z]+>\w+</[a-z]+></[a-z]+>')
# 無名分組：\1、\2分別表示前面的第一組、第二組匹配的內容
# c = re.compile(r'<([a-z]+)><([a-z]+)>\w+</\2></\1>')
# 命名分組：給分組()起名字
c = re.compile(r'<(?P<one>[a-z]+)><(?P<two>[a-z]+)>\w+</(?P=two)></(?P=one)>')

s = c.search('<div><a>百度一下</a></div>')

if s:
    print(s.group())
    # 返回所有組的資訊，是一個元組
    print(s.groups())
    # 返回分組的字典，鍵是組的名字，值時匹配的內容
    print(s.groupdict())

findall

import re

# 按照正則進行匹配，但是新增()後，結果只顯示()匹配的內容
f = re.findall('A(abc)A', 'asdjAabcAasdjAabcAsdkabca')

print(f)

貪婪匹配

貪婪：最大限度的匹配。正則的匹配預設是貪婪的
非貪婪：只要滿足條件，能少匹配就少匹配。可以使用’?'取消貪婪
示例：

import re

# .+?：取消至少一次的貪婪匹配
# c = re.compile('a.+?b')

# .*?：取消任意多次的貪婪匹配
c = re.compile('a.*?b')

s = c.search('sdhaasdajasksdbsdjbsdk')

if s:
    print(s.group())

匹配模式

說明：匹配模式就是對預設的匹配原則進行整體的修飾
示例：

import re

# re.I：表示忽略大小寫
# s = re.search(r'hello', 'Hello', re.I)

# re.M：多行處理，預設會把字元當做一行處理
s = re.search(r'^hello', 'asdkasj\nhelloajsdhkas', re.M)

# string = '<div>hello</div>'
string = '''<div>
hello
</div>'''
# re.S：是.可以匹配任意，作為單行處理(忽略\n)
s = re.search(r'<div>.*?</div>', string, re.S)

if s:
    print(s.group())

字元轉義

匹配凡是跟正則語法相關的字元都需要需要進轉義
示例：

import re

# python    \\\d    \\\\d   r'\\d'
# re        \\d     \\d     \\d
# 實際        \d      \d      \d

# 推薦使用，否則需要寫很多\
c = re.compile(r'\\d')

s = c.search('\d')

if s:
    print(s.group())
 
# 匹配'\b'字串
c = re.compile(r'\b')

# \b本身有特殊含義
s = c.search(r'\b')
if s:
	print('成功', s.group())

在定義字串的開頭新增’r’表示原始字串，可以輕鬆解決很多關於轉義的問題

正則切割

import re

c = re.compile(r'\d')

string = '正則其實不難1但是學完之後2發現什麼也不出來3是這樣吧'

# 字串是固定切割，不能解決某類的匹配切割問題
# print(string.split('1'))
# 按照正則進行切割
ret = c.split(string)
print(ret)

# 整體方案
print(re.split(r'\d', string))

正則替換

string = 'helloadjasdhelloskdjalkhellosdjka'
# 字串替換
new_string = string.replace('hello', 'world', 2)
print(new_string)

import re

s = 'how1are2you'
# 正則替換
# s2 = re.sub(r'\d', ' ', s)
# 替換時可以傳遞一個函式，使用函式的返回值進行替換
def double(s):
    return str(int(s.group()) * 2)
    # return 'xxx'
# 使用專門的處理函式，可以認為的干預替換過程
s2 = re.sub(r'\d', double, s)
print(s2)

15-python基礎知識-正則表示式

正則表示式應用場景特定規律字串的查詢，切割、替換等特定格式(郵箱、手機號、IP、URL等)的校驗爬蟲專案中，提取特定內容使用原則只要使用字串函式能夠解決的問題就不要使用正則正則的效率比較低，同時會降低程式碼的可讀性

python基礎：正則表示式

正則表示式是一種特殊的字串模式，用於匹配一組字串。一：基礎釋義 \w 匹配大小寫字母或數字或下劃線或漢字 \w+ 後面的+號的作用在前一個字元上,表示一個或多個\w,最少一個 . 匹配除換行符以外的任意字元 \s 匹配任意的空白符 \d 匹

python 基礎知正則表示式

# 正則表示式 ### 應用場景 - 特定規律字串的查詢，切割、替換等 - 特定格式(郵箱、手機號、IP、URL等)的校驗 - 爬蟲專案中，提取特定內容 ### 使用原則 - 只要使用字串函式能夠解決的問題就不要使用正則 - 正則的效率比較低，同時會降低程式碼的可讀性 - 世界上最難理解的三樣東

Java基礎知識-正則表示式

正則表示式:符合一定規則的表示式。作用：用於專門操作字串。特點：用於一些特定的符號來表示一些程式碼操作。這樣就簡化書寫。所以學習正則表示式，就是在學習一些特殊符號的使用。好處：可以簡化對字串的複雜操作。弊端：符號定義越多

python基礎-12-正則表示式

python基礎-正則表示式正則正則表示式是電腦科學的一個概念，正則表通常被用來檢索、替換那些符合某個模式(規則)的文字。也就是說使用正則表示式可以在字串中匹配出你需要的字元或者字串，甚至可以替換你不需要的字元或者字串。 #正則（不是python特

python網路基礎之正則表示式

下面是我對正則表示式的一些簡單介紹，它多用於爬蟲，用來定製規則 # 正則表示式匯入模組 import re # match只匹配字串的頭 # re.match(正則表示式，需要處理的字串) re.match(r"hello", "hello world") # 大小寫的匹配 re.m

Python基礎-re正則模塊

字符匹配 mil afa logs 電子郵箱空白字符手機常用所有一、簡介：正則表達式：是一種小型的、高度專業化的編程語言，(在Python中)它內嵌在Python中，並通過re模塊實現，正則表達式模式被編譯成一系列的字節碼，然後由用C編寫的匹配引擎執行。二

Python基礎語法 - 正則表達式

Python3.6.5 re模塊概述正則表達式是一個特殊的字符序列，它常常用於檢查是否與某種模式匹配。第八節課主要介紹了從以下幾方面介紹了Python正則表達式的用法。（1）re模塊的使用（2）字符匹配、數量表示、邊界表示（3）正則表達式的高級用法（4）貪婪與非貪婪模式 re模塊（一）match

Python學習：正則表示式

正則表示式 python 使用正則表示式（re）來進行匹配引擎搜尋正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串” 關於正則表示式，必須先學會它的元字元元字元： ^ $ * +&

在Python中使用正則表示式去掉字串裡的html標籤

有時候會獲得一些帶html標籤的字串，需要把html標籤去掉，獲得乾淨的字串，這時候可以使用正則表示式。程式碼如下： import re htmeString = ''' <ul id="TopNav"> &nbs

Shell基礎 -- 基本正則表示式

　　正則表示式（Regular Expression，通常簡稱為 regex 或 RE）是一種表達方式，可以用它來查詢匹配特定準則的文字。在許多程式語言中都有用到正則表示式，常用它來實現一些複雜的匹配。這裡簡單介紹一下 shell 中常用到的一些正則表示式。一、什麼是正則表示式　　正則表示式是對字串進

Python中利用正則表示式用逗號分割資料，但是忽略引號中的逗號的方法

一.問題描述：我在做一個網站搜尋記錄的分割工作，原始資料如下： x= '{"嬌妻有毒路明": "0.013", "嬌妻有毒%2c陸少寵上癮": "0.078",\ "嬌妻有毒老公你放鬆點": "0.021", "嬌妻有毒陸明白芬": "0.011", "嬌妻有毒:陸少,寵上癮": "0.

Python爬蟲（正則表示式）

Python爬蟲（正則表示式）最近接觸爬蟲比較多，下面我來展示一個剛爬取的成果，使用正則表示式的方法，希望對剛開始接觸爬蟲的小夥伴有所幫助，同時希望大佬們給予點評和指導接下來，步入正題，使用正則表示式爬取資料是一種原始且有效的方法，正則表示式的作用即字元匹配，匹配出你想得到的

python學習 re正則表示式

一、正則的常用符號： . 匹配任一字元，換行符\n除外 * 匹配前一個字元0次或無限次？匹配前一個字元0次或1次 .* 貪心演算法（儘可能多的匹配） .*? &nb

python記錄_day23 正則表示式 re模組

一、正則表示式使用python的re模組之前應該對正則表示式有一定的瞭解正則表示式是對字串操作的一種邏輯公式。我們一般使用正則表示式對字串進行匹配和過濾。正則的優缺點：優點：靈活，功能性強，邏輯性強. 缺點：上手難，但一旦學會這東西非常好用 # 正則表達的組成：普通字

Python指令碼--基於正則表示式對檔案進行解析

Python指令碼--基於正則表示式對檔案進行解析首先需要了解正則表示式中的相應指令（compile、findall）,我對此的理解是compile相當於一個規則的制定者，將匹配的規則制定出來，後續具體的操作是findall的工作【選擇適當的規則

python模組-re正則表示式

元字元 . * + ? ^ $ { } [ ] - &n

python爬蟲5——正則表示式

正則表示式很好用，之前沒有體會到它的強大，在寫原生的servlet程式，呼叫微服務時，要經常拼接字串，寫sql，需求轉換成程式碼，沒有個靈活的工具處理，真的是會被煩死的。就用sublime_txt +正則表示式，賊好用！為什麼要學正則表示式實際上爬蟲一共就四個主要步驟：

python入門之正則表示式

正則　　通過re模組實現　　eg：>>>import re 　　 >>>re.findall('abc',str_name) 　　在strname裡面完全匹配字串abc，返回列表['abc']，有多個則返回多

Python庫-re(正則表示式)

re庫是python的一個標準庫，不需要自己用pip額外下載，直接呼叫即可。下面介紹以下庫中函式的作用。 1.re.compile(patter, flags=0) patter是一個正則表示式字串，例如"[0-9]+"，該函式返回一個模式物件(patter object)，str型別 2

15-python基礎知識-正則表示式

正則表示式

應用場景

使用原則

基本使用

正則語法

相關推薦