正則表示式-re模組的使用

阿新 • • 發佈：2018-12-16

正則表示式的基本使用

一、re模組

正則表示式是用來匹配處理字串的。

python 中使用正則表示式需要引入re模組。

import re

二、search()和match()的區別

match()函式只檢測字元是不是在string的開始位置匹配；search()會掃描整個string查詢匹配。

也就是說match()只有在0位置匹配成功的話才有返回，如果不是開始位置匹配成功的話，match()就返回none。

>>> import re
>>> a = 'hello world'
>>> b = re.search('w',a)
>>> b
<_sre.SRE_Match object; span=(6, 7), match='w'>
>>> b.group()
'w'
>>> c = re.match('w',a)
>>> c
>>> d = re.match('h',a)
>>> d
<_sre.SRE_Match object; span=(0, 1), match='h'>
>>> d.group()
'h'
>>>

三、萬用字元

字元	描述
.	匹配除換行符 \n 之外的任何單字元
*	匹配前一個字元出現0次或者無數次，至少0次貪婪（至多）匹配
+	匹配前一個字元出現一次或者無數次，至少1次貪婪（至多）匹配
\d	匹配數字，預設只匹配一個
\D	匹配非數字，預設只匹配一個
\s	匹配空格，預設只匹配一個
\S	匹配非空格，預設只匹配一個
\w	匹配0-9 a-z A-Z _，預設只匹配一個
\W	匹配非0-9 a-z A-Z _之外的字元，預設只匹配一個
()	標記一個子表示式的開始和結束位置
[]	滿足[]內任意一個匹配即可，最多隻能匹配一個
?	非貪婪匹配模式

萬用字元：.

>>> a = 'hello world'
>>> b = re.search('w.',a)
>>> b
<_sre.SRE_Match object; span=(6, 8), match='wo'>
>>> b.group()
'wo'

萬用字元：*和？

>>> a = 'hello world'
>>> b = re.search('w.*',a)
>>> b
<_sre.SRE_Match object; span=(6, 11), match='world'>
>>> b.group()
'world'
>>> c = re.search('w.*?',a)
>>> c
<_sre.SRE_Match object; span=(6, 7), match='w'>

萬用字元：+和？

>>> a = 'hello world'
>>> b = re.search('w.+',a)
>>> b
<_sre.SRE_Match object; span=(6, 11), match='world'>
>>> c = re.search('w.+?',a)
>>> c
<_sre.SRE_Match object; span=(6, 8), match='wo'>

萬用字元：\d和\D

>>> a = '123abc456'
>>> b = re.search('\d',a)
>>> b
<_sre.SRE_Match object; span=(0, 1), match='1'>
>>> c = re.search('\D',a)
>>> c
<_sre.SRE_Match object; span=(3, 4), match='a'>

>>> a = '123abc456'
>>> d = re.search('\D*',a)  # 這個結果我理解的應該是abc，不知道為什麼沒有匹配到，匹配前一個字元0次或者更多次，貪婪模式
>>> d   
<_sre.SRE_Match object; span=(0, 0), match=''>    
>>> d = re.search('\D',a)
>>> d
<_sre.SRE_Match object; span=(3, 4), match='a'>
>>> d = re.search('\D\D\D',a)
>>> d
<_sre.SRE_Match object; span=(3, 6), match='abc'>
>>> d = re.search('\D+',a)
>>> d
<_sre.SRE_Match object; span=(3, 6), match='abc'>

四、group使用

功能：分組

group()	返回匹配的整個表示式
group(i)	返回匹配的分組表示式

>>> a = 'helloworldmynameismarry'
>>> b = re.search('(.*)world(.*)',a)
>>> b.group()
'helloworldmynameismarry'
>>> b.group(1)
'hello'
>>> b.group(2)
'mynameismarry'

五、findall使用

findall 提取出來的就是列表物件，不需要使用group()

語法：re.findall(‘想匹配的字元表示式’, string)

a = 'http://www.baidu.com'
b = re.findall('\w',a)
print(b)   # ['h', 't', 't', 'p', 'w', 'w', 'w', 'b', 'a', 'i', 'd', 'u', 'c', 'o', 'm']
print(type(b)) # <class 'list'>

六、sub使用

功能：替換

語法：re.search(‘原string中要被替換的字元’, ‘新字元’,string)

a = 'http://www.baidu.com'
b = re.sub('w','c',a)   # 將w替換成c
print(b)   # http://ccc.baidu.com

[Python模組]正則表示式 re模組的使用與例項

很喜歡Python教材中的這句格言: 有些人面臨問題時會想:“我知道, 我將使用正則表示式來解決這個問題.” 這讓他們面臨的問題變成了兩個. ---------Jamie Zawinski 正則表示式的確好用,但是複雜的模式難以閱讀和維護,與其把花在研究用正則表示式處理複雜的問題上,

Python正則表示式:re模組

正則表示式: 使用單個字串來描述、匹配一系列匹配某個句法規則的字串正則表.通常被用來檢索、替換那些符合某個模式(規則)的文字.python自1.5起提供了re模組,它提供了perl風格的正則表示式. re模組簡介 re.match函式功能嘗試從字串的起始位置開始匹配一個模式,如

python記錄_day23 正則表示式 re模組

一、正則表示式使用python的re模組之前應該對正則表示式有一定的瞭解正則表示式是對字串操作的一種邏輯公式。我們一般使用正則表示式對字串進行匹配和過濾。正則的優缺點：優點：靈活，功能性強，邏輯性強. 缺點：上手難，但一旦學會這東西非常好用 # 正則表達的組成：普通字

Python 正則表示式——re模組介紹

Python 正則表示式 re 模組使 Python 語言擁有全部的正則表示式功能，re模組常用方法： re.match函式 re.match從字串的起始位置匹配，如果起始位置匹配不成功，則match()就返回none。，如果匹配成功，則可通過group(num) 或 groups()獲

正則表示式(re模組)

正則表示式 re.match函式嘗試從字串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none >re.match(pattern, string, flags=0) re.search方法掃描整個字串並返回第一個成

正則表示式-re模組的使用

正則表示式的基本使用一、re模組正則表示式是用來匹配處理字串的。 python 中使用正則表示式需要引入re模組。 import re 二、search()和match()的區別 match()函式只檢測字元是不是在string的開始位置匹配；search()

[Python模組]正則表示式 re模組的使用及例項

很喜歡Python教材中的這句格言: 有些人面臨問題時會想:“我知道, 我將使用正則表示式來解決這個問題.” 這讓他們面臨的問題變成了兩個. ---------Jamie Zawinski 正則表示式的確好用,但是複雜的模式難以閱讀和維護,與其把花在研究用正

python之路---24 正則表示式 re模組

一.正則表示式　　1.字元組　　　① [abc] 匹配a或b或c 　　　② [a-z] 匹配a到z之間的所有字⺟　　　　 [0-9]匹配所有阿拉伯數字　　2.元字元　　3.量詞　　4.重要搭配　　① .*?&n

正則表示式 re模組 re模組實用方法

一. 正則表示式　　首先, 我們在網⻚上進行註冊或者登陸的時候經常能看到一些格式上的錯誤提示. 比如:你在註冊百度賬號的時候輸入使用者名稱隨意的輸入系統會提示你. 你的賬號過長或者不允許使用中文等等操作. 那這種操作如果使用我們現有的知識點是可以完成的. 但是完成的效果並不好. 寫起來也

python 正則表示式re模組

#####################總結############## 優點: 靈活, 功能性強, 邏輯性強. 缺點: &nb

python正則表示式(re模組)

# python正則表示式(re模組) ## 什麼是正則表示式正則表示式(Regular Expression)是一種文字模式，包括普通字元（例如，a到z之間的字母）和特殊字元（稱為"元字元"）。正則表示式使用但個字串來描述、匹配一系列匹配某個句法規則的字串。 ## 正則字元簡單介紹 ### 普通字

Python 3.7.1 模組正則表示式 re

正則表示式操作 1. 正則表示式語法 1.1 特殊字元 . ^ $ * + ? *?，+?，?? {m} {m,n} {m,n}

Python中正則表示式re.match的用法

re.match(pattern, string, flags) 第一個引數是正則表示式,如果匹配成功，則返回一個Match，否則返回一個None；第二個引數表示要匹配的字串；第三個引數是標緻位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。需要特別注意的是，這個方法並不是完

day22 正則表示式 re

1. 正則表示式正則表示式是對字串操作的一種邏輯公式. 我們一般使用正則表示式對字串進行匹配和過濾.　　工具: 各大文字編輯器⼀般都有正則匹配功能. 我們也可以去http://tool.chinaz.com/regex/進行線上測試. 　　正則表示式由普通字元和元字元組成. 普通字元包

day23 正則，re模組

一、簡談正則表示式　　元字元 . 除了換行符外任意字元。 \w 數字、字母、下劃線 &nb

Day-22 基礎模組3 正則表示式_re模組

一、正則表示式　　正則表示式是對字串操作的一種邏輯公式. 我們一般使用正則表示式對字串進行匹配和過濾. 使用正則的優缺點: 　　優點: 靈活, 功能性強, 邏輯性強. 　　缺點: 上手難. 一旦上手, 會愛上這個東西　　1.字元組　　　　字元組很簡單用[]括起來. 在[]中出現的內

鬥圖網鬥圖全站爬取（用正則表示式re）

import re import requests import os class doutu_spyder(): first_url=[] first_name=[] headers=

10-格式化檔案儲存-正則表示式re

正則表示式(RegularExpression, re) 是一個電腦科學的概念用於使用單個字串來描述，匹配符合某個規則的字串常常用來檢索，替換某些模式的文字正則的寫法 .(點號):表示任意一個字元，除了\n, 比如查詢所有的一個字元 . \d: 任意一個數字

day 18 - 1 正則與 re 模組

正則表示式官方定義：正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個 “規則字串”，這個 “規則字串” 用來表達對字串的一種過濾邏輯。我們先來看一個正則與 re 模組的例子判斷手機號是否合法 #while 實現 while True:

爬蟲結構化資料非結構化資料正則表示式re

背景頁面解析和資料提取一般來講對我們而言，需要抓取的是某個網站或者某個應用的內容，提取有用的價值。內容一般分為兩部分，非結構化的資料和結構化的資料。非結構化資料：先有資料，再有結構，結構化資料：先有結構、再有資料不同型別的資料，我們需要採用不

正則表示式-re模組的使用

一、re模組

二、search()和match()的區別

三、萬用字元

四、group使用

五、findall使用

六、sub使用

相關推薦