Python_基礎_(正表示式)

阿新 • • 發佈：2018-12-18

一，正則表示式

普通的匹配都為完全匹配

正則表示式為模糊匹配

## 元字元

. ^ $ * + ? {} [] () \

### .:一個點代表匹配一個字元
>>> re.findall("he..o","abchelloabc")
['hello']
>>>

### ^:在字串的開頭進行匹配，
>>> re.findall("^hello","ahello")
[]
>>> re.findall("^hello","helloabc")
[ 
'hello']
>>>

### $:以什麼進行結尾
>>> re.findall("hello$","abchello")
['hello']
>>>

### *：按著挨著的字元進行重複(0~無窮)
>>> re.findall("o*","helloworldoooooaooo")
['', '', '', '', 'o', '', 'o', '', '', '', 'ooooo', '', 'ooo', '']
>>>

### +：按著挨著的字元進行重複(1~無窮) 至少有一個，貪婪匹配 

>>> re.findall("o+","helloworldoooooaooo")
['o', 'o', 'ooooo', 'ooo']
>>>
>>> re.findall("hello+","helloworldoooooaooo")
['hello']
>>>

### ?：按著挨著的字元進行重複(1~0)    ，最多為1個
>>> re.findall("o?","helloworldoooooaooo")
['', '', '', '', 'o', '', 'o', '', '', '' 
, 'o', 'o', 'o', 'o', 'o', '', 'o', 'o', 'o', '']
>>>
>>> re.findall("hello?","helloworldoooooaooo")
['hello']
>>>

{}：可以表示前面三種的情況
    {0,} == *
    {1,} == +
    {0,1} == ?
    
    {6}表示可以重複6次
    {1，6}表示可以重複1~6中任意的次數

### 將貪婪匹配變成惰性匹配,
### 在原本*號的後面加上一個?，將貪婪匹配變成惰性匹配
>>> re.findall("hello*?","abchelloabc")
['hell']
>>>
>>> re.findall("hello+?","abchelloabc")
['hello']
>>>

# 元字符集[]
>>> re.findall("x[yz]","xyssssssxzjxpjjjj")
['xy', 'xz']
>>>
 
>>> re.findall("x[yzp]","xyssssssxzjxpjjjj")
['xy', 'xz', 'xp']
>>>


注：元字符集中的符號大多數為普通符號 如 *  + ?
### 元字符集中有特殊意義的為 - ^ \
### 一個星只匹配一個符號
>>> re.findall("g[e*x]","fefefalgeeexxxx")
['ge']
>>>

### []與-
#[a-z]匹配a~z中的一個元素
>>> re.findall("g[a-z]","feaafgua")
['gu']
>>>

>>> re.findall("g[a-z]*","feaafgua")
['gua']
>>>

### [0-9]匹配0~9
>>> re.findall("g[0-9]*","abcg123")
['g123']
>>>

### []與^與-
### 注：^表示的是非的意思
### 匹配非0~9的字元
>>> re.findall("g[^0-9]","feaafgua")
['gu']
>>>

### 匹配非a~z的字元
>>> re.findall("g[^a-z]*","feaafg4415ua")
['g4415']
>>> re.findall("g[^a-z]*","feaafg44s15ua")
['g44']
>>>

### 元字元轉義字元 \

### \d 匹配任何的十進位制數
>>> re.findall("\d","12+(23+34)")
['1', '2', '2', '3', '3', '4']
>>> re.findall("\d+","12+(23+34)")
['12', '23', '34']
>>>

### \D 匹配任何非數字字元
>>> re.findall("\D","12+(23+34)")
['+', '(', '+', ')']
>>>

### \s 匹配任何空白字元
>>> re.findall("\s","hello world")
[' ']
>>>

### \S 匹配任何非空白字元
>>> re.findall("\S","hello world")
['h', 'e', 'l', 'l', 'o', 'w', 'o', 'r', 'l', 'd']
>>> re.findall("\S+","hello world")
['hello', 'world']
>>>

### \w 匹配任何字母，數字字元    相當於a-z  A-Z  0-9
>>> re.findall("\w","hello world111")
['h', 'e', 'l', 'l', 'o', 'w', 'o', 'r', 'l', 'd', '1', '1', '1']
>>> re.findall("\w+","hello world111")
['hello', 'world111']
>>>

>>> re.findall("\w+","hello world111_+")
['hello', 'world111_']
>>>

### \W 匹配任何非數字，非字母字元
>>> re.findall("\W","abc123?._")
['?', '.']
>>>

### \b 匹配一個特殊字元邊界，比如空格 & # 
>>> re.findall(r"I\b","hello I am LIST")
['I']
>>>
>>> re.findall("I\\b","hello I am LIST")
['I']
>>>

### 元字元之|
|：俗稱管道符
>>> re.findall("ka|b","asdffka|b")
['ka', 'b']
>>> re.findall("ka|b","asdffkab")
['ka', 'b']
>>>

### 元字元之分組()
注：search()    # 匹配字串，只要匹配到一個就不再往下匹配
>>> re.findall("\d+","fadf55adfa85af58")
['55', '85', '58']

>>> re.search("\d+","fdfd58fdfd11df5df")
<_sre.SRE_Match object at 0x028EFA68>    # 得到的是一個物件
>>> re.search("\d+","fdfd58fdfd11df5df").group()    # 利用group得出結果
'58'
>>>

>>> re.search("[a-z]+","123hello123abc").group()
'hello'
>>>

   
### (?P<id>[a-z]+)自定義一個分組，分組名稱為id
>>> re.search("(?P<id>[a-z]+)","123hello123abc").group()
'hello'
>>>

>>> re.search("(?P<id>[a-z]+)\d","123hello123abc").group()
'hello1'
>>>

>>> re.search("(?P<id>[a-z]+)\d+","123hello123abc").group()
'hello123'
>>>

>>> re.search("(?P<id>[a-z]+)\d+","123hello123abc").group("id")
'hello'
>>>

## r

re.findall(r"I\b","hello I am LIST")

上方程式碼中 r 表示的作用：加上r表示對所處理的字元不做任何的轉義，因為Python在進行解釋時，會對轉義字元進行轉義，而re模組也會對轉義字元進行轉義，所以會照成干擾，加上r後，Python不對其進行轉義，直接讓re模組進行解釋

\\b：Python對程式進行解釋時，將其轉義為\b，而後re模組對其進行解釋，re表示式只能認為是 \b

r"\\b"：Python對程式進行解釋時，不進行轉義，而直接給re模組進行處理

# 一種不使用 r 的方法
re.findall("c\\\\l")
python對其進行轉義，轉義成c\\l
# 而後re對其再次進行轉義，轉義成c\l
# 所以將\\\\轉義成\

>>> re.findall("I\\\\l","hello I am LI\lST")
['I\\l']
>>>
# 注:上方的結果為兩個反斜槓，因為返回到python中時又添加了一個，表示\

\. 表示一個普通點
\* 表示一個普通*

## re中常用的方法

#1
findall

#2
search

#3
match("a","abc").group()    # 用法與search，不同於match只取頭

#4
>>> re.split("[ab]","abcd")    # 先按a進行分割，得到''和'bcd'，再將''和'bcd’按b進行分割
['', '', 'cd']

#5
sub替換，具有三個引數
>>> re.sub("\d+","A","hello1998World")    # 將其中的數字替換為A 
'helloAWorld'

>>> re.sub("\d","A","hello1998World")    # 將其中的每個數字替換為A
'helloAAAAWorld'

>>> re.sub("\d","A","hello1998World",2)        # 後加引數2，匹配前兩個數字
'helloAA98World'

#6
>>> re.subn("\d","A","hello1998World")        # 輸出匹配後的內容與匹配的次數
('helloAAAAWorld', 4)

#7
com = re.compile("\d")    
# 將要匹配的規則存到com中
# 可以重複使用com

>>> com = re.compile("\d")
>>> com.findall("dfadfd1fwe33adf")
['1', '3', '3']

#8
>>> re.finditer("\d+","efwerfqw1212rtfgwe4454")
<callable-iterator object at 0x03008170>
>>>
# 與findall區別是返回一個迭代器物件
# 好處：當處理大量資料是，不需要將所有的資料全部存放到記憶體中，而是存放到迭代器中
>>> ret = re.finditer("\d+","efwerfqw1212rtfgwe4454")
>>> next(ret).group()    # 用next讀取
'1212'
>>> next(ret).group()
'4454'
>>>

# 注注：當使用分組時，re預設會將括號中分組的內容優先拿出，如下所示
>>> re.findall("www\.(baidu|sina)\.com","www.baidu.com")
['baidu']

# 去優先順序：加上?:
>>> re.findall("www\.(?:baidu|sina)\.com","www.baidu.com")
['www.baidu.com']

# 補充
>>> re.findall("(abc)+","abcabcabc")    # 括號有優先順序，只顯示一個
['abc']
>>> re.findall("(?:abc)+","abcabcabc")    # 用?:取消優先順序
['abcabcabc']

Python_基礎_(正表示式)

一，正則表示式普通的匹配都為完全匹配正則表示式為模糊匹配 ## 元字元 . ^ $ * + ? {} [] () \ ### .:一個點代表匹配一個字元 >>> re.findall("h

Python_基礎_(列表，元組，字典)

存儲就是追加每次列表 100% sig style 叠代一，列表　　################## 列表中的基本操作 ################## 　　1.列表的基本形式 Li = [1,2,3,”henry”,”hello”,[“hhhh”,

Python_基礎_(函式，Format格式化)

一，函式　　1.函式的基本形式 def test() "The function definitions" x = x + 1 return x # def：定義函式的關鍵字 # test：函式名 # ()：內可定義引數 #"The function definit

Python_基礎_(模組，time，random，os，sys，json，shelve，xml，序列化反序列化)

一，Import的基本用法 import 1.執行對應的檔案 2.引入變數名 3.當一個檔案被import，索貝import中的程式碼會被執行一遍，例如當 import cal ##cla中有inport("xxx")，則會輸出 ## Import引用方法

Python_基礎_(llogging，)

get 創建 deb mat nbsp ati 完整對象 () 一，logging模塊 import logging logging.debug("")logging.info("")logginf.warning("")logging.error("")logging

Python_基礎_(面向物件進階)

一，isinstance(obj,cls)　　issubclass(sub,super) isinstance(obj,cls)　　# 判斷物件obj是否是cls的一個例項 class Test: pass t = Test() print(isinstance(t,Test))

Python_基礎個人理解_閉包

就會返回值技術程序執行控制可見情況 alt 閉包　　　　　　　　　　　　　　　　　　　　　　　———— 個人理解簡述閉包在某種含義上其本身其實也是一個函數。定義的格式簡單來說為在一個函數內部再創建一個函數，也就是一個外函數包裹了一個內函數，在內函

JavaSE_day9_常用API_Object類_String類_StringBuffer類_正則表示式_Date類_DateFormat類_Calendar類_基本資料型別包裝類

1.Object類是Java語言中的根類，即所有類的父類。它中描述的所有方法子類都可以使用。所有類在建立物件的時候，最終找的父類就是Object 方法： equals方法，用於比較兩個物件是否相同，它其實就是使用兩個物件的記憶體地址在比較。Object類中的equals方法內部使用的就

python基礎：正則表示式

正則表示式是一種特殊的字串模式，用於匹配一組字串。一：基礎釋義 \w 匹配大小寫字母或數字或下劃線或漢字 \w+ 後面的+號的作用在前一個字元上,表示一個或多個\w,最少一個 . 匹配除換行符以外的任意字元 \s 匹配任意的空白符 \d 匹

Shell基礎 -- 基本正則表示式

　　正則表示式（Regular Expression，通常簡稱為 regex 或 RE）是一種表達方式，可以用它來查詢匹配特定準則的文字。在許多程式語言中都有用到正則表示式，常用它來實現一些複雜的匹配。這裡簡單介紹一下 shell 中常用到的一些正則表示式。一、什麼是正則表示式　　正則表示式是對字串進

python網路基礎之正則表示式

下面是我對正則表示式的一些簡單介紹，它多用於爬蟲，用來定製規則 # 正則表示式匯入模組 import re # match只匹配字串的頭 # re.match(正則表示式，需要處理的字串) re.match(r"hello", "hello world") # 大小寫的匹配 re.m

[C/C++]_[初級]_[正則表示式的反向引用]

場景 1.正則表示式查詢特定規則的字串十分高效率, 有一些規則的字串, 如果不用正則, 單是列舉+邏輯記錄匹配的程式碼量就非常大. 2.比如查詢一個小寫字串裡連續相同的字母, 之後把它替換為 Xn(大寫字母和重複字母個數)的方式進行加密. 正好正則表示式有專門的反向引用來解決查詢

[基礎 18_001] 正則表示式基礎

文字字元字元匹配內容字母字元本身 \0 NULL 字元（\u0000) \t Tab 製表符（\u0009

Java程式設計基礎15——正則表示式&常用工具類

1_正則表示式的概述和簡單使用 A:正則表示式是指一個用來描述或者匹配一系列符合某個語法規則的字串的單個字串。其實就是一種規則。有自己特殊的應用。作用:比如註冊郵箱,郵箱有使用者名稱和密碼,一般會對其限制長度,這個限制長度的事情就是正則表示式做的 B

Python基礎—15-正則表示式

正則表示式應用場景特定規律字串的查詢替換切割等郵箱格式、URL、IP等的校驗爬蟲專案中，特定內容的提取使用原則只要是能夠使用字串函式解決的問題，就不要使用正則正則的效率較低，還會降低程式碼的可讀性世界上最難理解的三樣東西：醫生的處方、道士的神符、碼農的正則提醒：正則是用來寫的，不是用來

【PHP基礎】正則表示式

<?php //功能：將文字中的連結地址轉成HTML //輸入：字串 //輸出：字串 function url2html($text) { //匹配一個URL，直到出現空白為止 preg_match_all("/http:\/\/?[^\s]+/i", $text, $links

Python爬蟲(十)_正則表示式

本篇將介紹python正則表示式，更多內容請參考：【python正則表示式】什麼是正則表示式正則表示式，又稱規則表示式，通常被用來檢索、替換那些符合某個模式（規則）的文字。正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“

筆記_正則表示式_1

正則表示式動機： 1.文字處理已經成為計算機常見的工作之一 2.對文字內容的搜尋，定位，提取 3.為了方便的解決上述問題，產生了正則表示式技術定義：即文字的高階匹配模式，提供搜尋，替換等功能。其本質是一系列由特殊符號組成的字串，這個字串就是正則表示式(簡

python 基礎知正則表示式

# 正則表示式 ### 應用場景 - 特定規律字串的查詢，切割、替換等 - 特定格式(郵箱、手機號、IP、URL等)的校驗 - 爬蟲專案中，提取特定內容 ### 使用原則 - 只要使用字串函式能夠解決的問題就不要使用正則 - 正則的效率比較低，同時會降低程式碼的可讀性 - 世界上最難理解的三樣東

15-python基礎知識-正則表示式

正則表示式應用場景特定規律字串的查詢，切割、替換等特定格式(郵箱、手機號、IP、URL等)的校驗爬蟲專案中，提取特定內容使用原則只要使用字串函式能夠解決的問題就不要使用正則正則的效率比較低，同時會降低程式碼的可讀性

Python_基礎_(正表示式)

相關推薦