16、正則表達式

阿新 • • 發佈：2018-01-02

影響專業想要 20億小型取消最好法語完全匹配

正則表達式

目標

掌握正則表達式的規則

案例

一個小爬蟲

簡介

正則表達式（或re）是一種小型的、高度專業化的編程語言，（在python中）它內嵌在python中，並通過re模塊實現
- 可以為想要匹配的相應字符串集指定規則
- 該字符集可能包含英文語句、e-mail地址、命令或任何你想搞定的東西
- 可以問諸如“這個字符串匹配該模式嗎”
- “在這個字符串中是否有部分匹配該模式呢？”
- 你也可以使用re以各種試來修改或分割字符串
正則表達式模式被編譯成一系列的字節碼，然後由C編寫的匹配引擎執行
正則表達式語言相對小型和受限（功能有限）
- 並非所有字符串處理都能用正則表達式完成

字符匹配

普通字符
- 大多數字母和數字一般都會和自身匹配
- 如正則表達式test會和字符串"test"完全匹配
元字符
```
.   ^   $   *   +   ?   {}  []  \   |   ()
```
- []
  - 常用來指定一個字符集：[abc] [a-z]
  - 元字符在字符集中不起作用：[akm$]
  - 補集匹配不在區間範圍內的字符：[^5]
```
import re

regExp = r't[0-9]p'
print re.findall(regExp, 't1p t2p')
```
- ^
  - 匹配行首。除非設置MULTILINE標誌，它只是匹配字符串的開始。在MULTILINE模式裏，它也可以匹配字符串中的每個換行。
- $
  - 匹配行尾，行尾被定義為要麽是字符串尾，要麽是一個換行字符後面的任何位置。
- \
  - 反斜杠後面可以加不同的字符以表示不同特殊意義
  - 也可以用於取消所有的元字符：\[或\\
```
\d  匹配任何十進制數，它相當於[0-9]
\D  匹配任何非數字字符，它相當於[^0-9]
\s  匹配任何空白字符，它相當於[\t\n\r\f\v]
\S  匹配任何非空白字符，它相當於[^\t\n\r\f\v]
\w  匹配任何字母數字字符，它相當於[a-zA-Z0-9]
\W  匹配任何非字母數字字符，它相當於[^a-zA-Z0-9]
```
- 重復
  - 正則表達式第一功能是能夠匹配不定長的字符集，另一個功能就是可以指定正則表達式的一部分的重復次數。
- *
  - 指定前一個字符可能被匹配零次或更多次，而不是只有一次。匹配引擎會試著重復盡可能多的次數（不超過整數界定範圍，20億）
- +
  - 表示匹配一次或更多次
  - 註意和+之間的不同：匹配零或更多次，所以可以根本不出現，而+則要求至少出現一次
- ?
  - 匹配一次或零次，你可以認為它用於標識某事物是可選的
- {m,n}
  - 其中m和n是十進制整數。該限定符的意思是至少有m個重復，至多到n個重復
  - 忽略m會認為下邊界是0，而忽略n的結果將是上邊界為無窮大（實現上是20億）
  - {0,}等同於*，{1,}等同於+，而{0,1}則與?相同。如果可以的話，最好使用*，+或?

使用正則表達式

re模塊提供了一個正則表達式引擎的接口，可以讓你將REstring編譯成對象並用它們來進行匹配

編譯正則表達式

>>> import re
>>> p = re.compile('ab*')
>>> print p
<_sre.SRE_Pattern object at 0x00000000004D1CA8>

re.compile()也可以接受可選擇的標誌參數，常用來實現不同的特殊功能和語法變更
```
p = re.compile('ab*', re.IGNORECASE)
```

反斜杠的麻煩

字符串前加"r"反斜杠就不會被任何特殊方式處理

字符	階段
\section	要匹配的字符串
\section	為re.compile取消反斜杠的特殊意義
"\\section"	為"\section"的字符串實值（string literals）取消反斜杠的特殊意義

執行匹配

‘RegexObject‘實例有一些方法和屬性，完整的列表可查閱Python Library Reference

方法/屬性	作用
match()	決定RE是否在字符串剛開始的位置匹配
search()	掃描字符串，找到這個RE匹配的位置
findall()	找到RE匹配的所有子串，並把它們作為一個列表返回
finditer()	找到RE匹配的所有子串，並把它們作為一個叠代器返回

    如果沒有匹配到的話，match()和search()將返回None。
    如果成功的話，就會返回一個'MatchObject'實例。

MatchObject實例方法

方法/屬性	作用
group()	返回被RE匹配的字符串
start()	返回匹配開始的位置
end()	返回匹配結束的位置
span()	返回一個元組包含匹配（開始，結束）的位置

實際程序中，最常見的作法是將‘MatchObject‘保存在一個變量裏，然後檢查它是否為None

p = re.compile('ab*', re.I)
m = p.match('aaaabcccccabcc')

if m:
    print 'Match found : ', m.group()
else:
    print 'No match'

模塊級函數

re模塊也提供了頂級函數調用如match()、search()、sub()、subn()、split()、findall()等
查看模塊的所有屬性和方法: dir(re)

編譯標誌-flags

標誌	含義
DOTALL, S	使.匹配包括換行在內的所有字符
IGNORECASE, I	使匹配對大小寫不敏感
LOCALE, L	做本地化識別（local-aware）匹配.法語等
MULTILINE, M	多行匹配，影響^和$
VERBOSE, X	能夠使用REs的verbose狀態，使之被組織得更清晰易懂

charref = re.compile(r"""
(
[0-9]+[^0-9]    #Decimal form
| 0[0-7]+[^0-7] #Octal form
| x[0-9a-fA-F]+[^0-9a-fA-F] #Hexadecimal form
)
""", re.VERBOSE)

分組()

email = r"\w+@\w+(\.com|\.cn)"

一個小爬蟲

下載貼吧或空間中所有圖片

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.*?\.jpg)" width'
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x++

getImg(getHtml(url))

16、正則表達式

影響專業想要 20億小型取消最好法語完全匹配正則表達式目標掌握正則表達式的規則案例一個小爬蟲簡介正則表達式（或re）是一種小型的、高度專業化的編程語言，（在python中）它內嵌在python中，並通過re模塊實現可以為想要匹配的相

25、正則表達式

換行 all group tro search 十進制數 [] 找對象正則表達一正則表達式 1 功能：字符串的模糊匹配查詢 "hello".find("yuan\n egon\nalex") 2 元字符 re.findall（‘查找對象‘,‘內容‘）----匹配出

01、正則表達式相關

obj pytho idt 可能電話 clas line proc log 一、常見的正則表達式匹配模式表1.常用的元字符代碼說明 . 匹配除換行符以外的任意字符 \w 匹配字母或數字或下劃線或漢字 \s 匹配任意的空白符 \d 匹配數字 \

二十一、正則表達式（re模塊）

ons brush 內容 page 返回對象 req 規則 www. 叠代 re模塊正則表達式：　　字符串模糊匹配字符（普通字符、元字符）普通字符：普通字母，字符　　完全匹配 import re print(re.findall(‘chen‘,‘shuaiges

grep、正則表達式

高亮顯示顯示 clas log 一次 bsp nbsp 高亮工具 1.grep ：文本搜索工具 -i：忽略大小寫--color：匹配到的內容高亮顯示-v：顯示沒有被模式匹配到的行-o：只顯示被模式匹配到的字符串 2.正則表達式： .：點代表匹配任意單個字符*：匹

Python學習記錄——Ubuntu（四）計劃任務、grep、正則表達式

family count style 小時 ash 所有當前出現 spa 一.crontab用於計劃任務： 1.參數（1）-u user：用來設定某個用戶的crontab服務（2）-e：編輯某個用戶的crontab文件內容。如果不指定用戶，則表示編輯當前用戶的cro

re庫、正則表達式基本使用

tro 表示 color blog mage sea match 正則表達式 strong re庫是python的標準庫，主要用於字符串匹配。Re庫主要功能函數 re.search()函數 re.match()函數正則表達式 1.特殊字符 ^h表示以h開頭，.表

ES01 數據類型、正則表達式、身份證校驗

uil component his 順序 field num core input cor 1 基本數據類型　　參見W3C的教程即可 2 正則表達式　　參考博文：點擊前往 3 身份證校驗　　參考博文：點擊前往 <div class="panel panel-

Java基礎17-隨機數、正則表達式

public top spa 線程並發 bsp cas 思想 protect 每次一、隨機數Random 1.Math.Random 返回帶正號的 double 值，該值大於等於 0.0 且小於 1.0。不包含1.0。[0,1); public

【劍指offer】19、正則表達式匹配 && 【Leetcode】44、Wildcard Matching

cto bstr length 就是 let image substring tco ive 題目一請實現一個函數用來匹配包括‘.‘和‘*‘的正則表達式。模式中的字符‘.‘表示任意一個字符，而‘*‘表示它前面的字符可以出現任意次（包含0次）。在本題中，匹配是指字符串的

二、正則表達式語法之一限定符

mage 字符串 uno bsp itl 普通 back 表達式 chap 　　正則表達式的構成：特殊字符（元字符，例如*、$、^等等）和普通字符（這包括所有大寫和小寫字母、所有數字、所有標點符號和一些其他符號。）普通字符不用多說，下面來看元字符。常用的元字符如下： (

shell- 字符串處理、擴展的腳本技巧、正則表達式

exp 表達式 sub 檢測輸出 .... file 位置 substr 字符串截取的方法　　方法一:使用${}表達式　　　　格式：${var:起始位置:長度} 　　方法二：使用expr substr 　　　　格式：expr substr "$var" 起始位置

indexof函數分析及其計數字符串函數、正則表達式的例子及分析

dex += instr 則表達式例子 count 正則表達式 urn 數量 indexof函數分在一串字符串中統計指定字符串數量的函數。 var mainStr="star,star,study,study,star,hello"; var subStr="star

java String、StringBuilder 、正則表達式

第一個調用正則表達基本數據類型返回 tolower 字符串邊界 byte String類字符串（引用類型）修改字符串是重新創建賦值地址構造方法 public class StringDemo2 { public static void main(St

jmeter獲取響應數據中參數值的常用方式（JSON提取器、正則表達式提取器、XPath提取器、Bean Shell PostProcessor）

選擇正則表達 pos alt 正則表達式格式 processor info 表達 JSON提取器: XPath提取器：返回數據格式是HTML的時候，選擇使用此種方式。正則表達式提取器：圖中Field to check勾選的是Response He

8、正則表達式

特定字符 i++ att 返回刪除行 15位正則表達式： acea 方法正則表達式的概念和作用 * A: 正則表達式的概念和作用 * a: 正則表達式的概述 * 正則表達式也是一個字符串，用來定義匹配規則，在Pattern類中有簡單的規則定義。

Shell 04 字符串處理、正則表達式

示例正則表達變量名 3.4 grep grep -E eof 分割 send 一.字符串的處理 1.字符串截取 1.1 s{}表達式 ${變量名:起始位置:長度} （從0開始） n=number (n="number") echo ${#n} ---

積累命令、用戶、正則表達式

pool 連接 roc 禁止啟用新的 text modify deb 1 如何保存linux歷史命令並顯示命令操作時間 HISTTIMEFORMAT="%F %T"

鳥哥的Linux私房菜-第10/11/12/13章（vim程序編輯器、學習bash、正則表達式與文件格式化處理、學習Shell Scripts）

重定向數據文件 bin 情況下 control 入侵檢測 nts 背景成了第10章 vim程序編輯器可以將vim看做vi的進階版本，vim可以用顏色或底線等方式來顯示出一些特殊的信息。為何要學習vim？因為：　　a. 所有的 Unix Like 系統都會內

16_常用API_第16天（正則表達式、Date、DateFormat、Calendar）

調用方法 pat 簡單 throw test 邊界 sdf 當前所有今日內容介紹1、正則表達式的定義及使用2、Date類的用法3、Calendar類的用法 ==========================================第一階段====

16、正則表達式

正則表達式

目標

案例

簡介

字符匹配

使用正則表達式

反斜杠的麻煩

執行匹配

模塊級函數

編譯標誌-flags

分組()

一個小爬蟲

相關推薦