python 正則表示式與JSON-正則表示式匹配數字、非數字、字元、非字元、貪婪模式、非貪婪模式、匹配次數指定等

阿新 • • 發佈：2020-08-05

1、正則表示式：目的是為了爬蟲，是爬蟲利器。

正則表示式是用來做字串匹配的，比如檢測是不是電話、是不是email、是不是ip地址之類的

2、JSON：外部資料交流的主流格式。

3、正則表示式的使用

re python 內建的模組，可以進行正則匹配

re.findall(pattern,source)
pattern：正則匹配規則-也叫鄭澤表示式
source：需要查詢的目標源

import re
a = "C0C++7Java8C#Python6JavaScript"
res = re.findall("Java",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py" 

# ['Java', 'Java']

4、正則表示式的應用

查數字

用概括字符集：\d

import re
a = "C0C++7Java8C#Python6JavaScript"
res = re.findall("\d",a)
print res
# Project/python_ToolCodes/test10.py"
# ['0', '7', '8', '6']

用另外一種匹配模式-字符集：[0-9]

import re
a = "C0C++7Java8C#Python6JavaScript"
res = re.findall("[0-9]",a)
print res
# Project/python_ToolCodes/test10.py" 

# ['0', '7', '8', '6']

其中"Java"叫普通字元，"/d" 源字元

查非數字

用概括字符集：\D

import re
a = "C0C++7Java8C#Python6JavaScript"
res = re.findall("\D",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['C', 'C', '+', '+', 'J', 'a', 'v', 'a', 'C', '#', 'P', 'y', 't', 'h', 'o', 'n', 'J', 'a', 'v', 'a', 'S', 'c', 'r', 'i', 'p', 't']

用另外一種匹配模式-字符集：[^0-9]

import re
a = "C0C++7Java8C#Python6JavaScript"
res = re.findall("[^0-9]",a)
print res
# Project/python_ToolCodes/test10.py"
# ['C', 'C', '+', '+', 'J', 'a', 'v', 'a', 'C', '#', 'P', 'y', 't', 'h', 'o', 'n', 'J', 'a', 'v', 'a', 'S', 'c', 'r', 'i', 'p', 't']

正則表示式的羅列：https://baike.baidu.com/item/正則表示式/1700215?fr=aladdin，挨個練習是沒有必要的，用到去查即可

4、匹配模式

源字元+普通字元混合模式

[]中的或操作
#coding=utf-8
import re
a = "abc,acc,adc,aec,afc,ahc"
#匹配acc和afc
res = re.findall("a[cf]c",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['acc', 'afc']

取反操作：^
#coding=utf-8
import re
a = "abc,acc,adc,aec,afc,ahc"
#取出非（acc和afc）的字元
res = re.findall("a[^cf]c",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['abc', 'adc', 'aec', 'ahc']

取範圍操作：-
#coding=utf-8
import re
a = "abc,acc,adc,aec,afc,ahc"
#取出acc,adc,aec,afc(中間字元是c到f範圍的)
res = re.findall("a[c-f]c",a)
print res

#[Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py" #['acc', 'adc', 'aec', 'afc']

匹配數字和字母:

概括字符集匹配：\w
import re
a = "abc&cba"
res = re.findall("\w",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['a', 'b', 'c', 'c', 'b', 'a']

使用字符集匹配：[A-Za-Z0-9]
import re
a = "abc123&cba321"
res = re.findall("[A-Za-z0-9]",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['a', 'b', 'c', '1', '2', '3', 'c', 'b', 'a', '3', '2', '1']

顯然，是\w是不匹配非字母和數字的，比如“&”符號

匹配非單詞非數字字元

概括字符集：\W
import re
a = "abc123&cba321"
res = re.findall("\W",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['&']

使用字符集匹配：^A-Za-z0-9

import re
a = "abc123&cba321"
res = re.findall("[^A-Za-z0-9]",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['&']

空格、製表符、換行符號之類的匹配:\s

import re
a = "python 111\tjava&67p\nh\rp"
res = re.findall("\s",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# [' ', '\t', '\n', '\r']

匹配量詞:匹配出python Java php

必須三個一組：

[a-z]{3}

import re
a = "python 1111java678php"
res = re.findall("[a-z]{3}",a)
print res
[Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
['pyt', 'hon', 'jav', 'php']


可以3-6個一組：因為最長python 為6 最短PHP為3：

[a-z]{3,6}

import re
a = "python 1111java678php"
res = re.findall("[a-z]{3,6}",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['python', 'java', 'php']

疑問：為什麼3個能匹配 匹配到pyt的時候為什麼不終止？
因為正則表示式的數量詞分為貪婪和非貪婪模式，預設情況下，python 認為是貪婪模式的。

非貪婪模式怎麼使用:加個問號

[a-z]{3,6}?

import re
a = "python 1111java678php"
res = re.findall("[a-z]{3,6}?",a)
print res
# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['pyt', 'hon', 'jav', 'php']

* ，對*前面的字元'n',匹配0次或者無限次

import re
a = "pytho0python1pythonn2"
res = re.findall("python*",a)
print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['pytho', 'python', 'pythonn']

比如pytho 沒有n 則是匹配0次，可匹配出來pytho；比如python 1個n 則是匹配1次，可匹配出來python；pythonn2個n 則是匹配2次，可匹配出來pythonn

+,對+前面的字元'n' 匹配1次或者無限次

import re
a = "pytho0python1pythonn2"
res = re.findall("python+",a)
print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['python', 'pythonn']

?,?前面的字元'n' 匹配0次或者1次
```
import re
a = "pytho0python1pythonn2"
res = re.findall("python?",a)
print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['pytho', 'python', 'python']
```
比如pytho 沒有n 則是匹配0次，可匹配出來pytho；比如python 1個n 則是匹配1次，可匹配出來python；pythonn2個n 則是匹配1次，可匹配出來python，因為多出來的n，直接被截斷了，不符合匹配模式，所以匹配不出來pythonn 而是匹配出來的是python。也可以理解成?開啟了非貪婪模式
如果要開啟非貪婪模式，但是又不想用*，+ 去匹配無限次，而是指定匹配次數的範圍，那麼可以這樣
```
python{1,2}
```
這表示，最多匹配2次，最少匹配1次

import re
a = "pytho0python1pythonn2"
res = re.findall("python{1,2}",a)
print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"
# ['python', 'pythonn']

python 正則表示式與JSON-正則表示式匹配數字、非數字、字元、非字元、貪婪模式、非貪婪模式、匹配次數指定等

1、正則表示式：目的是為了爬蟲，是爬蟲利器。正則表示式是用來做字串匹配的，比如檢測是不是電話、是不是email、是不是ip地址之類的

python 正則表示式與JSON-JSON

1、json 是一種輕量級的跨語言資料交換格式。輕量的意思是比起xml來說，更加輕量。比xml傳輸的資料更易讀，更易於極細，傳輸的效率要高。

【Jmeter學習】JMeter關聯：JMeter正則表示式提取器與JSON提取器

JMeter使用正則表示式和JSON提取器實現關聯前言 1 關聯的釋義與示例 2 常用正則表示式詳解

js 正則表示式與 python正則表示式

修飾符 1.js i g m i 忽視大小寫g 執行全域性匹配（查詢所有匹配，而非找到第一個匹配後停止）m 執行多行匹配gi 全域性匹配+忽略大小寫

Python正則表示式匹配字串中的數字

1.使用“\\d+”匹配全數字程式碼： import re zen = \"Arizona 479,501,870. Carlifornia 209,213,650.\"

Python基礎最難知識點：正則表示式（使用步驟）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

JAVA筆記整理-正則表示式與列舉

正則表示式 1、正則表示式定義正則表示式（Regular Expression）由字母和符號組成的具有特定意義的公式，用於匹配或檢索符合條件的字串。

Python爬蟲必學知識點：正則表示式講解

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

python正則提取字串_正則表示式範圍匹配

技術標籤：python正則提取字串正則匹配字串無匹配不到正則匹配限制數字範圍正則提取特定後的數字正則表示式 .*?正則表示式任意字元除了

【Python】使用Python驗證常見的50個正則表示式（轉自https://mp.weixin.qq.com/s/G2uqrg5eTDU0txQN8WPnyA）

1.郵箱包含大小寫字母，下劃線，阿拉伯數字，點號，中劃線表示式： [a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(?:\\.[a-zA-Z0-9_-]+)

【python實訓】HTML解析---正則、bs庫與xpath

技術標籤：python正則表示式xpath HTML解析—正則、BeautifulSoup庫與XPath方法我們可以使用requests模擬請求，拿到網頁的原始碼html格式的字串，但需要進行解析，找到指定內容，可以使用python中有自帶的find方

JavaSE基礎——（14）正則表示式與常用工具類

技術標籤：JAVA正則表示式MathSystemDateCalendar 目錄一、正則表示式 1.1正則表示式的概述

Python驗證的50個常見正則表示式

什麼是正則表示式？正則表示式（Regular Expression）通常被用來檢索、替換那些符合某個模式(規則)的文字。

python校驗字串是否符合正則表示式

正則表示式正則表示式(regular expression)描述了一種字串匹配的模式（pattern），可以用來檢查一個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。

nginx02（正則表示式與location）

Nginx（二） 1、正則表示式與location 正則表示式與location：正則表示式（一） ^也叫脫字元，通常也有非的意思

python網路爬蟲精解之正則表示式的使用說明

目錄一、常見的匹配規則二、常見的匹配方法1、match（）2、search（）3、findall（）4、sub（）5、compile（）一、常見的匹配規則

DAY 206 Python驗證常見的50個正則表示式

什麼是正則表示式？(https://cloud.tencent.com/developer/article/1769462) 正則表示式（Regular Expression）通常被用來檢索、替換那些符合某個模式(規則)的文字。

盤點Python正則表示式中的貪婪模式和非貪婪模式

大家好，我是我是皮皮。一、前言前幾天在Python最強王者交流群有個叫【傑】的粉絲問了一個關於Python正則表示式的問題，其中涉及到Python正則表示式中的貪婪模式和非貪婪模式，討論十分火熱，這裡拿出來給大家分享

一個匹配8-16位數字和字母密碼的正則表示式

一個使用者註冊功能的密碼有如下要求：由數字和字母組成，並且要同時含有數字和字母，且長度要在8-16位之間。

package com.smil.gws.wbd.labor;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import com.smil.gws.common.utils.GwsReportUtils;import com.smil.gws.report.vo.WcmWarrantyClaimExp

python 正則表示式與JSON-正則表示式匹配數字、非數字、字元、非字元、貪婪模式、非貪婪模式、匹配次數指定等

相關推薦