python3爬蟲——正則表示式re詳解（1）

阿新 • • 發佈：2019-01-04

（一）什麼是正則表示式
還早呢過這表示式是對字串操作的一種邏輯公式，就是用實現定義好的一些特定的字元，及這些特定的字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯
ps：正則表示式非python獨有，使用re模組即可實現
（二）案例

re.match

語法格式：re.match(pattern,string,flag=0)

最常規的匹配：

最常規的匹配，表示匹配的結果為最原始的，中規中矩的匹配出結果
程式碼展示：

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s 
\d\d\d\s\d{4}\s\w{10}.*Demo$', content)
print(result)
print(result.group())
print(result.span())

知識點：
（1）.group()表示的是返回正則匹配的結果
（2）.span()表示返回正則匹配的範圍

泛匹配

泛匹配，表示將正則匹配的字元縮短，但得到的是何上方一樣的
結果

程式碼展示：

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result 
)
print(result.group())
print(result.span())

知識點：
（1） .* 可以匹配出除去換行以外的任意字元

匹配目標

匹配目標就是將需要的字元匹配出來

程式碼展示：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld.*Demo$', content)
print(result)
print(result.group(1))
print(result.span())

知識點：
（1）（）

匹配括號內的表示式，也表示一個組
（2）+ 匹配1個或多個的表示式
* 匹配0個或多個的表示式
（3）.group(1)—輸出第一個帶有（）的目標

貪婪匹配

在貪婪匹配中匹配出來的結果有可能不是我們想要的結果

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))

非貪婪匹配

程式碼展示：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))

知識點：？匹配0個或1個由前面的正則表示式定義的片段，為非貪婪方式，匹配儘可能少的字元

匹配模式

當出現換行的時候，.*?*是不適用的，這時
我們需要使用re.s來實現，這樣.*就可以代表換行了

程式碼展示：

import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
print(result.group(1))

轉義

當有些轉移字元出現在字串中，需要使用’\’來消除他的另外一種含義

程式碼展示：

import re

content = 'price is $5.00'
result = re.match('price is \$5\.00', content)
print(result)

ps：以上均為學習崔慶才python3爬蟲的學習筆記

python3爬蟲——正則表示式re詳解（1）

（一）什麼是正則表示式還早呢過這表示式是對字串操作的一種邏輯公式，就是用實現定義好的一些特定的字元，及這些特定的字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯 ps：正則表示式非python獨有，使用re模組即可實現（二

Python爬蟲學習必備知識點：正則表示式模組詳解

一、基礎語法總結 1.1、匹配單個字元 a . d D w W s S [...] [^...] 匹配單個字元（.）規則：匹配除換行之外的任意字元 In [24]: re.findall("f.o","foo is not fao") Out[24]: ['foo',

Python 正則表示式模組詳解

由於最近需要使用爬蟲爬取資料進行測試，所以開始了爬蟲的填坑之旅，那麼首先就是先系統的學習下關於正則相關的知識啦。所以將下面正則方面的知識點做了個整理。語言環境為Python。主要講解下Python的Re模組。下面的語法我就主要列出一部分，剩下的在python官網直接查閱即可：docs.python.org

QT---之正則表示式QRegExp詳解

引言正則表示式（regular expression）就是用一個“字串”來描述一個特徵，然後去驗證另一個“字串”是否符合這個特徵。比如表示式“ab+” 描述的特徵是“一個 'a' 和任意個 'b' ”，那麼 'ab', 'abb', 'abbbbbbbbb

MySQL之聚合查詢、子查詢、合併查詢、正則表示式查詢詳解

一：聚合查詢 1：MySQL之聚合函式基本表orderitems表結構如下： 2：count()函式 2.1：count()函式用來統計記錄的條數 2.2：與group by 關鍵字一起使用 SQL語句如下: 查詢的結果如下： 3：su

正則表示式規則詳解

^表示開始，$表示結束 ?表示0個或1個，*表示0個或多個，+表示1個或多個 |相當於or {}括號內的數字表示幾個，例如a{2}表示兩個a，(ab){1,3}表示1到3個ab，{2,}表示至少兩個 .表示單一字元 []只匹配一個單一字元，例如[0-

C語言正則表示式使用詳解

標準的C和C++都不支援正則表示式，但有正則表示式的函式庫提供這功能. C語言處理正則表示式常用的函式有regcomp()、regexec()、regfree()和regerror()。使用正則表示式步驟： 1)編譯正則表示式 regcomp() 2)匹配正則表示式 re

Java正則表示式API詳解

1. Pattern類 public class PatternExample { /** * public static String quote(String s) * 返回指定字串的字面值模式, 也就是說字串序列中的元字元和轉義序列將不具有特殊含義. * 會使用\

LeetCode Hard 10 正則表示式匹配詳解 Python 動規

def isMatch(self, s, p): """ Solution Method 演算法:動規思路：動規的思路是在遞迴的"暴力"解法下啟發的，暴力解法首先是將正則表示式匹配問題看成是比較兩個字串相互匹配的變種問題，就從頭開始一個字

JavaScript 正則表示式使用詳解

正則表示式使用詳解簡介簡單的說，正則表示式是一種可以用於模式匹配和替換的強有力的工具。其作用如下：測試字串的某個模式。例如，可以對一個輸入字串進行測試，看在該字串是否存在一個電話號碼模式或一個信用卡號碼模式。這稱為資料有效性驗證。替換文字。可以在文件中使用一個正則表示

正則表示式使用詳解

簡單的說，正則表示式是一種可以用於模式匹配和替換的強有力的工具。其作用如下：測試字串的某個模式。例如，可以對一個輸入字串進行測試，看在該字串是否存在一個電話號碼模式或一個信用卡號碼模式。這稱為資料有效性驗證。替換文字。可以在文件中使用一個正則表示式來標識特定文字，然後可以全部將其刪除，或者替換為別的文字。

正則表示式知識詳解之匹配開頭或結尾 (java版示例)

示例功能： 1、匹配字串的開頭 2、匹配字串的結尾 package com.songguoliang.regex; import java.util.regex.Matcher; imp

正則表示式-Regex詳解

1.什麼是正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。給定一個正則表示式和另一個字串，可以通過正則表示式從字串

Java8新特性Stream API與Lambda表示式詳解（1）

1 為什麼需要Stream與Lambda表示式？ 1.1 為什麼需要Stream Stream作為 Java 8 的一大亮點，它與 java.io 包裡的 InputStream 和 OutputStream 是完全不同的概念。它也不同於 StAX 對 XML 解析的 S

Python3.5——裝飾器及應用詳解（上）

1、裝飾器：（1）本質：裝飾器的本質是函式，其基本語法都是用關鍵字def去定義的。（2）功能：裝飾其他函式，即：為其他函式新增附加功能。（3）原則：不能修改被裝飾的函式的原始碼，不能修改被裝飾的函式的呼叫方式。即：裝飾器對待被修飾的函式是完全透明的。（4）簡單應用：

揭開正則表示式的神祕面紗（二）

引言本文將逐步討論一些正則表示式的使用話題。本文為本站基礎篇之後的擴充套件，在閱讀本文之前，建議先閱讀正則表示式參考文件一文。 1. 表示式的遞迴匹配有時候，我們需要用正則表示式來分析一個計算式中的括號配對情況。比如，使用表示式 "/( [^)]* /)" 或者 "/(

Python3.5——裝飾器及應用詳解（下）

1、裝飾器應用——模擬網站登入頁面，訪問需要認證登入頁面 #!/usr/bin/env python # -*- coding:utf-8 -*- # Author:ZhengzhengLiu #模

《精通正則表示式》學習筆記（一）

[abc]是a或b或c [a-z?._!]中只有連字元-是元字元，其他都是普通字元但^在字元組的開頭表示排除，例如[^1-6]匹配除了1到6以外的任何字元注意：|在字元組中只是一個普通的符號

MySQL正則表示式使用——MySQL系列（四）

使用REGEXP關鍵字 1、基本字元匹配 SELECT prod_name From Products Where prod_name REGEXP'.000' LIKE和REGEXP區別 LIKE會匹配這個列，而REGEXP會在列值內進行匹配在MySQL中正則表示式

正則表示式的實現原理（一）

開發十年，就只剩下這套架構體系了！ >>>

python3爬蟲——正則表示式re詳解（1）

相關推薦