正則表示式學習整理

阿新 • • 發佈：2019-02-09

正則表示式

什麼叫正則表示式

正則表示式是對字串進行操作的一種邏輯公式，就是用一些特定的字元組合成一個規則字串，稱之為正則匹配模式。

$p = '/apple/';

$str = "apple banna";

if (preg_match($p, $str,$array)) {

echo 'matched';

}

其中字串'/apple/'就是一個正則表示式，他用來匹配源字串中是否存在apple字串。

PHP中使用PCRE庫函式進行正則匹配，比如上例中的preg_match用於執行一個正則匹配，常用來判斷一類字元模式是否存在。

正則表示式的基本語法

PCRE庫函式中，正則匹配模式使用分隔符與元字元組成，分隔符可以是非數字、非反斜線、非空格的任意字元。經常使用的分隔符是正斜線(/)、hash符號(#) 以及取反符號(~)，例如：

/foo bar/

#^[^0-9]$#

~php~

如果模式中包含分隔符，則分隔符需要使用反斜槓（\）進行轉義。

/http:\/\//

如果模式中包含較多的分割字元，建議更換其他的字元作為分隔符，也可以採用preg_quote進行轉義。

$p = 'http://';

$p = '/'.preg_quote($p, '/').'/';

echo $p;

分隔符後面可以使用模式修飾符，模式修飾符包括：i, m, s, x等，例如使用i修飾符可以忽略大小寫匹配：

$str = "Http://www.imooc.com/";

if (preg_match('/http/i', $str)) {

echo '匹配成功';

}

元字元與轉義

正則表示式中具有特殊含義的字元稱之為元字元，常用的元字元有：

\ 一般用於轉義字元

^ 斷言目標的開始位置(或在多行模式下是行首)

$ 斷言目標的結束位置(或在多行模式下是行尾)

. 匹配除換行符外的任何字元(預設)

[ 開始字元類定義

] 結束字元類定義

| 開始一個可選分支

( 子組的開始標記

) 子組的結束標記

? 作為量詞，表示 0 次或 1 次匹配。位於量詞後面用於改變數詞的貪婪特性。 (查閱量詞)

* 量詞，0 次或多次匹配

+ 量詞，1 次或多次匹配

{ 自定義量詞開始標記

} 自定義量詞結束標記

//下面的\s匹配任意的空白符，包括空格，製表符，換行符。[^\s]代表非空白符。[^\s]+表示一次或多次匹配非空白符。

$p = '/^我[^\s]+(蘋果|香蕉)$/';

$str = "我喜歡吃蘋果";

if (preg_match($p, $str)) {

echo '匹配成功';

}

元字元具有兩種使用場景，一種是可以在任何地方都能使用，另一種是隻能在方括號內使用，在方括號內使用的有：

\ 轉義字元

^ 僅在作為第一個字元(方括號內)時，表明字元類取反

- 標記字元範圍

其中^在反括號外面，表示斷言目標的開始位置，但在方括號內部則代表字元類取反，方括號內的減號-可以標記字元範圍，例如0-9表示0到9之間的所有數字。

//下面的\w匹配字母或數字或下劃線。

$p = '/[\w\.\-][email protected][a-z0-9\-]+\.(com|cn)/';

$str = "我的郵箱是[email protected]";

preg_match($p, $str, $match);

echo $match[0];

貪婪模式與懶惰模式

正則表示式中每個元字元匹配一個字元，當使用+之後將會變的貪婪，它將匹配儘可能多的字元，但使用問號?字元時，它將盡可能少的匹配字元，既是懶惰模式。

貪婪模式：在可匹配與可不匹配的時候，優先匹配

//下面的\d表示匹配數字

$p = '/\d+\-\d+/';

$str = "我的電話是010-12345678";

preg_match(,$p $str, $match);

echo $match[0]; //結果為：010-12345678

懶惰模式：在可匹配與可不匹配的時候，優先不匹配

$p = '/\d?\-\d?/';

$str = "我的電話是010-12345678";

preg_match($p, $str, $match);

echo $match[0]; //結果為：0-1

當我們確切的知道所匹配的字元長度的時候，可以使用{}指定匹配字元數

$p = '/\d{3}\-\d{8}/';

$str = "我的電話是010-12345678";

preg_match($p, $str, $match);

echo $match[0]; //結果為：010-12345678

使用貪婪模式匹配字串中的姓名。（提示：\w匹配字母或數字或下劃線，\s匹配任意的空白符，包括空格、製表符、換行符）

$p = '/name:([\w\s]+)/';

$str = "name:steven jobs";

preg_match($p, $str, $match);

echo $match[1]; //結果為：steven jobs

使用正則表示式進行匹配

使用正則表示式的目的是為了實現比字串處理函式更加靈活的處理方式，因此跟字串處理函式一樣，其主要用來判斷子字串是否存在、字串替換、分割字串、獲取模式子串等。

PHP使用PCRE庫函式來進行正則處理，通過設定好模式，然後呼叫相關的處理函式來取得匹配結果。

preg_match用來執行一個匹配，可以簡單的用來判斷模式是否匹配成功，或者取得一個匹配結果，他的返回值是匹配成功的次數0或者1，在匹配到1次以後就會停止搜尋。

$subject = "abcdef";

$pattern = '/def/';

preg_match($pattern, $subject, $matches);

print_r($matches); //結果為：Array ( [0] => def )

上面的程式碼簡單的執行了一個匹配，簡單的判斷def是否能匹配成功，但是正則表示式的強大的地方是進行模式匹配，因此更多的時候，會使用模式：

$subject = "abcdef";

$pattern = '/a(.*?)d/';

preg_match($pattern, $subject, $matches);

print_r($matches); //結果為：Array ( [0] => abcd [1] => bc )

通過正則表示式可以匹配一個模式，得到更多的有用的資料。

例：編寫程式碼使用preg_match匹配字串中的郵箱，並輸出該郵箱。

$subject = "my email is [email protected]";

$pattern = '/[\w\-][email protected]\w+\.\w+/';

preg_match($pattern, $subject, $matches);

echo $matches[0];

查詢所有匹配結果

preg_match只能匹配一次結果，但很多時候我們需要匹配所有的結果，preg_match_all可以迴圈獲取一個列表的匹配結果陣列。

$p = "|<[^>]+>(.*?)</[^>]+>|i";

$str = "<b>example: </b><div align=left>this is a test</div>";

preg_match_all($p, $str, $matches);

print_r($matches);

可以使用preg_match_all匹配一個表格中的資料：

$p = "/<tr><td>(.*?)<\/td>\s*<td>(.*?)<\/td>\s*<\/tr>/i";

$str = "<table> <tr><td>Alex</td><td>25</td></tr> <tr><td>John</td><td>26</td></tr> </table>";

preg_match_all($p, $str, $matches);

print_r($matches);

$matches結果排序為$matches[0]儲存完整模式的所有匹配, $matches[1] 儲存第一個子組的所有匹配，以此類推。

例：使用preg_match_all匹配所有li標籤中的資料。

<?php

$str = "<ul>

</ul>";

//實現正則匹配所有li中的資料

$p = "/<li>(.*)<\/li>/i";//解釋下這個正則：//後面的i表示不區分大小寫，<li>(.*?)<\/li>表示li標籤內的匹配的()內的值有多少，括號內的.表示所有單字元,*表示數量為0個或者多個。也就是li標籤內有字元就顯示出來

preg_match_all($p, $str, $matches);

print_r($matches[1]);

正則表示式的搜尋和替換

正則表示式的搜尋與替換在某些方面具有重要用途，比如調整目標字串的格式，改變目標字串中匹配字串的順序等。

例如我們可以簡單的調整字串的日期格式：

$string = 'April 15, 2014';

$pattern = '/(\w+) (\d+), (\d+)/i';

$replacement = '$3, ${1} $2';

echo preg_replace($pattern, $replacement, $string); //結果為：2014, April 15

其中${1}與$1的寫法是等效的，表示第一個匹配的字串，$2代表第二個匹配的。

通過複雜的模式，我們可以更加精確的替換目標字串的內容。

$$patterns = array ('/(19|20)(\d{2})-(\d{1,2})-(\d{1,2})/',

'/^\s*{(\w+)}\s*=/');

$replace = array ('\3/\4/\1\2', '$\1 =');//\3等效於$3,\4等效於$4，依次類推

echo preg_replace($patterns, $replace, '{startDate} = 1999-5-27'); //結果為：$startDate = 5/27/1999

//詳細解釋下結果：(19|20)表示取19或者20中任意一個數字，(\d{2})表示兩個數字，(\d{1,2})表示1個或2個數字，(\d{1,2})表示1個或2個數字。^\s*{(\w+)\s*=}表示以任意空格開頭的，並且包含在{}中的字元，並且以任意空格結尾的，最後有個=號的。

用正則替換來去掉多餘的空格與字元：

$$str = 'one two';

$str = preg_replace('/\s+/', ' ', $str);

echo $str; // 結果改變為'one two'

例：將目標字串$str中的檔名替換後增加em標籤，例如index.php要替換成<em>index.php</em>。

$str = '主要有以下幾個檔案：index.php, style.css, common.js';

//將目標字串$str中的檔名替換後增加em標

$p = '/\w+\.\w+/i';

$str = preg_replace($p, '<em>$0</em>', $str);

echo $str;

正則匹配常用案例

正則匹配常用在表單驗證上，一些欄位會有一定的格式要求，比如使用者名稱一般都要求必須是字母、數字或下劃線組成，郵箱、電話等也都有自己的規則，因此使用正則表示式可以很好的對這些欄位進行驗證。

我們通過案例來看一下一般的使用者註冊頁，都怎樣對欄位進行驗證。

<?php

$user = array(

'name' => 'marchalex',

'email' => '[email protected]',

'mobile' => '13312345678'

);

//進行一般性驗證

if (empty($user)) {

die('使用者資訊不能為空');

}

if (strlen($user['name']) < 6) {

die('使用者名稱長度最少為6位');

}

//使用者名稱必須為字母、數字與下劃線

if (!preg_match('/^\w+$/i', $user['name'])) {

die('使用者名稱不合法');

}

//驗證郵箱格式是否正確

if (!preg_match('/^[\w\.][email protected]\w+\.\w+$/i', $user['email'])) {

die('郵箱不合法');

}

//手機號必須為11位數字，且為1開頭

if (!preg_match('/^1\d{10}$/i', $user['mobile'])) {

die('手機號不合法');

}

echo '使用者資訊驗證成功';

正則表示式學習整理

正則表示式學習整理

正則表示式學習使用筆記整理

java正則表示式學習筆記

正則表示式學習——網址匹配

正則表示式[] {} ()學習

Python3 正則表示式語法整理

python正則表示式學習筆記

以Grep學正則表示式學習筆記

正則表示式知識整理

字元？正則？bugku（正則表示式學習）

Java正則表示式學習與記錄

python 正則表示式學習

正則表示式學習筆記（一）

正則表示式學習

最全的正則表示式學習使用大全

正則表示式語法整理

在linux下，如何在C語言中使用正則表示式（整理）

js正則表示式學習之

搞定PHP面試 - 正則表示式知識點整理

jmeter 正則表示式學習（一）--使用詳解

正則表示式 學習整理

相關推薦

正則表示式學習整理