正則表示式-2(匹配)

阿新 • • 發佈：2019-02-06

-1-----------------------------------------------------------------------------------------------------------------
  1.用m//進行匹配：
    m//(pattern match operator,模式匹配操作符)
      還可以選擇其界定符號，m(test),m<test>,m{test},m[test],m,test,m!test!.
      是不是看到這麼的界定符有點暈了吧，其實我們選擇一個常用的就可以了或你喜歡的界定符號。


 2.模式修飾符：
    perl有好幾個模式修飾符(modifier),有時候也叫標誌(flag)，它們是一種追加在模式表達末尾定界符後面的的字母，用來
    修改預設的匹配行為。

   2.1.用/i進行大小寫無關的匹配
   print "Would you like to play a game? ";
   chomp($_=<STDIN>);
   if(m/yes/i)  # 
進行大小寫無關的匹配
   {
      print "In that case, I recomment that you go bowling.\n";
   }

   2.2.用/s匹配任意字元
      預設情況下，點號(.)無法匹配行行，這對於大多數單行匹配情況下是合適的。但如果字串出現換行符，而你希望點能
      匹配這些換行符，那麼/s修飾符就可以完成這個換行符的匹配。

      $_='I saw  Barney\ndown at the boling alley\nwith Fred\nlast night.\n';
      if(/Barney.*Fred/)
      { 

         print "That string mentions Fred after Barney\n";
      }

  2.3.用/x加入空白符
     第三個修飾符允許我們在模式裡隨意加空白符，從而使他更容易閱讀，理解：
     /-?[0-9]+\.?[0-9]*/  #擠在一起，難閱讀
     / -? [0-9]+ \.? [0-9]*/x #加入空白好多了

     /
        -?       #一個可有可無的符號
        [0-9]+   #小數點前必須出現一個或多個數字
        \.?      #一個可有可無的小數點
        [0-9]*   # 
小數點後面的數字，有沒有都沒有關係
     /x

  2.4.組合選項修飾符：
    if(/barney.*fred/is)  #同時使用/i and /s
    {
        print "Taht string metnions fred after Barney\n";
    }

    if(m{
         barney  # barney
         .*      #任意字元
         fred    #fred

        }six) {#同時使用 /s , /i /x
           print "That string mentions Fred after Barney\n";
        }

-1-----------------------------------------------------------------------------------------------------------------

-2-----------------------------------------------------------------------------------------------------------------
 字元解釋符方式：
    三種字元解釋符：
       ACSII    修飾符/a  它會告訴perl僅在ASCII範圍內闡釋\w,\d和\s等字符集。
       Unicode  修飾符/u  它會告訴perl僅對上面這寫簡寫採用寬泛的匹配方式，只要是Unicode範圍內定義的單詞,數字,空白,都能匹配。
       locale   修飾符/l  它會告訴perl按照本地化設定闡釋簡寫的意義,所以任何一個本地設定的字元編碼認為是單詞的字元 ，都會被\w簡寫匹配。

       /\w+/a   #僅僅是A-Z，a-z,0-9,_這些字元 
       /\w+/u   #任何Unicode當中定義單詞的字元 
       /\w+/l   #類同於ASCII的版本，但單詞的定義取決於本地化設定，所以如果設定為Latin-9的話

       chr() 函式，轉換字元

-2-----------------------------------------------------------------------------------------------------------------



-3-----------------------------------------------------------------------------------------------------------------
錨位：
  \A 錨位匹配字串的絕對開頭 ，如果開頭位置上不匹配，是會順移下一個位置繼續嘗試。

  m{\Ahttps?://}i

  \z 錨位匹配字串絕對末尾。

  m{\.png\z}i


  \Z 行末錨位，它允許後面出現換行符

 脫字元：

   ^：表示字串開頭錨位

   $: 表示字串結尾

  /fred$/

  /^barney/


 單詞錨位：
   錨位不侷限於字串首尾，比如\b是單單詞邊界錨位，它匹配任何單詞的首尾。
   /\bfred\b/ #可匹配fred, 無法匹配frederic,alfred

   \b 錨位匹配的是一組連續的\w字元的開頭或結尾。

   that 's  a "word" bondary

-3-----------------------------------------------------------------------------------------------------------------



-4-----------------------------------------------------------------------------------------------------------------
繫結操作符=~
   預設情況下匹配的操作物件是$_,繫結操作符(bingding operator, =~)會告訴perl，拿右邊的模式來匹配左邊的字串，而不是
   匹配$_.


   my $some_ohter = "I dream of betty rubble.";
   if(#some_ohter =~ /\brubble/)
   {
      print "Aye,there's the rub.\n";
   }

 模式中的內插
   正則青表示式內部可以進行雙引號形式的插入。

   my $what = 'larry';
   while(<>)
   {
      if(/\A($what)/)
      {
         print "We waw $what in beging of $_\n";
      }
   }

   不管$what的內容是什麼，當我們進行模式匹配時，該模式會由$what的值決定。在這裡，它等效於/\A(larry)/,也就在每行開
   頭尋找larry.


-4-----------------------------------------------------------------------------------------------------------------


-5-----------------------------------------------------------------------------------------------------------------
捕獲變數
  圓括號出現的地方一般都會觸發正則表示式引擎捕獲匹配到的字串。捕獲組會把匹配圓括號中模式的字串儲存到相應的地方。
 既然這些捕獲變數儲存的是字串，那就說明白它是標量。 在perl裡的名稱就是$1,$2這樣的形式儲存它們的結果。

 $_='Hello there, neighbor';
 if(/\s([a-zA-Z]+),/)
 {
     print "$1\n";  #result 捕獲空白符和逗號之間的單詞
 }


 捕獲變數的存續期
   捕獲變數通常能存活到下次成功匹配為止。也就是說，失敗的匹配不會改動上次成功匹配時捕獲的內容，而成功的匹配匹配會將它們的重置。


 不捕獲模式
    (?:) 匹配但捕獲結果

    if(/(?:bronto)?saurus (steak|burger)/)
    {
        print "Fred wants a $1\n";
    }


命名捕獲
  (?<LABLE>PATTERN),其中LABLE可以自行命名。

  訪問變數： $+{LABLE}

  my $names = 'Fed or Barney';
  if($names = ~m/?<name1>\w+ (?:and|or) (?<name2>\w+)/)
  {
     say "I saw $+{name1} adn $+{name2}\n";
  }


 自動捕獲變數
   $` 匹配區段之前的的內容

   $' 匹配到區段之後的內容

   $&  匹配整個區段的內容


-5-----------------------------------------------------------------------------------------------------------------




-6-----------------------------------------------------------------------------------------------------------------
優先順序

    1.最高階是圓括號("()"),用於分組和捕獲。圓括號裡的東西總是比其他東西更有緊密性。

    2.第二級量詞,也就是重複操作符：*, +,?,以及花括號表示的量詞，比如{5,15},{3,} and {5}

    3.第三級是錨位和序列.\A,\Z,\z, ^, \b and \B

    4.第四級是擇一豎線(|),由於它位於優先順序表底部，所以從效果上來看，它會把各種模式拆分成數個元件

   圓括號(分組或捕獲) (...),(?:...),(?<LABLE>...)
   量詞     a*,a+,a?,a{n,m}
   錨位     abc,^,$, \A,\b,\z,\Z
   擇一     a|b|c
   原子     a,[abc],\d,\1,\g{2}
-6-----------------------------------------------------------------------------------------------------------------

正則表示式-2(匹配)

-1----------------------------------------------------------------------------------------------------------------- 1.用m//進行匹配：

javascripts使用正則表示式--2字元匹配

參考：https://blog.csdn.net/xuemoyao/article/details/8033138 正則表示式簡介正則表示式是由一些具有特殊含義的字元組成的字串，多用於查詢、替換符合規則的字串。在表單驗證、Url對映等處都會經常用到。一、元字元

正則表示式的匹配規則

正則表示式的語法規則：字元：x 含義：代表的是字元x 例如：匹配規則為 "a"，那麼需要匹配的字串內容就是 ”a” 字元：\\ 含義：代表的是反斜線字元'\' 例如：匹配規則為"\\" ，那麼需要匹配的字串內容就是 ”\” 字元：\t

python進階（2）——re模組：正則表示式2

re.split 根據模式來分割字串 import re text='a, b,,,,c d' print(re.split('[, ]+', text)) #re.split:以空格和字串分割字元 re.findall 返回列表，包含所有與給定模式匹配的子串 import re

正則表示式的匹配符

正則表示式動機： 1. 處理文字稱為計算機主要工作之一 2. 根據文字內容進行固定搜尋是文字處理的常見工作 3. 為了快速方便的處理上述問題，正則表示式技術誕生，逐漸發展為一個單獨技術被眾多語言使用定義：即高階文字匹配模式，提供了搜尋，替代等功能，本質是由一些字元和特殊符號組成的字串。這個字串

【Python3 爬蟲學習筆記】基本庫的使用 9—— 正則表示式 2

1.1 匹配目標如果想從字串中提取出一部分內容，可以用()括號將想提取的子字串括起來。()實際上標記了一個子表示式的開始和結束位置，被標記的每個子表示式會一次對應一個分組，呼叫group()方法傳入分組的索引即可獲取提取的結果。示例如下： import re content =

Nginx正則表示式之匹配操作符詳解

Nginx正則表示式之匹配操作符詳解 nginx可以在配置檔案中對某些內建變數進行判斷，從而實現某些功能。例如：防止rewrite、盜鏈、對靜態資源設定快取以及瀏覽器限制等等。由於nginx配置中有if指令，但是沒有對應else指令，所以判斷要分為匹配和不匹配。

關於python正則表示式中匹配分組的問題

在爬取網頁資訊時，我們不妨會用到Python正則表示式。之前一直沒有太明白關於正則表示式匹配分組的問題，今天終於搞清楚了，所以特意寫一下讓自己印象深刻。 myPage = requests.get(url).content.decode("gbk") 通過requests我們在網頁得到了這樣

正則表示式的匹配

詳情請看：https://my.oschina.net/u/167671/blog/684878 \ 匹配轉義的，a[bcd]e 能匹配出abe,ace,ade []裡面的是或的意思，只能匹配方括號裡面的一個。a[bcd]+e 就能匹

常用的正則表示式（匹配數字）

正則表示式用於字串處理、表單驗證等場合，實用高效。現將一些常用的表示式收集於此，以備不時之需。匹配中文字元的正則表示式： [\u4e00-\u9fa5] 評註：匹配中文還真是個頭疼的事，有了這個表示式就好辦了匹配雙位元組字元(包括漢字在內)：[^\x00-\xff]

Java 正則表示式 SQL匹配

DEMO public static void main(String[] args) { String sql = "insert into table deep_creator.ys_tag_user select `id`,`value`,`l_date`,`

python正則表示式2

5.正則表示式的構造 1)字元組描述符 [....]: 與方括號中任意字元匹配 [abc]可以匹配a或者b或者c 區間形式:順序列出字串的形式 [0-9] 或者[a-z] [0-9a-zA-Z]匹配所有的數字與字母特殊形式:[^.....]表示對^列出的

正則表示式，匹配所有非中文字元

^[\u4E00-\u9FFF]+$ 控制只允許輸入中文字元： var reg = new RegExp('^[\u4E00-\u9FFF]+$'); alert(reg.test(this.userName_up)); if (!reg.test(this.userName_up)

《零基礎入門學習Python》第058講：論一隻爬蟲的自我修養6：正則表示式2

上一節課我們通過一個例子（匹配 ip 地址）讓大家初步瞭解到正則表示式的魔力，也讓大家充分了解到學習正則表示式是一個相對比較困難的事情。所以這一節課我們將繼續學習正則表示式的語法。我們依稀還記得在Python中，正則表示式是以字串的形式來描述的，正則表示式的強大之處在於特殊符號的應用，我

正則表示式字元匹配

字元/ 意義：對於字元，通常表示按字面意義，指出接著的字元為特殊字元，不作解釋。例如：/b/匹配字元’b’,通過在b 前面加一個反斜槓，也就是/b/，則該字元變成特殊字元，表示匹配一個單詞的分界線。或者：對於幾個字元，通常說明是特殊的，指出緊接著的字元不是特殊的，而

【十分鐘學會】正則表示式字元匹配攻略

閱讀建議：看一下正則表示式基礎，有一定的基本概念，效果最佳。正則表示式是匹配模式，要麼匹配字元，要麼匹配位置。請記住這句話。然而關於正則如何匹配字元的學習，大部分人都覺得這塊比較雜亂。畢竟元字元太多了，看起來沒有系統性，不好記。本

正則表示式2（常用）

一、校驗數字的表示式 1 數字：^[0-9]*$ 2 n位的數字：^\d{n}$ 3 至少n位的數字：^\d{n,}$ 4 m-n位的數字：^\d{m,n}$ 5 零和非零開頭的數字：^(0|[1-9][0-9]*)$ 6 非零開頭的最多帶兩位小數的數字：^([1-9][0

python正則表示式中文匹配

一般中文部分的unicode 值是4e00 - 9f5a，但是要注意，這是基本漢字編碼範圍，還有一些擴充套件集，後面介紹下面例子標識我們要查詢一段字串中的漢字：import re s =

PHP正則表示式的匹配規則

咱們要查詢數字，字母，空白很簡單，因為已經有了對應這些字元的元字元，但是如果匹配沒有預定義元字元的字元集合（比如母音字母a、e、i、o、u），方法很簡單，在方括號裡列出它們就行，如[aeiou]匹配任何一個英文母音字母，[.?! ]匹配各種標點符號以及空格等等，[]匹配單個字元，儘管內部含有好多

python正則表示式的匹配優先順序

在python正則表示式中，預設是匹配最多的字元，這是貪婪匹配，比如：字串： abbbab 正則表示式： a.*b 得到的結果是 abbbab 如果希望匹配最少的字元，只需要在 *

正則表示式-2(匹配)

相關推薦