nim語言的正則表示式regex入門

阿新 • • 發佈：2018-12-13

nim語言的re模組是包裝了c語言的庫pcre. 提供了很多的proc供呼叫.

主要的函式就是find, findBounds, findAll

1. findBounds查詢某個規則的字串.

例如:

import re

let
  currentline = "[chapter Uno] and {style} [chapter dos]."
  regex = re"\[chapter(\s+)(.*?)\]"

proc testStrings() =
  var matches: seq[string] = @["", ""]
  let (start, e) = currentline.findbounds(regex, matches)
  echo "testStrings"
  echo "start: ", start, " end: ", e, " matches: ", matches.repr

proc testStringIndices() =
    var matches: seq[string]
    matches.newSeq(2)
    let (start, e) = currentline.findbounds(regex, matches)
    echo "testIndices"
    echo "start: ", start, " end: ", e, " matches: ", matches.repr

proc testIndices() =
  var matches: seq[tuple[first, last: int]]
  matches.newSeq(2)
  let (start, e) = currentline.findbounds(regex, matches)
  echo "testIndices"
  echo "start: ", start, " end: ", e, " matches: ", matches.repr



when isMainModule:
  testStrings()
  testIndices()
  testStringIndices()

其中 findBounds 要注意的就是, 這個函式帶了一個matches 的可以過載的引數(這個引數在函式外部定義, 然後在函式內部被覆蓋數值)

尤其是要注意的是, findBounds, 只能一次找到一個符合規則的字串, 如果想找到全部的字串, 要自己寫迴圈來捕捉分組.

捕捉分組要注意的是, matches 最開始一定在定義後, 進行初始化, 如果不進行初始化, matches就不能被過載賦值.

例如

import re

var ms:seq[string]
ms.newSeq(2) #這裡一定要初始化, 或者使用var ms: seq[string] = @["", ""] 這種方式進行賦值初始化
var rs:tuple[first:int, last:int]
var pattern:Regex = re"""href=\"(/(\w+)/(\w+).html)\""""
rs = findBounds(data,  pattern,  ms, 0)
echo  ms

如果不賦值, 例如

import re

var ms:seq[string]
#ms.newSeq(2) #這裡一定要初始化, 或者使用var ms: seq[string] = @["", ""] 這種方式進行賦值初始化
var rs:tuple[first:int, last:int]
var pattern:Regex = re"""href=\"(/(\w+)/(\w+).html)\""""
rs = findBounds(data,  pattern,  ms, 0)
echo  ms

註釋掉之後, echo ms 就是一個空的@[]

另外, seq[string]可以用一個array進行替代,

var ms:array[2,string] #定義一個數組,型別為string, 長度為2, 這個array可以不進行初始化, 使用後可以得到合適的值.

例如:

import re

var ms:array[2,string] #ms這裡不用初始化

var rs:tuple[first:int, last:int]
var pattern:Regex = re"""href=\"(/(\w+)/(\w+).html)\""""
rs = findBounds(data,  pattern,  ms, 0)
echo  ms

2. findBounds 找到全部符合條件的字串

直接用while寫個迴圈.

findBounds返回一個tuple,假設名為 rs, rs.first 是符合regex的第一個字元的位置, rs.last是最後一個字元的位置

echo data[rs.first..rs.last]

可以獲得第一次查詢到的字串, 這個時候, 函式已經結束,並且不再查詢後面符合條件的字串.

要找到後面符合條件的字串, 要自己寫個while函式, 不斷迴圈到資料的結尾.

例如


var ms: array[3, string] #捕獲3個組(group)
var rs:tuple[first:int, last:int]
var pattern:Regex = re"""href=\"(/(\w+)/(\w+).html)\"""" #這裡定義了3個組,順序為(全部), (子串1), (子串2)

var start = 0
rs = findBounds(data,  pattern,  ms, 0)
echo data[rs.first..rs.last]
while rs.first>0:
    echo data[rs.first..rs.last]
    echo ms
    start = rs.last+1
    rs = findBounds(data,  pattern,  ms, start)

這裡要注意的就是, nim語言的re模組沒有python的好用, python的group捕獲是自動的, 動態語言給了我們太多的方便, 這裡再nim語言就沒有這個方便了.

3. findAll

findAll 只能輸出(全部)匹配, 在(fasdf(子串1)fasdkfjl(子串2)ddsa) 這種只能輸出最長的字串(全部), 所以這裡就不要幻想有python的那麼方便了, 用完findAll, 在迴圈輸出的時候, 還要配合使用findBounds, 再進行匹配子串.

var matches:array[i, string] #i是你要匹配的子串組的個數
for line in findAll(data, regex):
    findBounds(line, regex2, matches,start=0)
    echo matches

以上為虛擬碼. 請自己測試.

nim語言的正則表示式regex入門

nim語言的re模組是包裝了c語言的庫pcre. 提供了很多的proc供呼叫. 主要的函式就是find, findBounds, findAll 1. findBounds查詢某個規則的字串. 例如: import re let currentline =

正則表示式 Regex 複習筆記

正則表示式使用目標是操作字串。語法規則： [abc]: a, b, c 中任意一個字元； [^abc]: 除a，b，c 外的任意一個字元； [a-zA-Z]: 從 a 到 z，A 到 Z 中的任意一個字元； [a-d[m-p]]: a-d 與 m-p 的並集； [a-d&&

R語言正則表示式

R語言正則表示式本文主要說明R語言的正則表示式，主要是一些簡單的函式和stringr包常用的方法正則表示式通常被用來檢索、替換那些符合某個模式(規則)的文字。一些R自帶的正則函式 grep，主要引數為匹配規則，待匹配的字串，返回向量中匹配成功的字串的下標 s<

C#正則表示式Regex類的使用

C#中為正則表示式的使用提供了非常強大的功能，這就是Regex類。這個包包含於System.Text.RegularExpressions名稱空間下面，而這個名稱空間所在DLL基本上在所有的專案模板中都不需要單獨去新增引用，可以直接使用。 1、定義一個Regex類的例項

C語言正則表示式詳解

標準的C和C++都不支援正則表示式，但有一些函式庫可以輔助C/C++程式設計師完成這一功能，其中最著名的當數Philip Hazel的Perl-Compatible Regular Expression庫，許多Linux發行版本都帶有這個函式庫。 C語言處理正則表示式常用的函

python re庫（正則表示式）入門

正則表示式（英文名稱：regular expression，regex，RE）是用來簡潔表達一組字串特徵的表示式。最主要應用在字串匹配中。 \d 數字：[0-9] \D 非數字： [^0-9] \s 空白字元：[ \t\n\x0B\f\r] \S 非空白字元：[^\s] \w 單詞字

go語言正則表示式regexp

2017年04月14日 15:26:30 龍嘯614 閱讀數：647 標籤： go語言正則表示式

C#正則表示式(Regex)

class Program { //------------------[A-Za-z]+[0-9]---密碼 //[A-Za-z] 匹配字母大小寫 //+ 匹配一個或多個前面的字元（字母大小寫）

C語言正則表示式使用詳解

標準的C和C++都不支援正則表示式，但有正則表示式的函式庫提供這功能. C語言處理正則表示式常用的函式有regcomp()、regexec()、regfree()和regerror()。使用正則表示式步驟： 1)編譯正則表示式 regcomp() 2)匹配正則表示式 re

C# 中使用正則表示式 Regex.Matches方法的幾個應用

用於正則表示式的 Regex.Matches靜態方法的幾種用法： //①正則表示式 = > 匹配字串 string Text = @"This is a book , this is my book , Is not I

JAVA語言正則表示式實現密碼規則設定

<span style="font-size:18px;">密碼規則：長度不能小於6位，必須包含字母和數字。</span>public void say() { Scann

正則表示式快速入門

在說正則表示式前先看一道題：問題描述：在給定字串中找出單詞（ “單詞”由大寫字母和小寫字母字元構成，其他非字母字元視為單詞的間隔，如空格、問號、數字等等；另外單個字母不算單詞）；找到單詞後，按照長度進行降序排序，（排序時如果長度相同，則按

C#正則表示式Regex類使用

作為文字處理的利器——Perl語言對正則表示式的最強大支援起到了重要的作用，正因為如此，許多其他語言在加入正則表示式引擎的時候都會或多或少的兼顧perl風格的正則表示式，開發出相應的引擎。本人使用perl語言處理文字有一些時間，同時也有幾年php開發的經歷，像php就有相容

vb.net正則表示式快速入門（2）

6.使用?*或進行重複?：告訴引擎匹配前導字元0次或一次。事實上是表示前導字元是可選的。（問號）：告訴引擎匹配前導字元1次或多次(空格）*：告訴引擎匹配前導字元0次或多次（星號） <[A-Za-z][A-Za-z0-9]*> 匹配沒有屬性的HTML標籤，“ <”以及“>

javascript之正則表示式的入門部分

js正則表示式一般人看到正則表示式都會頭疼的要命，我的天，這是什麼鬼，羅馬文麼。額。。。。其實不是這樣的，它只是一些特殊字元的組合用來匹配字串的？那麼問題來了？為什麼要用正則表示式匹配？=>因為簡單，可以少寫程式碼。怎麼匹配？見下文。。。 1.表

nginx 正則表示式匹配入門篇

1、nginx配置基礎 1、正則表示式匹配 ~ 區分大小寫匹配 ~* 不區分大小寫匹配 !~和!~*分別為區分大小寫不匹配及不區分大小寫不匹配 ^ 以什麼開頭的匹配 $ 以什麼結尾的匹配轉義字元。可以轉. * ?等 * 代表任意字元 2、檔案及目錄匹配 -f和!-f用來判

Java 正則表示式從入門到“跑路”

日常開發中我們經常會遇到驗證使用者輸入資訊的地方，而某些驗證就要用到正則表示式。之前總感覺正則神祕莫測，如果你也有同感？那接下來將為你揭開它神祕的面紗。基本概念正則表示式：具有一定規則的字串。組成規則常用組成規則：字元

C語言正則表示式的匹配問題

題目： C語言正則表示式詳解 regcomp() regexec() regfree()詳解。背景：標準的C和C++都不支援正則表示式，但有一些函式庫可以輔助C/C++程式設計師完成這一功能，其中最著名的當數Philip Hazel的Perl-Compatible Re

R語言-正則表示式

在R語言中使用正則表示式替換，可以使用sub()函式，用於全域性替換則用gsub()函式。 1、例子假設有一個字串向量，需要將多位元組文字過濾出來： >a<-c("abc\x9422",'女','男','女') 如果直接對其使用大小寫轉換函式toupper()

vb.net正則表示式快速入門（1）

深入淺出之正則表示式作者：lzmtw 注:JanGoyvaerts為RegexBuddy寫的教程的譯文前言：半年前我對正則表示式產生了興趣，在網上查詢過不少資料，看過不少的教程，最後在使用一個正則表示式工具RegexBuddy時發現他的教程寫的非常好，可以說是我目前見過最好的正則表示式

nim語言的正則表示式regex入門

相關推薦