go語言正則表達式-實踐教程

阿新 • • 發佈：2018-01-22

port ner 中文字符正則表達式語法 hang ear 使用獲取 rim

正則表達式處理使用到的庫

regexp

使用到regexp庫函數有

MustCompile 和 Compile

MustCompile 的作用和 Compile 一樣,    將正則表達式編譯成一個正則對象（使用 PERL 語法）。
該正則對象會采用“leftmost-first”模式。選擇第一個匹配結果.如果正則表達式語法錯誤，則返
回錯誤信息。不同的是，當正則表達式 str 不合法時，MustCompile 會拋出異常,而 Compile 僅返回一個 error 值

FindString

返回匹配上正則表達式最左邊的一個字符串，如果沒有匹配上會返回空字符串

實踐

例1 獲取下面文本中的company（公司名稱）、address（地址）、telephone（電話）

         <ul class="t3">     
              <li class="company">山東東阿阿膠股份有限公司</li>
              <li class="address">山東省東阿縣阿膠街78號</li>
               <li class="telephone">0635-3262315</li>

    </ul>

正則表達式

        <li class="company">(.+)</li>
        <li class="company">(.+)</li>
        <li class="telephone">(.+)</li>

代碼實現

    package ...
    import (
        ...
        "regexp"
        ...
    )
    ...

    var (
        company          = regexp.MustCompile(`<li class="company">(.+)</li>`)
        address          = regexp.MustCompile(`<li class="address">(.+)</li>`)
        telephone        = regexp.MustCompile(`<li class="telephone">(.+)</li>`)
        )

    var (
        respBody = ` 
                <ul class="t3">
                    <li class="company">山東東阿阿膠股份有限公司</li>
                    <li class="address">山東省東阿縣阿膠街78號</li>
                    <li class="telephone">0635-3262315</li>
                </ul>`
    )

companyMatches := company.FindString(respBody)
companyRst := strings.TrimSpace(strings.Trim(strings.Trim(companyMatches,`<li class="company">`),`</`))  

addressMatches := address.FindString(respBody)
addressRst := strings.TrimSpace(strings.Trim(strings.Trim(addressMatches,`<li class="address">`),`</`))

telephoneMatches := telephone.FindString(respBody)
telephoneRst := strings.TrimSpace(strings.Trim(strings.Trim(telephoneMatches,`<li class="telephone">`),`</`))

講解：

其中正則表達式   `<li class="company">(.+)</li>`  的意思是匹配以<li class="company">開頭，以</li>結尾，中間匹配一次或多次除換行符之外的任何字符

‘.‘ 匹配除換行符（\n、\r）之外的任何單個字符。要匹配包括 ‘\n‘ 在內的任何字符，請使用像"(.|\n)"的模式。

‘+‘ 匹配前面的子表達式一次或多次。例如，‘zo+‘ 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等價於 {1,}。

例2 將HTML標簽全轉換成小寫

re, _ := regexp.Compile("\\<[\\S\\s]+?\\>")或者
    re, _ = regexp.Compile(`\<[\S\s]+?\>`)
respBody = re.ReplaceAllStringFunc(respBody, strings.ToLower)

講解：

    匹配以‘<‘開頭，以’\>‘結尾，中間匹配一個或多個任意字符，而且盡可能少的匹配所搜索到的字符，因為?標示非貪婪模式

    舉個例子：
            正則表達式`\<[\S\s]+?\>處理下面字符串 ’<test1\> nice<test2\>‘，返回結果’<test1\>‘
            而正則表達式`\<[\S\s]+\>處理下面字符串 ’<test1\> nice<test2\>‘，返回接’<test1\> nice<test2\>‘

？當該字符緊跟在任何一個其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 後面時，匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串，而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如，對於字符串 "oooo"，‘o+?‘ 將匹配單個 "o"，而 ‘o+‘ 將匹配所有 ‘o‘。
\s  匹配任何空白字符，包括空格、制表符、換頁符等等。等價於 [ \f\n\r\t\v]。
\S  匹配任何非空白字符。等價於 [^ \f\n\r\t\v]。

例3 去除STYLE

re, _ = regexp.Compile("\\<style[\\S\\s]+?\\</style\\>")或者
    re, _ = regexp.Compile(`\<style[\S\s]+?\</style\>`)
respBody = re.ReplaceAllString(respBody, "")

講解：
同例2

例4 去除SCRIPT

re, _ = regexp.Compile("\\<script[\\S\\s]+?\\</script\\>") 或者
    re, _ = regexp.Compile(`\<script[\S\s]+?\</script\>`)
respBody = re.ReplaceAllString(respBody, "")

講解：
同例3

例5 去除所有尖括號內的HTML代碼，並換成換行符

re, _ = regexp.Compile("\\<[\\S\\s]+?\\>")
respBody = re.ReplaceAllString(respBody, "\n")

講解：
同例3

例6 去除連續的換行符

re, _ = regexp.Compile("\\s{1,}")
respBody = re.ReplaceAllString(respBody, "\n")

講解：

{n,}  n 是一個非負整數。至少匹配n 次。例如，‘o{2,}‘ 不能匹配 "Bob" 中的 ‘o‘，但能匹配 "foooood" 中的所有 o。‘o{1,}‘ 等價於 ‘o+‘。‘o{0,}‘ 則等價於 ‘o*‘。

例7 查找下面尾頁數字15

<a  target=‘_self‘ href=‘/search/不孕癥-p15/‘ class=‘last‘>尾頁</a>

代碼：

allPage       = regexp.MustCompile(`<a  target=‘_self‘ href=‘/search/[.\x{4e00}-\x{9fa5}0-9]+-p[0-9]/‘[ ]*class=‘last‘>尾頁</a>`)
allPagePrefix = regexp.MustCompile(`<a  target=‘_self‘ href=‘/search/[.\x{4e00}-\x{9fa5}0-9]+-p`)
allPageSuffix = regexp.MustCompile(`/‘[ ]*class=‘last‘>\x{5c3e}\x{9875}</a>`)

numPage = allPage.FindString(body)
numPage = allPagePrefix.ReplaceAllString(numPage, "")
numPage = allPageSuffix.ReplaceAllString(numPage, "")

匹配詳解：
正則表達式<a target=‘_self‘ href=‘/search/[.\x{4e00}-\x{9fa5}0-9]+-p[0-9]/‘[ ]*class=‘last‘>尾頁</a>：

    匹配以"<a  target=‘_self‘ href=‘/search/"開頭，以class=‘last‘>尾頁</a>結尾，中間匹配若幹個除換行外的任意字符或者中文字符

    簡易爬蟲實戰項目代碼路徑：https://github.com/KenmyZhang/medicine-manual-spider

go語言正則表達式-實踐教程

port ner 中文字符正則表達式語法 hang ear 使用獲取 rim 正則表達式處理使用到的庫 regexp 使用到regexp庫函數有 MustCompile 和 Compile MustCompile 的作用和 Compile 一樣, 將正則表達式編譯

go regexp 正則表達式使用

!= 字符 color err gin lac print byte數組 dst go 正則表達式使用： /** * @Author: wsp * @Date: 2018/1/15 10:58 * @Description: */ package regexpStu

很不錯的正則表達式學習教程和工具

als com 用戶 lex tor 等等字符在線的標簽學習正則表達式的目的雖然正則表達式看上去很復雜，很難閱讀，但是它確實是很強大的，所以必須學習一下。可以提取替換有規律的字符串文本編輯器中辦公軟件中開發語言中用戶輸入驗證模版標簽庫網絡爬蟲處理抓

R語言-正則表達式1

查找 false substring [1] gre true span 正則表達式開頭 R語言的正則表達式主要用來處理文本資料，比如進行查找、替換等等。首先是一些處理文本時會用到的函數：字符串分割：strsplit() 字符串連接：paste(),paste0()

Go語言中正則表達式的使用

Go語言正則表達式 Go語言正則表達式的使用 Go語言正則表達式許多程序語言都支持使用正則表達式對字符串進行操作，Go語言也不例外，正則表達式的語法網上很多教程，本文主要介紹在Go語言中如何使用正則表達式，通過以下實例進行說明，並添加了詳細的註釋，不會的小夥伴一看就明白了。 func ma

Go語言之正則表達式

GO 正則表達式 [TOC] Go語言正則表達式方式一：使用Compile package main import ( "fmt" "regexp" ) const text = "my email is [email protected]" func main

正則表達式30分鐘入門教程

位數 explicit 模式 his tca 再次 miss 影響註釋 deerchao的blog Be and aware of who you are. 正則表達式30分鐘入門教程來園子之前寫的一篇正則表達式教程，部分翻譯自codeproje

linux C語言處理正則表達式

man cte 得到 rsquo like pre 首地址添加有效 Linux下C語言處理正則表達式——regex.h 具體函數介紹編譯正則表達式函數 int regcomp(regex_t *preg, const char *re

C#正則表達式教程和示例

刪除範圍 body 例子括號參考手冊模式轉載 gif 轉載自：http://www.cnblogs.com/sosoft/p/regex.html C#正則表達式教程和示例有一段時間，正則表達式學習很火熱很潮流，當時在CSDN一天就能看到好幾個正則表達式

java語言中的----正則表達式

java語言中的正則表達式day14 java語言中的----正則表達式一、概述：正則表達式在Java語言中也算是一個比較重要的模塊，前面我們學習了一些關於正則表達式的基礎，在登錄註冊功能中使用比較廣泛，所以說在這兒我就不做多余的介紹。下面我們就通過一些實例來了解一下正則表達式，二、正則表達式：

【轉載】Python中的正則表達式教程

大小區別 some 操作按位或出了 sta 技術分享嘗試本文http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 正則表達式經常被用到，而自己總是記不全，轉載一份完整的以備不時之需。 1.

HTML5前端入門教程：簡析正則表達式

分開 mail 出現字符串匹配很多字符串操作一個來看條件很多人對正則表達式的印象都是用來做表單驗證的，這其實是不大準確的。正則表達式目前在很多軟件中都得到了廣泛的應用，包括Linux,Unix等操作系統，VB,Java,PHP等開發環境中，以及很多應用軟件都能

俗話：學好正則表達式，走遍天下都沒事！最詳細的正則入門教程！

mpi compile 匹配 st2 詳細能夠可選 imp 分享圖片簡介正則表達式（regular expression）是可以匹配文本片段的模式。最簡單的正則表達式就是普通字符串，可以匹配其自身。比如，正則表達式 ‘hello’ 可以匹配字符串 ‘hello’。進

C語言 scanf與正則表達式的搭配及應用

num 數字一個數 style 常用輸出其中字符小寫字母前言當輸入流是一個字符串，我們需要在其中提取我們所需要的數值時，正則表達式就顯得很有用。如果我們能在輸入的時候，就過濾掉無用信息，就可以省去後期提取數值的步驟。使用方法 scanf("%n

正則表達式之分組

表達式字符串假設有如下幾行文本："xxx" : {"name" : "123"} "yyy" : {"name" : "456"} "zzz" : {"name" : "789"} 如果匹配出第1條和第3條，那麽可以使用以下的正則表達式："((xxx)|(zzz))".* 其中，最外層的括

Python中正則表達式（re模塊）的使用

python中正則表達式Python中正則表達式（re模塊）的使用1、正則表達式的概述（1）概述：正則表達式是一些由字符和特殊符號組成的字符串，他們描述了模式的重復或者表示多個字符，正則表達式能按照某種模式匹配一系列有相似特征的字符串。正則表達式是一種小型的、高度的專業化的編程語言，（2）Python語言中的

正則表達式中常用的元符號

padding bsp tab lsp style idt 正則表達式 pad 指定 ^ 一行的開始標誌如^bigeyyes匹配到所有以bigeyyes開頭的行 $ 一行的結束標誌如$bigeyyes 匹配到所有以bigeyyes結尾的行 ?

PHP 常用正則表達式

參考 arr replace search 上一個 tput 位或 $1 以及 PHP代碼 $str = preg_replace("/(<a.*?>)(.*?)(<\/a>)/", ‘\1<span class="link">\2<

正則表達式（1）

表達式正則表達式是計算機科學中的一個重要概念。正則表達式使用單個字符串來描述、匹配一系列符合某個句法規則的字符串。在很多文本編輯器中，正則表達式通常被用來檢索、替換符合某個模式的文本。許多程序設計語言都支持利用正則表達式進行字符串操作。（grep、sed、awk）為什麽要學習正則表達式？

正則表達式練習題集(附答案)

blog 參考而後進行 html標簽用戶密碼標簽 ips 浮點數　　前言好久到沒有去寫關於正則表達式的總結了，雖然自己寫了一些關於正則表達式的東西。但是感覺上對正則表達式還停留在網上查找的階段，對於大

go語言正則表達式-實踐教程

使用到regexp庫函數有

MustCompile 和 Compile

FindString

實踐

例1 獲取下面文本中的company（公司名稱）、address（地址）、telephone（電話）

例2 將HTML標簽全轉換成小寫

例3 去除STYLE

例4 去除SCRIPT

例5 去除所有尖括號內的HTML代碼，並換成換行符

例6 去除連續的換行符

例7 查找下面尾頁數字15

相關推薦