view函式_資料科學系列:資料處理(6)字串函式基於R(二)

阿新 • • 發佈：2020-12-17

技術標籤：view函式替代字串的某個字元特殊符號會被當做字串嗎

承接R&Python Data Science系列:資料處理(5)--字串函式基於R(一)，繼續介紹R語言中的字串函式。

4.2R語言中的正則表示式

正則表示式通過各種函式對字串進行查詢，是一種特殊的字串模式，定義一組規則去匹配符合該規則的字元。R語言中stringr包中用到的ICU(http://userguide.icu-project.org/posix)正則表示式，這裡簡單介紹一下常用到的正則表示式，簡單分為下面幾種：

完全匹配
轉義符
元字元與反義符
重複量詞
分組與條件或

為了顯示字串中字元函式是怎麼匹配的，這裡使用str_view()函式進行講解。

4.2.1完全匹配

library(stringr)library(htmltools)library(htmlwidgets)text

匹配text字串向量中的"a"：

str_view(text, "a")

匹配字串向量中的"lash"：

4.2.2 轉義符

字串中元字元、限定符或者關鍵詞都是有特殊含義的，匹配的時候需要轉化成普通字元，只需在前面加上"\"即可。

text1

我們想匹配字串中的"."，如果直接用完全匹配：

str_view(text1, ".")

為什麼匹配到的是"F"呢？因為"."是元字元，要想匹配到普通字元"."，需要使用"\"將其轉義成普通字元，若使用"\."匹配，結果會是怎麼樣呢？

str_view(text1, "\.")

會報錯，是因為\也是特殊符號，也需要使用\進行轉義，因此想要匹配到普通字元"."，正確的應該去匹配"\\."

str_view(text1, "\\.")

如果在使用正則表示式的過程中，發現匹配到並不是你想要的結果，一檢查匹配規則是否正確，二是看下你想要匹配的字元是否為一些特殊符號，需要進行轉義，三是貪婪匹配還是懶惰匹配。

4.2.3元字符合反義符

元字元是正則表達是的最基本元素，匹配某個字元，反義符是取反的意思。

"."元字元

"."匹配除換行符\n以外的所有字元

text2 str_view(text2, ".")

匹配以"l"開始和"h"結束的字元：

str_view(text2, "l..h")

"\w"和"\W"

"\w"用於匹配匹配字母、數字、漢字以及空格下劃線等；而"\W"用於匹配非"\w"的。

str_view(text2, "\\w")

str_view(text2, "\\W")

"\s"與"\S"

"\s"用於匹配空白符，而"\S"用於非"\s"。

str_view(text2, "\\s")

str_view(text, "\\S")

"\d"與"\D"

"\d"用於匹配數字，而"\D"用於匹配非"\D".

str_view(text2, "\\d")

str_view(text2, "\\D")

"\b"、"\B"、"^"、"$"

"\b"用於匹配字串的開始或者結束，字串的邊界，而"\B"用於非字串的邊界。

"^"用於匹配字串的開始，"$"用於匹配字串的結束。

text3

匹配text3字串向量以"h"開始的字串：

str_view(text3, "\\bh")

等價於

str_view(text3, "^h")

匹配text3字串向量以"h"開結束的字串：

str_view(text3, "h\\b")

等價於

str_view(text3, "h$")

4.2.4 重複量詞

元字元是正則表示式的最基本元素，要想匹配多個元字元，例如匹配QQ號是8位數字的QQ的，使用元字元可以寫成^\\d\\d\\d\\d\\d\\d\\d\\d$，是不是發現很不簡潔，而且容易出錯，為了處理類似的重複性問題，正則表示式中有一些重複量詞，把重複部分用合適的量詞替代。

"*"與"+"重複量詞

注意"*"和"+"的區別："*"匹配0次或者多次；"+"匹配1次或者多次。

text4

匹配以數字開始且連續幾位都是數字：

str_view(text4, "^\\d*")

str_view(text4, "^\\d+")

"?"重複量詞

這裡涉及到貪婪和懶惰匹配。

貪婪匹配：通常正則表示式中包含能接受重複的限定符時，通常是匹配儘量多的字元，稱之為貪婪匹配。

懶惰匹配：希望匹配儘可能少的字元，需要使用"?"限制，只需要在限定符後面加上"?"。

例如：匹配以a開頭，以b結束的字串：

str_view(text4, "^a.*b")

str_view(text4, "^a.*?b")

{n}、{n,}與{n,m}重複量詞

{n}：前面元素剛好重複n次；

{n,}：前面元素至少重複n次；

{n,m}：前面元素至少重複n次，最多重複m次；

匹配text4中，剛好是8個數字的字串：

str_view(text4, "^\\d{8}$")

匹配text4，含有至少8個數字的字串：

str_view(text4, "\\d{8,}")

這裡可以執行一下str_view(text4, "\\d{8,}?"),加深對貪婪和懶惰匹配的理解。

匹配text4中，含有8-9位數字的字串：

str_view(text4, "\\d{8,9}")

4.2.5 分組和條件或

上面重複量詞都是重複前面的一個元素，那麼如果我們想重複前面兩個元素，即需要將前面兩個元素作為一個整體。正則表示式中使用()來做分組，把括弧中的元素當做一個整體。

匹配以ab開頭的字串：

str_view(text4, "^(ab)+")

問題又來了，如果想匹配以a開頭或者以b開頭的字串，總不能寫兩個匹配模式吧。正則表示式中使用"|"來表示或(或使用中括號[])，也叫做分支條件，滿足分支條件中的任意一種條件時，都會成功匹配。

匹配以字母a或者b開頭的字串：

str_view(text4, "^(a|b)+")

等價於

str_view(text4, "^[ab]+")

4.2.6 R語言正則表示式總結

正則表示式部分比較晦澀，看書的時候在這個部分花了很長時間，理解這一塊，最好是理論結合練習，多寫一下案例，下面會接著介紹stringr包中的使用正則表示式的字串處理函式。

view函式_資料科學系列:資料處理(6)字串函式基於R(二)

技術標籤：view函式替代字串的某個字元特殊符號會被當做字串嗎承接R&Python Data Science系列:資料處理(5)--字串函式基於R(一)，繼續介紹R語言中的字串函式。

動手學資料分析系列---資料載入及初步觀察

1 第一章：資料載入 1.1 載入資料資料集下載https://www.kaggle.com/c/titanic/overview 1.1.1 任務一：匯入numpy和pandas

動手學資料分析系列---資料重構

複習：在前面我們已經學習了Pandas基礎，第二章我們開始進入資料分析的業務部分，在第二章第一節的內容中，我們學習了資料的清洗，這一部分十分重要，只有資料變得相對乾淨，我們之後對資料的分析才可以更有力。而這

【資料科學】資料科學中的 Spark 入門

本文由伯樂線上 - zhique 翻譯，xxmen 校稿。未經許可，禁止轉載！英文出處：Ram Sriharsha。歡迎加入翻譯組。

資料結構與演演算法6 -- 字串匹配

前言字串匹配問題：給你兩個任意的字串字串A = \"afhasoidfhaiodfaodfnoahfadfnad\"; 字串B = \"dfaod\";

c++ log函式_資料分析系列：SQL筆試總結之神奇的視窗函式

技術標籤：c++ log函式datatable的資料進行組內排序什麼是視窗函式？視窗函式就是類似於group by聚合函式，但又不同於聚合函式。聚合函式是將組內多個數據聚合成一個值，而視窗函式除了可以將組內資料聚合

開花演算法_資料科學即將開花，但其根源已經存在了很長時間

開花演算法 “The future of data analysis can involve great progress, the overcoming of real difficulties, and the provision of a great service to all fields of science and technology. W

分步式資料庫_建立真實資料科學檔案專案的分步指南

分步式資料庫 As an inspiring data scientist, building interesting portfolio projects is key to showcase your skills. When I learned coding and data science as a business student through

pca針對初學者_針對初學者和專家的12酷資料科學專案創意

pca針對初學者 The domain of Data Science brings with itself a variety of scientific tools, processes, algorithms, and knowledge extraction systems from structured and unstructured data

merge函式_資料分析常用函式—pd.merge

技術標籤：merge函式validate函式資料分析是現在的熱門，學會用python處理資料，讓你從繁瑣的工作中解脫出來。

pandas切片_資料處理進階pandas入門（二）

技術標籤：pandas切片回顧在資料處理進階pandas入門(一)中，我們介紹了pandas的基本概念、基本資料結構，並且簡單瞭解了pandas中的兩個重要資料結構Series和DataFrame。今天我們來看一下Series常用的幾種建立

[資料科學筆記]第6章流資料處理

技術標籤：資料科學概論分散式大資料演算法hadoop資料庫流資料處理 1.流資料處理應用

20vue學習_元件裡的資料，以data函式的形式

技術標籤：VUE 1、元件裡的資料以DATA函式的形式 <!DOCTYPE html> <html lang="en">

插值法補齊缺失資料_資料探索與預處理

技術標籤：插值法補齊缺失資料一、資料探索 1. 資料質量分析檢查原始資料中是否存在髒資料缺失值

Pytorch 資料載入與資料預處理方式

資料載入分為載入torchvision.datasets中的資料集以及載入自己使用的資料集兩種情況。

使用pandas實現連續資料的離散化處理方式(分箱操作)

Python實現連續資料的離散化處理主要基於兩個函式，pandas.cut和pandas.qcut，前者根據指定分界點對連續資料進行分箱處理，後者則可以根據指定箱子的數量對連續資料進行等寬分箱處理，所謂等寬指的是每個箱子中的資料

Python變數、資料型別、資料型別轉換相關函式用法例項詳解

本文例項講述了Python變數、資料型別、資料型別轉換相關函式用法。分享給大家供大家參考，具體如下：

關於Pytorch的MNIST資料集的預處理詳解

關於Pytorch的MNIST資料集的預處理詳解 MNIST的準確率達到99.7% 用於MNIST的卷積神經網路（CNN）的實現，具有各種技術，例如資料增強，丟失，偽隨機化等。

MongoDB中資料的替換方法實現類Replace()函式功能詳解

近日接到一個開發需求，因業務調整，需要DBA協助，將MongoDB資料庫中某集合的進行替換。例如我們需要將集合A中B欄位中，有關《美好》的字元替換為《非常美好》。個人感覺這個需求如果是在SQL Server 或MySQL 資料庫

windows搜尋空資料夾的批處理程式程式碼例項

有時候需要搜尋查詢空資料夾，一個方法是將瀏覽器旁的目錄樹開啟，挨個檢視，如果有成百上千個目錄呢，以人力去找就太費時費力了，本文介紹一個批處理程式，可以代替人力完成這個任務。