處理文字是每一種計算機語言都應該具備的功能，但不是每一種語言都側重於處理文字。R語言是統計的語言，處理文字不是它的強項，perl語言這方面的功能比R不知要強多少倍。幸運的是R語言的可擴充套件能力很強，DNA/RNA/AA等生物序列現在已經可以使用R來處理。

nchar	字元的個數
toupper	轉換為大寫字元
tolower	轉換為小寫字元
substr	求字串的字串
grep	基於正則表示式的匹配
sub	基於正則表示式的替換
strsplit	字串分割
paste	字元向量連線
match	匹配元素位置組成的向量

R語言處理文字的能力雖然不強，但適當用用還是可以大幅提高工作效率的，而且有些文字操作還不得不用。高效處理文字少不了正則表示式（regular expression），雖然R在這方面先天不高效，但它處理字串的絕大多數函式都使用正則表示式。

0、正則表示式簡介：

正則表示式不是R的專屬內容，所以用0編號，這裡也只簡單介紹，更詳細的內容請查閱其他文章。

正則表示式是用於描述/匹配一個文字集合的表示式。

1. 所有英文字母、數字和很多可顯示的字元本身就是正則表示式，用於匹配它們自己。比如 'a' 就是匹配字母 'a' 的正則表示式

2. 一些特殊的字元在正則表示式中不在用來描述它自身，它們在正則表示式中已經被“轉義”，這些字元稱為“元字元”。

perl型別的正則表示式中被轉義的字元有：. \ | ( ) [ ] { } ^ $ * + ?。被轉義的字元已經有特殊的意義，如點號 . 表示任意字元；

方括號表示選擇方括號中的任意一個（如[a-z] 表示任意一個小寫字元）；^ 放在表示式開始出表示匹配文字開始位置，放在方括號內開始處表示非方括號內的任一字元；大括號表示前面的字元或表示式的重複次數；| 表示可選項，即 | 前後的表示式任選一個。

3. 如果要在正則表示式中表示元字元本身，比如我就要在文字中查詢問號‘?’，那麼就要使用引用符號（或稱換碼符號），一般是反斜槓 '\'。需要注意的是，在R語言中得用兩個反斜槓即 ‘\\’，如要匹配括號就要寫成 ’\$\$‘

4. 不同語言或應用程式（事實上很多規則都通用）定義了一些特殊的元字元用於表示某類字元，

如 \d 表示數字0-9，

\D 表示非數字，

\s 表示空白字元（包括空格、製表符、換行符等），

\S 表示非空白字元，

\w 表示字（字母和數字），

\W 表示非字，

\< 和 \> 分別表示以空白字元開始和結束的文字。

5. 正則表示式符號運算順序：圓括號括起來的表示式最優先，然後是表示重複次數的操作（即：* + {} ），接下來是連線運算（其實就是幾個字元放在一起，如abc），最後是表示可選項的運算（|）。所以 'foot|bar' 可以匹配’foot‘或者’bar‘，但是 'foot|ba{2}r'匹配的是’foot‘或者’baar‘。

元字元	描述
\	將下一個字元標記符、或一個向後引用、或一個八進位制轉義符。例如，“\\n”匹配\n。“\n”匹配換行符。序列“\\”匹配“\”而“\(”則匹配“(”。即相當於多種程式語言中都有的“轉義字元”的概念。
^	匹配輸入字串的開始位置。如果設定了RegExp物件的Multiline屬性，^也匹配“\n”或“\r”之後的位置。
$	匹配輸入字串的結束位置。如果設定了RegExp物件的Multiline屬性，$也匹配“\n”或“\r”之前的位置。
*	匹配前面的子表示式任意次。例如，zo*能匹配“z”，也能匹配“zo”以及“zoo”。
+	匹配前面的子表示式一次或多次(大於等於1次）。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等價於{1,}。
?	匹配前面的子表示式零次或一次。例如，“do(es)?”可以匹配“do”或“does”中的“do”。?等價於{0,1}。
{n}	n是一個非負整數。匹配確定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的兩個o。
{n,}	n是一個非負整數。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等價於“o+”。“o{0,}”則等價於“o*”。
{n,m}	m和n均為非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”將匹配“fooooood”中的前三個o。“o{0,1}”等價於“o?”。請注意在逗號和兩個數之間不能有空格。
?	當該字元緊跟在任何一個其他限制符（*,+,?，{n}，{n,}，{n,m}）後面時，匹配模式是非貪婪的。非貪婪模式儘可能少的匹配所搜尋的字串，而預設的貪婪模式則儘可能多的匹配所搜尋的字串。例如，對於字串“oooo”，“o+?”將匹配單個“o”，而“o+”將匹配所有“o”。
.點	匹配除“\r\n”之外的任何單個字元。要匹配包括“\r\n”在內的任何字元，請使用像“[\s\S]”的模式。
(pattern)	匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括號字元，請使用“$”或“$”。
(?:pattern)	非獲取匹配，匹配pattern但不獲取匹配結果，不進行儲存供以後使用。這在使用或字元“(\|)”來組合一個模式的各個部分是很有用。例如“industr(?:y\|ies)”就是一個比“industry\|industries”更簡略的表示式。
(?=pattern)	非獲取匹配，正向肯定預查，在任何匹配pattern的字串開始處匹配查詢字串，該匹配不需要獲取供以後使用。例如，“Windows(?=95\|98\|NT\|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。預查不消耗字元，也就是說，在一個匹配發生後，在最後一次匹配之後立即開始下一次匹配的搜尋，而不是從包含預查的字元之後開始。
(?!pattern)	非獲取匹配，正向否定預查，在任何不匹配pattern的字串開始處匹配查詢字串，該匹配不需要獲取供以後使用。例如“Windows(?!95\|98\|NT\|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。
(?<=pattern)	非獲取匹配，反向肯定預查，與正向肯定預查類似，只是方向相反。例如，“(?<=95\|98\|NT\|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。
(?<!pattern)	非獲取匹配，反向否定預查，與正向否定預查類似，只是方向相反。例如“(?<!95\|98\|NT\|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。這個地方不正確，有問題此處用或任意一項都不能超過2位，如“(?<!95\|98\|NT\|20)Windows正確，“(?<!95\|980\|NT\|20)Windows 報錯，若是單獨使用則無限制，如(?<!2000)Windows 正確匹配
x\|y	匹配x或y。例如，“z\|food”能匹配“z”或“food”(此處請謹慎)。“(z\|f)ood”則匹配“zood”或“food”。
[xyz]	字元集合。匹配所包含的任意一個字元。例如，“[abc]”可以匹配“plain”中的“a”。
[^xyz]	負值字元集合。匹配未包含的任意字元。例如，“[^abc]”可以匹配“plain”中的“plin”。
[a-z]	字元範圍。匹配指定範圍內的任意字元。例如，“[a-z]”可以匹配“a”到“z”範圍內的任意小寫字母字元。注意:只有連字元在字元組內部時,並且出現在兩個字元之間時,才能表示字元的範圍; 如果出字元組的開頭,則只能表示連字元本身.
[^a-z]	負值字元範圍。匹配任何不在指定範圍內的任意字元。例如，“[^a-z]”可以匹配任何不在“a”到“z”範圍內的任意字元。
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置（即正則表示式的“匹配”有兩種概念，一種是匹配字元，一種是匹配位置，這裡的\b就是匹配位置的）。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。
\B	匹配非單詞邊界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。
\cx	匹配由x指明的控制字元。例如，\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則，將c視為一個原義的“c”字元。
\d	匹配一個數字字元。等價於[0-9]。grep 要加上-P，perl正則支援
\D	匹配一個非數字字元。等價於[^0-9]。grep要加上-Pperl正則支援
\f	匹配一個換頁符。等價於\x0c和\cL。
\n	匹配一個換行符。等價於\x0a和\cJ。
\r	匹配一個回車符。等價於\x0d和\cM。
\s	匹配任何不可見字元，包括空格、製表符、換頁符等等。等價於[ \f\n\r\t\v]。
\S	匹配任何可見字元。等價於[^ \f\n\r\t\v]。
\t	匹配一個製表符。等價於\x09和\cI。
\v	匹配一個垂直製表符。等價於\x0b和\cK。
\w	匹配包括下劃線的任何單詞字元。類似但不等價於“[A-Za-z0-9_]”，這裡的"單詞"字元使用Unicode字符集。
\W	匹配任何非單詞字元。等價於“[^A-Za-z0-9_]”。
\xn	匹配n，其中n為十六進位制轉義值。十六進位制轉義值必須為確定的兩個數字長。例如，“\x41”匹配“A”。“\x041”則等價於“\x04&1”。正則表示式中可以使用ASCII編碼。
\num	匹配num，其中num是一個正整數。對所獲取的匹配的引用。例如，“(.)\1”匹配兩個連續的相同字元。
\n	標識一個八進位制轉義值或一個向後引用。如果\n之前至少n個獲取的子表示式，則n為向後引用。否則，如果n為八進位制數字（0-7），則n為一個八進位制轉義值。
\nm	標識一個八進位制轉義值或一個向後引用。如果\nm之前至少有nm個獲得子表示式，則nm為向後引用。如果\nm之前至少有n個獲取，則n為一個後跟文字m的向後引用。如果前面的條件都不滿足，若n和m均為八進位制數字（0-7），則\nm將匹配八進位制轉義值nm。
\nml	如果n為八進位制數字（0-7），且m和l均為八進位制數字（0-7），則匹配八進位制轉義值nml。
\un	匹配n，其中n是一個用四個十六進位制數字表示的Unicode字元。例如，\u00A9匹配版權符號（©）。
\p{P}	小寫 p 是 property 的意思，表示 Unicode 屬性，用於 Unicode 正表示式的字首。中括號內的“P”表示Unicode 字符集七個字元屬性之一：標點字元。其他六個屬性：L：字母；M：標記符號（一般不會單獨出現）；Z：分隔符（比如空格、換行等）；S：符號（比如數學符號、貨幣符號等）；N：數字（比如阿拉伯數字、羅馬數字等）；C：其他字元。*注：此語法部分語言不支援，例：javascript。
< >	匹配詞（word）的開始（<）和結束（>）。例如正則表示式<the>能夠匹配字串"for the wise"中的"the"，但是不能匹配字串"otherwise"中的"the"。注意：這個元字元不是所有的軟體都支援的。
( )	將( 和 ) 之間的表示式定義為“組”（group），並且將匹配這個表示式的字元儲存到一個臨時區域（一個正則表示式中最多可以儲存9個），它們可以用 \1 到\9 的符號來引用。
\|	將兩個匹配條件進行邏輯“或”（Or）運算。例如正則表示式(him\|her) 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：這個元字元不是所有的軟體都支援的。
+	匹配1或多個正好在它之前的那個字元。例如正則表示式9+匹配9、99、999等。注意：這個元字元不是所有的軟體都支援的。
?	匹配0或1個正好在它之前的那個字元。注意：這個元字元不是所有的軟體都支援的。
{i} {i,j}	匹配指定數目的字元，這些字元是在它之前的表示式定義的。例如正則表示式A[0-9]{3} 能夠匹配字元"A"後面跟著正好3個數字字元的串，例如A123、A348等，但是不匹配A1234。而正則表示式[0-9]{4,6} 匹配連續的任意4個、5個或者6個數字

（摘自《正則表示式之道》）

————————————————————————————————————————————————————————

一、字元數統計和字元翻譯

nchar這個函式簡單，統計向量中每個元素的字元個數，注意這個函式和length函式的差別：

nchar是向量元素的字元個數，而length是向量長度（向量元素的個數）。其他沒什麼需要說的。

> x <- c("Hellow", "World", "!")
> nchar(x)
[1] 6 5 1
> length(''); nchar('')
[1] 1
[1] 0

另外三個函式用法也很簡單：

> DNA <- "AtGCtttACC"
> tolower(DNA)
[1] "atgctttacc"
> toupper(DNA)
[1] "ATGCTTTACC"
> chartr("Tt", "Uu", DNA)
[1] "AuGCuuuACC"
> chartr("Tt", "UU", DNA)
[1] "AUGCUUUACC"

————————————————————————————————————————————————————————

二、字串連線

paste應該是R中最常用字串函數了，也是R字串處理函式裡面非常純的不使用正則表示式的函式（因為用不著）。它相當於其他語言的strjoin，但是功能更強大。它把向量連成字串向量，其他型別的資料會轉成向量，但不一定是你要的結果：

> paste("CK", 1:6, sep="")
[1] "CK1" "CK2" "CK3" "CK4" "CK5" "CK6"
> x <- list(a="aaa", b="bbb", c="ccc")
> y <- list(d=1, e=2)
> paste(x, y, sep="-") #較短的向量被迴圈使用
[1] "aaa-1" "bbb-2" "ccc-1"
> z <- list(x,y)
> paste("T", z, sep=":") #這樣的結果不知合不合用
[1] "T:list(a = \"aaa\", b = \"bbb\", c = \"ccc\")"
[2] "T:list(d = 1, e = 2)"

短向量重複使用，列表資料只有一級列表能有好的表現，能不能用看自己需要。會得到什麼樣的結果是可以預知的，用as.character函式看吧，這又是一個字串處理函式：

> as.character(x)
[1] "aaa" "bbb" "ccc"
> as.character(z)
[1] "list(a = \"aaa\", b = \"bbb\", c = \"ccc\")"
[2] "list(d = 1, e = 2)"

paste函式還有一個用法，設定collapse引數，連成一個字串：

> paste(x, y, sep="-", collapse='; ')
[1] "aaa-1; bbb-2; ccc-1"
> paste(x, collapse='; ')
[1] "aaa; bbb; ccc"

————————————————————————————————————————————————————————

三、字串拆分

strsplit函式使用正則表示式，使用格式為：strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)

引數x為字串向量，每個元素都將單獨進行拆分。

引數split為拆分位置的字串向量，預設為正則表示式匹配（fixed=FALSE）。如果你沒接觸過正則表示式，設定fixed=TRUE，表示使用普通文字匹配或正則表示式的精確匹配。普通文字的運算速度快。

perl=TRUE/FALSE的設定和perl語言版本有關，如果正則表示式很長，正確設定表示式並且使用perl=TRUE可以提高運算速度。

引數useBytes設定是否逐個位元組進行匹配，預設為FALSE，即按字元而不是位元組進行匹配。

下面的例子把一句話按空格拆分為單詞：

> text <- "Hello Adam!\nHello Ava!"

> strsplit(text, ' ')

[[1]]

[1] "Hello"        "Adam!\nHello" "Ava!"

R語言的字串事實上也是正則表示式，上面文字中的\n在圖形輸出中是被解釋為換行符的。

> strsplit(text, '\\s')

[[1]]

[1] "Hello" "Adam!" "Hello" "Ava!"

strsplit得到的結果是列表，後面要怎麼處理就得看情況而定了：

> class(strsplit(text, '\\s'))

[1] "list"

有一種情況很特殊：如果split引數的字元長度為0，得到的結果就是一個個的字元：

> strsplit(text, '')

[[1]]

[1] "H"  "e"  "l"  "l"  "o"  " "  "A"  "d"  "a"  "m"  "!"  "\n" "H"  "e"  "l"  "l" 

[17] "o"  " "  "A"  "v"  "a"  "!"

從這裡也可以看到R把 \n 是當成一個字元來處理的。

————————————————————————————————————————————————————————

四、字串查詢：

1、grep和grepl函式：

這兩個函式返回向量水平的匹配結果，不涉及匹配字串的詳細位置資訊。

grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE,
fixed = FALSE, useBytes = FALSE, invert = FALSE)
grepl(pattern, x, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)

雖然引數看起差不多，但是返回的結果不一樣。下來例子列出C:\windows目錄下的所有檔案，然後用grep和grepl查詢exe檔案：

> files <- list.files("c:/windows")
> grep("\\.exe$", files)
[1] 8 28 30 35 36 57 68 98 99 101 110 111 114 116
> grepl("\\.exe$", files)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE
[14] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
#......

grep僅返回匹配項的下標，而grepl返回所有的查詢結果，並用邏輯向量表示有沒有找到匹配。兩者的結果用於提取資料子集的結果都一樣：

> files[grep("\\.exe$", files)]
[1] "bfsvc.exe" "explorer.exe" "fveupdate.exe" "HelpPane.exe"
[5] "hh.exe" "notepad.exe" "regedit.exe" "twunk_16.exe"
[9] "twunk_32.exe" "uninst.exe" "winhelp.exe" "winhlp32.exe"
[13] "write.exe" "xinstaller.exe"
> files[grepl("\\.exe$", files)]
[1] "bfsvc.exe" "explorer.exe" "fveupdate.exe" "HelpPane.exe"
[5] "hh.exe" "notepad.exe" "regedit.exe" "twunk_16.exe"
[9] "twunk_32.exe" "uninst.exe" "winhelp.exe" "winhlp32.exe"
[13] "write.exe" "xinstaller.exe"

2、regexpr、gregexpr和regexec

這三個函式返回的結果包含了匹配的具體位置和字串長度資訊，可以用於字串的提取操作。

> text <- c("Hellow, Adam!", "Hi, Adam!", "How are you, Adam.")
> regexpr("Adam", text)
[1] 9 5 14
attr(,"match.length")
[1] 4 4 4
attr(,"useBytes")
[1] TRUE
> gregexpr("Adam", text)
[[1]]
[1] 9
attr(,"match.length")
[1] 4
attr(,"useBytes")
[1] TRUE
[[2]]
[1] 5
attr(,"match.length")
[1] 4
attr(,"useBytes")
[1] TRUE
[[3]]
[1] 14
attr(,"match.length")
[1] 4
attr(,"useBytes")
[1] TRUE
> regexec("Adam", text)
[[1]]
[1] 9
attr(,"match.length")
[1] 4
[[2]]
[1] 5
attr(,"match.length")
[1] 4
[[3]]
[1] 14
attr(,"match.length")
[1] 4

五、字串替換

雖然sub和gsub是用於字串替換的函式，但嚴格地說R語言沒有字串替換的函式，因為R語言不管什麼操作對引數都是傳值不傳址。

> text
[1] "Hello Adam!\nHello Ava!"
> sub(pattern="Adam", replacement="world", text)
[1] "Hello world!\nHello Ava!"
> text
[1] "Hello Adam!\nHello Ava!"

可以看到：雖然說是“替換”，但原字串並沒有改變，要改變原變數我們只能通過再賦值的方式。

sub和gsub的區別是前者只做一次替換（不管有幾次匹配），而gsub把滿足條件的匹配都做替換：

> sub(pattern="Adam|Ava", replacement="world", text)
[1] "Hello world!\nHello Ava!"
> gsub(pattern="Adam|Ava", replacement="world", text)
[1] "Hello world!\nHello world!"

sub和gsub函式可以使用提取表示式（轉義字元+數字）讓部分變成全部：

> sub(pattern=".*(Adam).*", replacement="\\1", text)

[1] "Adam"

六、字串提取

substr和substring函式通過位置進行字串拆分或提取，它們本身並不使用正則表示式，但是結合正則表示式函式regexpr、gregexpr或regexec使用可以非常方便地從大量文字中提取所需資訊。兩者的引數設定基本相同：

substr(x, start, stop)
substring(text, first, last = 1000000L)

第 1個引數均為要拆分的字串向量，第2個引數為擷取的起始位置向量，第3個引數為擷取字串的終止位置向量。但它們的返回值的長度（個數）有差別：substr返回的字串個數等於第一個引數的長度；而substring返回字串個數等於三個引數中最長向量長度，短向量迴圈使用。先看第1引數（要拆分的字元向量）長度為1例子：

> x <- "123456789"
> substr(x, c(2,4), c(4,5,8))
相關推薦

R語言︱文字（字串）處理與正則表示式

處理文字是每一種計算機語言都應該具備的功能，但不是每一種語言都側重於處理文字。R語言是統計的語言，處理文字不是它的強項，perl語言這方面的功能比R不知要強多少倍。幸運的是R語言的可擴充套件能力很強，DNA/RNA/AA等生物序列現在已經可以使用R來處理。nchar字元的個數

R語言：文字（字串）處理與正則表示式

這兩個函式返回向量水平的匹配結果，不涉及匹配字串的詳細位置資訊。 grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE, fixed = FALSE, useBytes =FALSE, invert = FALSE) grepl

Groovy入門-字串處理與正則表示式

字串處理-1 println ‘lxt008 said "Groovy"' println "lxt008 said 'Grails'" def str1 = 'Groovy&Grails&lxt008' println str1[4]

爬蟲筆記（六）——如何寫正則表示式詳解

什麼是正則表示式？　　正則表示式(Regular Expression)是一種文字模式，在編寫處理字串的程式或網頁時，經常會有查詢符合某些規則的字串的需求。正則表示式就是用於描述這些規則的工具，換句話說，正則表示式就是記錄文字規則的程式碼。我們將分別從原子、元子符、模式修

R語言筆記（一）：R與Rstudio的安裝（Windows）

初學R語言，當然少不了這為程式設計設計的IDE：RStudio R的獲取與安裝選擇download R for Windows,下載下來安裝即可（若是其他系統，按照要求安裝即可，這裡僅限於wi

R語言學習（7）字符串和因子

const sprint 水平 tostring 大小 pow 個數 end paste 字符串和因子 1.字符串　　創建字符串 > c("Hello","World")[1] "Hello" "World" 　　paste( ) 函數連接字符串 >

[讀書筆記] R語言實戰（四）基本數據管理

mean 圖片數值函數 nbsp 一個 img order 分享 1. 創建新的變量 mydata<-data.frame(x1=c(2,2,6,4),x2=c(3,4,2,8)) #方法一 mydata$sumx<-mydata$x1+mydat

C++語言學習（四）——類與對象

clas 進行自身 ngs 符號表方法 index clu 每一個 C++語言學習（四）——類與對象一、構造函數（constructor） 1、構造函數簡介 C++語言中，構造函數是與類名相同的特殊成員函數。在類對象創建時，自動調用構造函數，完成類對象的初始化。類對象

C++語言學習（十）——繼承與派生

child mem 公有 char 單繼承同名成員函數重定義重載函數顯示 C++語言學習（十）——繼承與派生一、類之間的關系 1、類之間的組合關系組合關系是整體與部分的關系。組合關系的特點：A、將其它類的對象作為當前類的成員使用B、當前類的對象與成員對象的生命周

Mac版R語言入門（三）資料的匯入

R語言（三）資料的匯入，包括以下幾個部分的內容： R語言問題討論交流，歡迎關注我的新浪微博：Jenny愛學習 1.資料型別介紹

R語言學習（三）——二項分佈

二項分佈統計推斷 dbinom(x, size, prob)：計算某點的概率值 x:生成隨機數的數量；size：伯努利實驗的次數；prob:試驗成功的概率 pbinom(q, size, prob)：生成累積概率 qbinom(p, size, prob)：生成

R語言學習（四）——泊松分佈

dpois(x, lambda, log = FALSE) ppois(q, lambda, lower.tail = TRUE, log.p = FALSE) qpois(p, lambda, lower.tail = TRUE, log.p = FALSE)

R語言學習（七）——資料規範化

由於取值範圍大的變數會在測算距離時被賦予較大的權重，降低取值範圍小的資料對結果的影響，所以要對原始變數進行規範化處理。讀取資料：或者將Excel檔案儲存為csv（逗號分隔）型檔案，然後用read函

R語言學習（五）高階資料管理

（一）數值和字元處理函式數學函式：統計函式：輸入help（）可以檢視函式的具體用法 z <- mean(x) z <- mean(x,trim=0.05,na.rm=TRUE) ;;丟棄最大最小百分之5後的截尾平均書均值與標準

c++文字（字串）格式轉換

//QString ->const wchar_t * const wchar_t * fileNameC = reinterpret_cast<const wchar_t *>([QString].utf16()); //const wchar_t *

R語言--統計（六）

1. 平均值、中位數和模式 Mean平均值 I. 語法用於計算R中的平均值的基本語法是 - mean(x, trim = 0, na.rm = FALSE, ...) 以下是所使用的引數的描述 - -- x是輸入向量。 -- trim用於從排序向量的兩端丟棄一些觀察結果。

R語言--圖表（四）

1. 條形圖語法在R語言中建立條形圖的基本語法是 - barplot(H, xlab, ylab, main, names.arg, col) 以下是所使用的引數的描述 - -- H是包含在條形圖中使用的數值的向量或矩陣。 -- xlab是x軸的標籤

R語言--基礎（三）

1. 字串連線字串 - paste()函式對於貼上功能的基本語法是 - paste(..., sep = " ", collapse = NULL) 以下是所使用的引數的說明 - -- ...表示要組合的任意數量的自變數。 -- sep表示引數之間的

R語言--基礎（二）

1. 決策概述決策結構要求程式設計師指定要由程式評估或測試的一個或多個條件，以及如果條件被確定為真則要執行的一個或多個語句，如果條件為假則執行其他語句。 Sr.No. 宣告和描述

R語言--基礎（一）

1. 概述 R語言是用於統計分析，圖形表示和報告的程式語言和軟體環境。 R語言由Ross Ihaka和Robert Gentleman在紐西蘭奧克蘭大學建立，目前由R語言開發核心團隊開發。 R語言在GNU通用公共許可證下免費提供，併為各種作業系統（如Linux，Windows和Ma

R語言︱文字（字串）處理與正則表示式

一、字元數統計和字元翻譯

二、字串連線

三、字串拆分

四、字串查詢：

五、字串替換

六、字串提取

相關推薦