R語言函式總結

阿新 • • 發佈：2019-01-25

R語言特徵

對大小寫敏感
通常，數字，字母，. 和 _都是允許的(在一些國家還包括重音字母)。不過，一個命名必須以 . 或者字母開頭，並且如果以 . 開頭，第二個字元不允許是數字。
基本命令要麼是表示式（expressions）要麼就是賦值（assignments）。
命令可以被 (;)隔開，或者另起一行。
基本命令可以通過大括弧({和}) 放在一起構成一個複合表示式（compound expression）。
一行中，從井號(#)開始到句子收尾之間的語句就是是註釋。
R是動態型別、強型別的語言。
R的基本資料型別有數值型（numeric）、字元型（character）、複數型（complex）和邏輯型（logical），物件型別有向量、因子、陣列、矩陣、資料框、列表、時間序列。

基礎指令

程式輔助性操作：

執行

q()——退出R程式tab——自動補全ctrl+L——清空consoleESC——中斷當前計算

除錯查錯

browser() 和 debug()——設定斷點進行，執行到此可以進行瀏覽檢視（具體除錯看browser（）幫助文件（c,n,Q））stop('your message here.')——輸入引數不正確時，停止程式執行
cat（）——檢視變數？

幫助

help(solve) 和 ?solve 等同??solve——檢索所有與solve相關的資訊help("[[") 對於特殊含義字元，加上雙引號或者單引號變成字串，也適用於有語法涵義的關鍵字 if，for 和 function

help(package="rpart")——檢視某個包help.start()——得到html格式幫助
help.search()——允許以任何方式（話題）搜尋幫助文件
example（topic）——檢視某個幫助主題示例apropos（"keyword"）——查詢關鍵詞keyword相關的函式RSiteSearch("onlinekey"， restrict=fuction)——用來搜尋郵件列表文件、R手冊和R幫助頁面中的關鍵詞或短語（網際網路）RSiteSearch('neural networks')

準備

檔案目錄設定

setwd（<dir>）——設定工作檔案目錄getwd（）——獲取當前工作檔案目錄list.files()——檢視當前檔案目錄中的檔案

載入資源

search()——通過search()函式，可以檢視到R啟動時預設載入7個核心包。
基礎函式：數學計算函式，統計計算函式，日期函式，包載入函式，資料處理函式，函式操作函式，圖形裝置函式

setRepositpries（）——選擇軟體庫（CRAN，Bioconductor，R-Forge），尋找安裝包的方法另看《【R筆記】尋找R的安裝包》(.packages())——列出當前包
(.packages(all.available=TRUE))——列出有效包
install.packages（“<package>”）——安裝包library（）和require（）——載入R包（package）至工作空間
data（）——列出可以被獲取到的存在的資料集(base包的資料集)data（<datasets>，package=“nls”）——將nls包的datasets載入到資料庫中

批處理檔案和結果重定向

source("commands.R")——執行commands.R （存放批處理命令的）指令碼檔案。cat(<Rcommond>,file="")——可以把R命令輸出至外部檔案，然後呼叫source函式進行批處理
do.call(<funcname>，<pars>)——呼叫函式，第一個引數<funcnames>指示呼叫函式字串名稱，第二個引數包含呼叫所需引數的一個列表<pars>sink("record.lis")——把後續的輸出結果從控制檯重定向到外部檔案 record.lis 中sink（）——把後續程式碼輸出重新恢復到終端上展示attach（<datafame>）——將資料框<datafame>中的變數連結到記憶體中，便於資料呼叫detach()——對應attach(<datafame>)，取消變數的連結，detach()裡沒有引數！注：attach()和detach()均是在預設變數搜尋路徑表中由前向後找到第一個符合變數名稱，因此之前若存在重名變數，有可能會出現問題！！！

資料處理

輸入輸出（讀入輸出資料、檔案）

assign("x",c(1,2,3)) 和 x <- c(1,2,3) 和 c(1,2,3)->x ——向量賦值
read.table（"infantry.txt", sep="\t"， header=TRUE）——seq屬性用其它字元分割，比如文字檔案用空格（tab）分隔，header設定為檔案中已經存在表頭名稱
read.csv("targets.csv")——讀入csv（Comma Seperated Values）檔案，屬性被逗號分割read.csv(url("<link>"))——read.csv() 和 url()的合體，讀存在網上的資料
x <- scan(file="")——手動輸入資料，同時scan可以指定輸入變數的資料型別，適合大資料檔案
scan("data.dat", what = list("", 0, 0))——what指定變數型別列表readLines('http://en.wikipedia.org/wiki/Main_Page',n=10)——讀取文字檔案，將文件轉為以行為單位存放的list格式，比如讀取讀取wikipedia的主頁html檔案的前十行write.table(Data, file="file.txt", row.names = FALSE, quote=FALSE)——輸出，quote為FALSE去掉字串型別的雙引號，write.table(stasum, "stasum.csv",row.names = FALSE,col.name=FALSE,sep=",",append=TRUE)write.csv（data，file="foo.csv",row.names=FALSE）——寫成csv格式,row.names=FALSE去掉行號print（）——列印save.image（"./data.RData"）——把原本在計算機記憶體中（工作空間）活動的資料轉存到硬碟中。load("./RData")——載入目錄中的*.RData，把文件-詞項矩陣從磁碟載入到記憶體中

資料檢視

通用物件

R是一種基於物件（Object）的語言，物件具有很多屬性（Attribute），其中一種重要的屬性就是類（Class），最基本的類包括了數值（numeric）、邏輯（logical）、字元（character）、列表（list），符合類包括矩陣（matrix）、陣列（array）、因子（factor）、資料框（dataframe）。

class(<object>) 和 data.class(object)——檢視物件object的類或型別unclass()——消除物件object的類

基本資料型別

mode()——檢視基本資料型別length()——檢視長度
as.<資料型別>——改變物件的資料型別

特殊屬性

attributes(<object>)——檢視物件object各種屬性組成的列表
attr(<object>，“name”)——存取物件object的名為name的屬性

混合型別

邏輯型別+數值型別=數值型別
邏輯型別+字元型別=字元型別數值型別+字元型別=字元型別
ls() 和 objects（）——檢視當前工作空間中存在的物件（變數）rm(list=ls())——刪除工作空間的所有物件methods(x)——檢視x函式的原始碼，有些自帶函式輸入名稱x可以直接看到，有一些需要呼叫methods方法才能檢視函式x的原始碼，出現多重名，輸入對應名稱即可str（）——檢視資料（框）中的資料總體資訊（比如樣本個數、變數個數、屬性變數名稱、型別）
nrow(dataframe)——檢視資料集行數
NROW（vector）——查看向量的行數，等於length(x)head(dataframe)——檢視資料集前6行資料tail(dataframe)——檢視資料集尾6行資料

向量特徵

邏輯向量運算：TRUE，FALSE——全部大寫isTRUE(x)——判斷x為TRUE*|，&，！——或且非，注意是單個，不是&&！
ANY，ALL——任意，全部陣列和矩陣train$vartrain$new[train$var == NA] <- 1Data[is.na(Data)] <- 0——資料框多維變數中給NA值賦值為0
apply（A，Margin，FUN，...）——A為矩陣，Margin設定待處理的維數，為1是橫排（行），為2是豎排（列）做運算，Fun是運算函式sweep（x，2，apply（x，MARGIN=1，mean），FUN）——對陣列或者矩陣進行運算。 MARGIN=1表示行，2表示列；STATS統計量，如apply（x，MARGIN=1，mean），FUN函式運算預設為減法，“/”除法y.vector<-with(data,get(yval))——表示在data資料框中讀取列名稱為yval的向量。with(<data>，<colname|func>)——提取資料框中的某些引數做運算，對於資料框運算很方便

繪圖

plot()——繪製圖像plot(<vecter_horizontal>, <vector_vertical>, pch=as.integer(<factors>)，col，xlab，ylab)——用factors區分影象點的型別pch（圓的，三角，叉），col是顏色類別，xlab或者ylab對應橫縱軸標題legend(<location="topright">,legend=<vector_labelname>,pch=1:3，cex=1，col)——圖例，<location>是位置（比如右上），<vector_labelname>圖例類別標籤名，pch是圖例對應標籤的類別id（向量），<cex>調整字型比例大小，顏色設定，legend("topright", levels(<factors>), pch=1:length(levels(factors)))text(X，Y，labels=c(1,2,3),adj=1.2)——新增標註,X,Y是對應座標的向量，labels是標記值，adj調整標註位置abline(h = <int>，lty=2)——低階繪圖新增一條水平線h或者是迴歸模型直線，垂線v；lty為2表示繪製虛線
abline(a,b)——畫一條y=a+bx的直線points（x，y）————低階繪圖，畫個點，座標為向量x，ylines（x，y）——低階繪圖，畫一條線，座標為向量x，y
axis(side=1，at=seq(from=0.7，by=1.2，length.out=7)，labels=c（...）)——繪製座標軸，低階繪圖，side為2是縱座標barchart（）——lattice包預先要對資料彙總barplot(<vector>)——繪製柱狀圖，vector可增加名稱。也可以繪製直方圖，和hist（）均分資料不太一樣，需要用table（）統計各個子分段下樣本數量後在畫圖。mosaicplot（x~y，main，color=T，xlab，ylab）——柱形對應關係圖
contour(<matrix>)——建立等高線
persp(<matrix>，expand=0.2）——建立3D圖，expand擴充套件值設定為0.2，否則為全屏擴充套件image（volcano）——載入柵格（矩陣）影象par（mfrow=c(1,2)，oma，mar）——mfrow設定圖形輸出視窗為1行2列，新增car包？oma是所有影象距離邊框的距離(底部，左邊，頂部，右邊)，mar是每幅影象對邊框的距離，預設是c(5, 4, 4, 2) + 0.1。lines(data)——（低階）原圖中畫線，data是由散點(x，y)組成rug（jitter（<data>），side =2）——檢驗離群點資料，rug（）原圖中執行繪圖繪製在橫座標上，side為2是縱座標，jitter(<data>)對繪製值略微調整，增加隨機排序以避免標記值作圖重合。pairs(data)——資料框各個變數的散佈圖
coplot(y~x|a+b)——多個變數時的散點圖，在a，b（向量或是因子）的劃分下的y與x的散點圖scatterplotMatr()——散點圖矩陣，car包identify（<data>）——互動式點選，單擊圖形中的點，將會輸出對應資料的行號，右擊結束互動stem(x，scale=1，width=80，atom=1e-08)——莖葉圖,scale控制莖葉圖的長度，為2即是以0~4為一組，5~9為一組將個位分成兩部分，width是繪圖寬度，atom是容差
boxplot（）——箱圖，研究變數的中心趨勢，以及變數發散情況和離群值。上體頂部和底部為上下四分位數，中間粗線為中位數，上下伸出的垂直部分為資料的散步範圍，最遠點為1.5倍四分為點，超出後為異常點，用圓圈表示。boxplot(y~f,notch=TRUE,col=1:3,add=TRUE)#y是資料，f是由因子構成，notch是帶有切口的箱型圖，add=T圖疊加到上一幅圖。plot（f，y）——箱線圖，f是因子，y是與f因子對應的數值bwplot（<factor> ~ <y>，data，ylab）——lattice包的箱圖，繪製不同factor下的y的箱圖（條件繪圖，在某個因子取值集合下的y值變化）
bwplot（size~a1,data,panel=panel.bpplot,prob=seq(.01,.49,by=.01),datadensity=TRUE,ylab=''）——Hmisc包的分位箱圖
earth.count(na.omit（x）,number=4,overlap=1/5)——連續變數x的離散化，把x轉化為因子型別；number設定區間個數，overlap設定兩個區間靠近邊界的重合？每個區間的觀測值相等stripplot(x1~y|x2)——lattice包的複雜箱圖，存在兩個因子x1,x2控制下的y, x2按照從左到右，從下到上的順序排列，左下方的x2值較小palette()——col取值對應的顏色， "black" "red" "green3" "blue" "cyan" "magenta" "yellow" "gray" colors（）——列出對應的顏色陣列
qcc（）——qcc包，監控轉化率型指標的質量監控圖（P控制圖），監控異常點，前提是二項分佈足夠大後趨於正態分佈mosaic（<tab>，shade=T，legend=T）——繪製三級列聯表，<tab>是三級列聯表或者公式，vcd包curve（sapply(x,<func>)，<from>，<to>）——畫曲線圖，from和to設定橫座標取值範圍

編輯

optim(c(0,0),<func>)——優化問題函式，c(0,0)是優化函式引數的初始值，返回值par是引數最優點值，value是引數的最優點時平方誤差值，counts是返回執行輸入函式func的次數以及梯度gradient的次數，convergence值為0表示有把握找到最優點，非0值時對應錯誤，message是一些其它資訊。curve（sapply(x,<func>)，<from>，<to>）——畫曲線圖，from和to設定橫座標取值範圍sample(length(x)，<size>，replace=F)——取樣，生成向量x的隨機順序的大小為<size>的新向量；replace為False為不重複抽樣，為True則重複抽樣Round ——取整。精確
ceiling()——取整，偏向數值小的floor() ——取整，偏向數值大的%/% ——整除
colnames(Data)[4]="value"——更換某一列名edit（）——編輯資料表格
fix（）——rm（x，y）——移除物件（變數）x和y
na.exclude(<data>)——移除缺失資料整行
na.omit(<data>)——刪除缺失資料
attr（na.omit（<data>）,"na.action"）——返回向量a中元素為NA的下標na.fail（）——如果向量中至少包括1個NA值，則返回錯誤；如果不包括任何NA，則返回原有向量merge(x = targets, y = infanty)——合併資料框，x和y是待合併資料框，相同屬性欄位也會合並在一起
merge(x, y, by = intersect(names(x), names(y)),by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all,sort = TRUE, suffixes = c(".x",".y"),incomparables = NULL, ...)merge函式引數的說明:
x,y:用於合併的兩個資料框 by,by.x,by.y:指定依據哪些行合併資料框,預設值為相同列名的列. all,all.x,all.y:指定x和y的行是否應該全在輸出檔案. sort:by指定的列是否要排序.
suffixes:指定除by外相同列名的字尾. incomparables:指定by中哪些單元不進行合併.scale(x, center = TRUE, scale = TRUE)——中心化與標準化，center是中心化，scale是標準化。（全選：減去均值，再除以標準差）cut(x，breaks=c(0,10,30)，labels，ordered_result=F)——連續資料的離散化，將向量依據breaks區間分割為因子向量。labels設定返回因子向量的水平標籤值，ordered_result為False生成的因子向量無大小意義，否則有大小意義

apply族函式

apply(A，MARGIN，FUN，...)——處理物件A是矩陣或陣列，MARGIN設定待計算的維數，FUN是某些函式，如mean，sum注：apply與其它函式不同，它並不能明顯改善計算效率，因為它本身內建為迴圈運算。按列？lappy(dataframe，FUN，list(median,sd))——處理物件是向量、列表或其它物件，輸出格式為列表listsapply(dataframe$Filed，FUN)——與lapply()相似，輸出格式為矩陣（或資料框）
按行？tapply(X, INDEX, FUN, simplify = TRUE) ——處理分組資料, INDEX和X是有同樣長度的因子，simplify是邏輯變（量預設為T）aggregate(x~y+z, data，FUN)和by()——和tapply功能類似

plyr庫

ddply(Data，.(user_id，item_id)，summarize，liulan=sum(liulan)）——split-apply-combine的一體化函式；.(user_id，item_id)作為每行的一對標識ID（因子），前面的“.”號省略資料框名稱；summrize是一個函式fun；liulan是一個變數，最後生成的資料框只有user_id，item_id，liulan三列。詳情參見例子 R語言利器之ddplytransform(x，y)——將x和y的列轉換成·一個數據框。

reshape庫（reshape2）

melt（data，id.vars）——轉換資料溶解。修改資料組織結構，建立一個數據矩陣，以id.var作為每行的編號，剩餘列資料取值僅作為1列數值，並用原列名作為新數值的分類標記。cast（data, userid~itemid,value="rattings",fill=0）——統計轉換資料，生成矩陣，公式~左邊的作為行表名，右邊的作為列表名。之後可以用cor（）計算每列資料之間的相關係數，並計算距離。acast 和 dcast（data, userid~itemid,value.var="rattings"）——同上，reshape2包，acast最後生成陣列，dcase生成資料框。參見 R語言進階之4：資料整形（reshape）

字串處理

nchar()——獲取字串長度，它能夠獲取字串的長度，它也支援字串向量操作。注意它和length()的結果是有區別的？什麼區別paste("a", "b", sep="")——字串粘合，負責將若干個字串相連結，返回成單獨的字串。其優點在於，就算有的處理物件不是字元型也能自動轉為字元型。strsplit(A，split='[,.]') ——字串分割，負責將字串按照某種分割形式將其進行劃分，它正是paste()的逆操作。substr(data,start,stop)——字串擷取，能對給定的字串物件取出子集，其引數是子集所處的起始和終止位置。子集為從start到stop的下標區間grep()——字串匹配，負責搜尋給定字串物件中特定表示式，並返回其位置索引。grepl()函式與之類似，但其後面的"l"則意味著返回的將是邏輯值regexpr（pattern,text）——從字串text中提取特定的字串的下標位置gregexpr（）——只查詢匹配的第一個特定字串的下標位置gsub("a",1,<vector>)——字串替代，負責搜尋字串的特定表示式，並用新的內容加以替代。
sub()函式——和gsub是類似的，但只替代第一個發現結果。chartr( )——字串替換函式
toupper( )、tolower( )及casefold( )——大小寫轉換函式

控制流

if—else——分支語句switch(index,case1,case2,casen)——index指示跳到第i個casei中for（i in <vecter>）——迴圈語句，通過控制變數iwhile——迴圈語句，通過設定迴圈範圍repeat—break——迴圈語句，無限迴圈，由break跳出

特殊資料物件

向量特性

向量陣列初始小標序號從1開始向量增加元素可以直接通過“vector[n+1]<-0”方式增加a<-c()——向量初始化vector <- numeric（<int>）——建立初始向量<int>個數，並賦初值為0
length（vector）<- leg——修改物件長度為legnames(vector) <- c("A","B","C")——給向量起名稱vector["A"]——通過名稱訪問對應元素 a == c(1, 99, 3)——比較每一個元素對應是否相等
c（0，1）——建立向量，向量內元素型別應一致！seq（5，9）和5：9 ——連續向量，等差數列seq（5，9，0.5）——以0.5為間隔建立seq(from,to,length,by)

資料索引

which（is.na(var) == T）——返回對應陣列序號
which.max() 和 which.min()——返回數值型別中最大和最小元素下標subset（<data>,<condition>，<colname>）——索引，<data>是資料，<condition>是索引條件，colnames指定索引列名match（x，table，nomatch，incomparables）——匹配函式，返回x對應值在table中是否存在，並從1開始編號。x是查詢物件，table是待匹配的向量，nomatch是不匹配項的設定值（預設為NA值），incomparables設定table表中不參加匹配的數值，預設為NULL<x> %n% <y>——判斷x中是否包含y，返回x對應的邏輯值

排序

sort(x, decreasing = FALSE, na.last = NA, ...)——排序，單變數排序，輸出排序結果（不是序號）。na.last為TRUE，缺失值放在資料最後，為False 缺失值放在資料最前面，為NA，缺失資料將被移除sort.list()——排序輸出序號值order()——排序，多個變數資料框排序，返回資料框序號數。order例子【結】結合ddply和transform函式，降序輸出並，輸出編號：ddply(dfx,.(group,sex),.fun=function(x){transform(x[order(x$age,decreasing=TRUE),c(1:3)],ind=1:length(group))})rank()——秩排序，有重複數字的時候就用這個，根據數值之間的遠近輸出序號rev()——依據下標從後往前倒排資料unique（<dataframe>）——返回無重複樣本的資料集duplicated（x）——查詢重複資料，重複序號返回為TRUE

比較大小

pmin（x1,x2,...）——比較向量中的各元素，並把較小的元素組成新向量pmax（x1,x2,...）——

向量間的交、並、補集

union(x, y)——（並集）合併兩組資料，x和y是沒有重複的同一類資料，比如向量集intersect(x, y)——（交集）對兩組資料求交集，x和y是沒有重複的同一類資料，比如向量集setdiff(x, y)——（補集）x中與y不同的資料，x和y是沒有重複的同一類資料，比如向量集，重複不同不記setequal(x, y)——判斷x與y相同，返回邏輯變數，True為相同，False不同。x和y是沒有重複的同一類資料，比如向量集is.element(x, y) 和 %n%——對x中每個元素，判斷是否在y中存在，TRUE為x，y重共有的元素，Fasle為y中沒有。x和y是沒有重複的同一類資料，比如向量集Vectorize()——將不能進行向量化預算的函式進行轉化

矩陣

array（data=NA,dim=length(data),dimnames=null）——陣列、矩陣初始化,dim是陣列各維的長度dimnames是陣列維的名字，預設為空，array(1:20, dim=c(4,5))。陣列是多維的，dim屬性設定維數
matrix(0, 3, 4)——0為賦初值，3行，4列，儲存方式是先列後行！矩陣是二維的，用ncol和nrow設定矩陣的行數和列數。byrow設定儲存方式（預設列優先），若為TRUE則以行優先
dim（<vector>）<- c(2,3)——設定矩陣為2行3列dimnames（）=list(c（<row>），c（<col>）)——設定引數行和列的名稱，以列表的形式進行輸入matrix[ ,4]——矩陣第4列as.vector(matrix)——將矩陣轉換成向量a["name1","name2"]——矩陣以行和列的名稱來代替行列的下標，name1是行名，name2是列名rbind（）——矩陣合併，按行合併，自變數寬度應該相等
cbind（）——矩陣合併，安列合併，自變數高度應該相等t()——矩陣轉置det()——行列式solve（A，b）——求線性方程組Ax=bsolve（A）——求逆矩陣eigen（A） ——求距陣的特徵值與特徵向量，Ax=(Lambda)x，A$values是矩陣的特徵值構成的向量，A$vectors是A的特徵向量構成的矩陣*——矩陣中每個元素對應相乘%*%——矩陣相乘

因子

因子和向量的區別：向量裡面存的元素型別可以是字元型，而因子裡面存的是整型數值對應因子的類別（levels）as.integer(<factors>)——因子可以轉化為整型levels(<factors>)——檢視因子類別gl（n，k，length）——因子,n為水平數，k為重複的次數，length為結果的長度factor(x，levels，labels)——因子as.factror()——將向量轉化為無序因子，不能比較大小as.order()——將向量轉化為有序因子
is.factor()——判斷是否為無序因子is.order()——判斷是否為有序因子

列表和資料框

list()——列表unlist()——列表轉化為向量
data.frame()——資料框names(<dataframe>)——顯示資料框的列名稱dataframe[[2]] 和 dataframe[["TheSec.Name"]] 和 dataframe$TheSec.Name——獲取資料框第二列的元素值as.matrix(<dataframe>)[，1]——把資料框轉化為矩陣後，再去提取列向量

na和NULL的區別

is.na()——判斷na值存在，na是指該數值缺失但是存在。is.null（）——判斷資料是否為NULL。NULL是指不存在，可以通過 train$var<-NULL 的方法去掉屬性變數var。

處理缺失資料na

1、將缺失部分剔除2、用最高頻率值來填補缺失值
3、通過變數的相關關係來填補缺失值4、通過探索案例之間的相似性來填補缺失值

公式

a:b——a和b的互動效應a+b——a和b的相加效應a*b——相加和互動效應（等價於a+b+a：b）-b——去掉b的影響1——y~1擬合一個沒有因子影響的模型（僅僅是截距）-1——y~x-1表示通過原點的線性迴歸（等價於y~x+0或者0+y~x）^n——包含所有知道n階的互動作用（a+b+c）^2==a+b+c+a:b+a:c+b:c
poly(a,n)——a的n階多項式I(x1+x2)——表示模型y=b（x1+x2）+a

數理統計

基礎知識

統計量

mean（x，trim=0,na,rm=FALSE）——均值，trim去掉x兩端觀測值的便利，預設為0，即包括全部資料，na.rm=TRUE允許資料中有缺失weighted.mean(x，<weigth>)——加權平均值，weigth表示對應權值median——中值
quantile(x，probs=seq(<start>,<end>,<diff>))——計算百分位數，是五數總和的擴充套件，probs設定分位數分位點，用seq(0,1,0.2)設定，表示以樣本值*20%為間隔劃分資料。var（）——樣本方差（n-1）sd——樣本標準差（n-1）cov——協方差cor——相關矩陣fivenum(x,na.rm=TRUE)——五數總括：中位數，下上四分位數，最小值，最大值

數學函式

sum（x,y,z，na.rm=FALSE）——x+y+z，na.rm為TURE可以忽略掉na值資料sum（x>4）——統計向量x中數值大於4的個數rep（“LOVE！”，<times>）——重複times次，rep(1:3，c（1，2，3）)表示1個1，2個2，3個3組成的序列sqrt（）——開平方函式2^2 和 **——“^”冪運算abs（）——絕對值函式
'%%'——表示求餘
'%/%'——求商（整數）exp ： 2.71828…expm1 ：當x的絕對值比1小很多的時候，它將能更加正確的計算exp(x)-1log ：對數函式（自然對數）log10 ：對數（底為10）函式（常用對數）log2 ：對數（底為2）函式因為10>e>1，常用對數比自然對數更接近橫座標軸xlog1p()——log（1+p），用來解決對數變換時自變數p=0的情況。指數和對數的變換得出任何值的0次冪都是1特性：對數螺旋圖。當影象呈指數型增長時，常對等式的兩邊同時取對數已轉換成線性關係。sin ：正弦函式cos ：餘弦函式tan ：正切函式asin ：反正弦函式acos ：反餘弦函式atan ：反正切函式sinh ：超越正弦函式cosh ：超越餘弦函式tanh ：超越正切函式asinh ：反超越正弦函式acosh ：反超越餘弦函式atanh ：反超越正切函式logb ：和log函式一樣log1px ：當x的絕對值比1小很多的時候，它將能更加正確的計算log(1+x)gamma ： Γ函式（伽瑪函式）lgamma ：等同於log(gamma(x))ceiling ：返回大於或等於所給數字表達式的最小整數floor ：返回小於或等於所給數字表達式的最大整數trunc ：擷取整數部分round ：四捨五入signif(x,a) ：資料擷取函式 x：有效位 a：到a位為止圓周率用 ‘pi’表示crossprod(A,B)——A %*% t(B) ，內積tcrosspeod(A,B)——t(A) %*% B，外積%*%——內積，a1b1+a2b2+...+anbn=a*b*cos<a,b>，crossprod(x)表示x與x的內積。||x||2，矩陣相乘%o%——外積，a*b*sin<a,b>（矩陣乘法，叉積），tcrossprod(x,y)表示x與y的外積。*表示矩陣中對應元素的乘積！

正態分佈

dnorm（x，mean=0,sd=1,log=FALSE）——正態分佈的概率密度函式pnorm(x，mean=0,sd=1)——返回正態分佈的分佈函式·rnorm（n，mean=0.sd=1）——生成n個正態分佈隨機數構成的向量qnorm()——下分為點函式qqnorm（data）——畫出qq散點圖qqline（data）——低水平作圖，用qq圖的散點畫線qq.plot（<x>，main=''）——qq圖檢驗變數是否為正態分佈

簡單分析

summary()——描述統計摘要，和 Hmisc()包的describe()類似，會顯示NA值，四分位距是第1個（25%取值小於該值）和第3個四分位數（75%取值小於該值）的差值（50%取值的數值），可以衡量變數與其中心值的偏離程度，值越大則偏離越大。table(<datafame>$<var>)——統計datafame資料中屬性變數var的數值取值頻數(NA會自動去掉！)，列聯表
table(<data_var_1>, <data_var_2>)——比較兩個data_var，<data_var_1>為列，<data_var_2>為行，先列後行！xtabs(formular，data)——列聯表ftable( table())——三維列聯表prop.table()——統計所佔百分比例prop.table(table(<data_var_1>, <data_var_2>)，<int>)——比較兩個data_var所佔百分比，<int>填1位按行百分計算，2為列計算
margin.table( table()，<int> )——計算列聯表的邊際頻數（邊際求和）,<int>=1為按列變數addmargin.table（table()，<int>）——計算列聯表的邊際頻數（邊際求和）並求和,<int>=1為按列變數as.formula(<string>)——轉換為一個R公式，<string>是一個字串迴圈時的判斷語句：ifelse(<test>, <yes>, <no>)——if，else的變種，test是判斷語句,其中的判斷變數可以是一個向量！yes是True時的賦值，no是False時的賦值hist(<data>，prob=T，xlab='橫座標標題'，main='標題'，ylim=0:1，freq，breaks=seq(0,550,2))——prob=T表示是頻率直方圖，在直角座標系中，用橫軸每個小區間對應一個組的組距，縱軸表示頻率與組距的比值，直方圖面積之和為1；prob位FALSE表示頻數直方圖；ylim設定縱座標的取值範圍；freq為TRUE繪出頻率直方圖，counts繪出頻數直方圖，FALSE繪出密度直方圖。breaks設定直方圖橫軸取點間隔，如seq(0,550,2)表示間隔為2，從0到550之間的數值。density(<data>,na.rm=T)——概率密度函式（核密度估計，非引數估計方法），用已知樣本估計其密度,作圖為lines(density(data),col="blue")ecdf（data）——經驗分佈函式,作圖plot(ecdf(data),verticasl=FALSE,do.p=FALSE)，verticals為TRUE表示畫豎線，預設不畫。do.p=FALSE表示不畫點處的記號

假設檢驗

分佈函式

shapiro.test(data)——正態W檢驗方法，當p值大於a為正態分佈ks.test(x,y)——經驗分佈的K-S檢驗方法，比較x與y的分佈是否相同，y是與x比較的資料向量或者是某種分佈的名稱，ks.test(x, rnorm(length(x), mean(x), sd(x)))，或ks.test(x,"pnorm",mean(x),sd(x))chisq.test(x，y，p)——Pearson擬合優度X2（卡方）檢驗，x是各個區間的頻數，p是原假設落在小區間的理論概率，預設值表示均勻分佈,要檢驗其它分佈，比如正態分佈時先構造小區間，並計算各個區間的概率值，方法如下：brk<-cut(x,br=c(-6,-4,-2,0,2,4,6,8))#切分割槽間A<-table(brk)#統計頻數 p<-pnorm(c(-4,-2,0,2,4,6,8),mean(x),sd(x))#構造正態分佈函式p<-c(p[1],p[2]-p[1],p[3]-p[2],p[4]-p[3],p[5]-p[4],p[6]-p[5],p[7]-p[6])#計算各個區間概率值 chisq.test(A,p=p)

正態總體的均值方差

t.test(x，y，alternative=c("two.sided","less","greater")，var.equal=FALSE)——單個正態總體均值μ或者兩個正態總體均值差μ1-μ2的區間估計；alternative表示備擇假設：two.side（預設）是雙邊檢驗，less表示H1:μ<μ0，greater表示H1：μ>μ0的單邊檢驗(μ0表示原假設)；當var.equal=TRUE時，則是雙樣本方差相同的情況，預設為不同var.test(x，y)——雙樣本方差比的區間估計

獨立性檢驗（原假設H0：X與Y獨立）

chisq.test(x,correct=FALSE)——卡方檢驗，x為矩陣，dim(x)=c(2,2)，對於大樣本（頻數大於5）
fisher.test()——單元頻數小於5，列聯表為2*2

相關性檢驗（原假設H0：X與Y相互獨立）

cor.test（x,y,method=c("pearson","kendall","spearman")）——相關性檢驗，觀察p-value小於0.05則相關。method選擇相關性檢驗方法

秩

rank()——秩統計量cor.test（）——秩相關檢驗：Spearman，Kendallwilcox.test(x,y=NULL，mu,alternative，paired=FALSE，exact=FALSE,correct=FALSE，conf.int=FALSE)——秩顯著性檢驗（一個樣本來源於總體的檢驗，顯著性差異的檢驗），Wilcoxon秩和檢驗（非成對樣本的秩次和檢驗）,mu是待檢測引數，比如中值，paired邏輯變數，說明變數x，y是否為成對資料，exact說民是否精確計算P值，correct是邏輯變數，說明是否對p值採用連續性修正，conf.int是邏輯變數，給出相應的置信區間。uniroot(f，interval=c(1,2))——求一元方程根的函式，f是方程，interval是求解根的區間內，返回值root為解optimize(）或 optimise（）——求一維變數函式的極小點nlm（f，p）——求解無約束問題，求解最小值，f是極小的目標函式，p是所有引數的初值，採用Newton型演算法求極小，函式返回值是一個列表，包含極小值、極小點的估計值、極小點處的梯度、Hesse矩陣以及求解所需的迭代次數等。

顯著性差異檢驗（方差分析，原假設：相同，相關性）

mcnemar.test(x,y，correct=FALSE)——相同個體上的兩次檢驗，檢驗兩元資料的兩個相關分佈的頻數比變化的顯著性，即原假設是相關分佈是相同的。y是又因子構成的物件，當x是矩陣時此值無效。binom.test(x，n，p，alternative=c("two.sided","less","greater")，conf.level=0.95)——二項分佈，符號檢驗（一個樣本來源於總體的檢驗，顯著性差異的檢驗）aov（x~f）——計算方差分析表，x是與（因子）f對應因素水平的取值，用summary（）函式檢視資訊aov（x~A+B+A：B）——雙因素方差，其中X~A+B中A和B是不同因素的水平因子（不考慮互動作用），A：B代表互動作用生成的因子
p.adjust()——P值調整函式pairwise.t.test(x，g，p.adjust.method="holm")——多重t檢驗,p.adjust.method是P值的調整方法，其方法由p.adjust（）給出，預設值按Holm方法（”holm“）調整，若為”none“，表示P值不做任何調整。雙因素互動作用時g=A：B
shapiro.test（x）——資料的正態W檢驗bartlett.test（x~f，data）——Bartlett檢驗，方差齊性檢驗
kruskal.test（x~f，data）——Kruskal-Wallis秩和檢驗，非引數檢驗法，不滿足正態分佈friedman.test(x，f1，f2，data）——Friedman秩和檢驗，不滿足正態分佈和方差齊性，f1是不同水平的因子，f2是試驗次數的因子

常用模型

1、迴歸模型

lm（y~.，<data>）——線性迴歸模型，“.”代表資料中所有除y列以外的變數，變數可以是名義變數（虛擬變數，k個水平因子，生成k-1個輔助變數（值為0或1））summary（）——給出建模的診斷資訊：1、資料擬合的殘差（Residual standard error，RSE），殘差應該符合N（0，1）正態的，值越小越好2、檢驗多元迴歸方程係數（變數）的重要性，t檢驗法，Pr>|t|, Pr值越小該係數越重要（拒絕原假設）3、多元R方或者調整R2方，標識模型與資料的擬合程度，即模型所能解釋的資料變差比例，R方越接近1模型擬合越好，越小，越差。調整R方考慮迴歸模型中引數的數量，更加嚴格4、檢驗解釋變數x與目標變數y之間存在的依賴關係，統計量F，用p-value值，p值越小越好5、繪圖檢驗plot(<lm>)——繪製線性模型，和qq.plot誤差的正態QQ圖
6、精簡線性模型，向後消元法線性迴歸模型基礎lm（formula=x~y，data，subset）——迴歸分析，x是因變數（響應變數），y是自變數（指示變數），formular=y~x是公式，其中若是有x^2項時，應把公式改寫為y~I(x^2)，subset為可選擇向量，表示觀察值的子集。例：lm(Y ~ X1 + X2 + I(X2^2) + X1:X2, data = data)predict(lm(y~x)，new，interval=“prediction”，level=0.95)——預測，new為待預測的輸入資料，其型別必須為資料框data.frame，如new<-data.frame(x=7)，interval=“prediction”表示同時要給出相應的預測區間predict(lm(y~x))——直接用用原模型的自變數做預測，生成估計值篩選模型自變數lm.new<-update(lm.sol，sqrt(.)~.)——修正原有的迴歸模型，將響應變數做開方變換update（<lm>, .~. - x1）——移除變數x1後的模型
coef(lm.new)——提取回歸係數迴歸診斷1、正態性（QQ圖）plot(x,which)——迴歸模型殘差圖，which=1~4分別代表畫普通殘差與擬合值的殘差圖，畫正態QQ的殘差圖，畫標準化殘差的開方與擬合值的殘差圖，畫Cook統norm.test（）——正態性檢驗，p-value>0.05為正態
計量的殘差圖residuals()和resid()——殘差
rstandard()——標準化殘差rstudent()——學生化殘差influence.measures(model)——model是由lm或者glm構成的物件，對迴歸診斷作總括，返回列表中包括，廣義線性模型也可以使用
anova（<lm>）——簡單線性模型擬合的方差分析（確定各個變數的作用）anova（<lm1>,<lm2>）——比較兩個模型（檢驗原假設為不同）2、誤差的獨立性——car包提供Duerbin_Watson檢驗函式3、線性——car包crPlots（）繪製成分殘差圖（偏殘差圖）可以看因變數與自變數之間是否呈線性4、同方差性——car包ncvTest（）原假設為誤差方差不變，若拒絕原假設，則說明存在異方差性5、多重共線性——car包中的vif（）函式計算VIF方差膨脹因子，一般vif>2存在多重共線性問題異常點分析（影響分析）hatvalues（）和hat（）——帽子矩陣dffits（）——DFFITS準則cooks.distance()——Cook統計量，值越大越有可能是異常值點covratio（）——COVRATIO準則kappa（z，exact=FALSE）——多重共線性，計算矩陣的條件數k,若k<100則認為多重共線性的程度很小；100<=k<=1000則認為存在中等程度或較強的多重共線性；若k>1000則認為存在嚴重的多重共線性。z是自變數矩陣（標準化，中心化的？相關矩陣），exact是邏輯變數，當其為TRUE時計算精準條件數，否則計算近似條件數。用eigen（z）計算特徵值和特徵向量，最小的特徵值對應的特徵向量為共線的係數。step()——逐步迴歸，觀察AIC和殘差平方和最小，廣義線性模型也可以使用add1()——前進法
drop()——後退法stepAIC（sol,direction="backward"）——MASS包，可以實現逐步迴歸（向前、向後、向前向後）預測predict（<sol>，<newdataframe>，level=0.95，interval="prediction"）——迴歸預測，sol是模型，newdataframe是待預測資料框，level設定置信度，interval="prediction"表示結果要計算置信區間glm(formula，family=binomial（link=logit），data=data.frame)——廣義線性模型，logit預設為二項分佈族的連結函式，formula有兩種輸入方法，一種方法是輸入成功和失敗的次數，另一種像線性模型的公式輸入方式predict(glm()，data.frame(x=3.5)，type="response")——預測廣義線性迴歸模型，type=“response”表示結果為概率值，否則為預測值yinv.logit（）——預測值y的反logit，boot包的函式
glmnet（）——正則化glm函式，glmnet包，執行結果的行數越前正則化越強。其輸出結果的意義是：

1）DF是指明非0權重個數，但不包括截距項。可以認為大部分輸入特徵的權重為0時，這個模型就是稀疏的（sparse）。2）%Dev就是模型的R²3)超引數（lambda）是正則化引數。lambda越大，說明越在意模型的複雜度，其懲罰越大，使得模型所有權重趨向於0。

plot（lm(y~x)，which=1:4，caption=c(“Residuals vs Fitted”，“Normal Q-Q plot”，“Scale-Location plot”，“Cook's distance plot”)）——畫迴歸模型殘差圖，which為1表示畫普通殘差