R語言高階資料管理

阿新 • • 發佈：2018-11-19

數學函式

函式	描述
abs(x)	絕對值
sqrt(x)	平方根
ceiling(x)	不小於x的最小整數
floor(x)	不大於x的最大整數
trunc(x)	向0方向擷取整數部分
round(x,digits=n)	將x取為指定n位小數的數值， round(3.475, digits=2)返回值為 3.48
signif(x,digits=n)	將x取為指定n位有效位的數值
cos(x)、sin(x)、tan(x)	餘弦、正弦和正切
acos(x)、asin(x)、atan(x)	反餘弦、反正弦和反正切
cosh(x)、sinh(x)、tanh(x)	雙曲餘弦、雙曲正弦和雙曲正切
acosh(x)、asinh(x)、atanh(x)	反雙曲餘弦、反雙曲正弦和反雙曲正切
log(x,base=n)	以n為底的x的對數值
log(x) log10(x)	自然對數常用對數
exp(x)	指數函式

統計函式

函式	描述
mean()	平均值
median()	中位數
std()	標準差
var()	方差
mad()	絕對中位差
quantile()	分位數
range()	值域
sum()	求和
diff()	滯後差分，lag 用以指定滯後幾項。預設的 lag 值為 1x<- c(1, 5, 23, 29) diff(x)返回值為 c(4, 18, 6)
min()	最小值
max()	最大值
scale(x,center=TRUE, scale=TRUE)	為資料物件 x 按列進行中心化(center=TRUE)或標準化(center=TRUE,scale=TRUE)

概率函式

在R中，概率函式形如 :[dpqr]distribution_abbreviation()

其中第一個字母表示其所指分佈的某一方面:

d = 密度函式(density)
p = 分佈函式(distribution function)
q = 分位數函式(quantile function)
r = 生成隨機數(隨機偏差)

生成隨機種子

函式set.seed()。

生成多元正態資料

MASS包的mvrnorm()函式。

mvrnorm(n,mean,sigma)

其中n為樣本的大小，mean為均值，sigma為方差--協方差矩陣（或相關矩陣）。

字元處理函式

其他實用函式

將函式應用到矩陣和資料框

R中提供了一個apply()函式，可將一個任意函式“應用”到矩陣、陣列、資料框的任何維度上。

apply()函式的使用格式為:

apply(x, MARGIN, FUN, ...)

例項：一個數據問題的解決

問題：將學生的各科考試成績組合為單一的成績衡量指標，基於相對名次 (前20%、下20%、等等)給出從A到F的評分，根據學生姓氏和名字的首字母對花名冊進行排序。

options(digits = 2)    #小數點保留兩位

#構建資料
Student <- c("John Davis", "Angela Williams", "Bullwinkle Moose",
              "David Jones", "Janice Markhammer", "Cheryl Cushing",
              "Reuven Ytzrhak", "Greg Knox", "Joel England",
              "Mary Rayburn")
Math <- c(502, 600, 412, 358, 495, 512, 410, 625, 573, 522)
Science <- c(95, 99, 80, 82, 75, 85, 80, 95, 89, 86)
English <- c(25, 22, 18, 15, 20, 28, 15, 30, 27, 18)
roster <- data.frame(Student, Math, Science, English,
                     stringsAsFactors=FALSE)

#計算綜合得分
z <- scale(roster[,2:4])    #標準化進行統一量綱
score <- apply(z, 1, mean)
roster <- cbind(roster, score)

#對學生進行評分
y <- quantile(score, c(.8,.6,.4,.2))
roster$grade[score >= y[1]] <- "A"
roster$grade[score < y[1] & score >= y[2]] <- "B"
roster$grade[score < y[2] & score >= y[3]] <- "C"
roster$grade[score < y[3] & score >= y[4]] <- "D"
roster$grade[score < y[4]] <- "F"

#抽取姓氏和名字
name <- strsplit((roster$Student)," ")   #以空格為界將姓名拆分為姓氏和名
Lastname <- sapply(name, "[", 2)   
Firstname <- sapply(name, "[", 1)        #提取列表中每個成分的第一個元素，放入一個儲存名字 的向量Firstname
roster <- cbind(Firstname,Lastname, roster[,-1])

#按姓氏進行排序
roster <- roster[order(Lastname,Firstname),]     
roster


**************************************************************
    Firstname   Lastname Math Science English score grade
6      Cheryl    Cushing  512      85      28  0.35     C
1        John      Davis  502      95      25  0.56     B
9        Joel    England  573      89      27  0.70     B
4       David      Jones  358      82      15 -1.16     F
8        Greg       Knox  625      95      30  1.34     A
5      Janice Markhammer  495      75      20 -0.63     D
3  Bullwinkle      Moose  412      80      18 -0.86     D
10       Mary    Rayburn  522      86      18 -0.18     C
2      Angela   Williams  600      99      22  0.92     A
7      Reuven    Ytzrhak  410      80      15 -1.05     F

R語言高階資料管理

數學函式函式描述 abs(x) 絕對值 sqrt(x) 平方根 ceiling(x) 不小於x的最小整數 flo

R語言基本資料管理

建立新變數並整合到原來的資料框中： my_data <- transform(my_data, sum_x = x1 + x2, mean_x = (x1 + x2)/2) 變數的重編碼： lead

R語言學習（五）高階資料管理

（一）數值和字元處理函式數學函式：統計函式：輸入help（）可以檢視函式的具體用法 z <- mean(x) z <- mean(x,trim=0.05,na.rm=TRUE) ;;丟棄最大最小百分之5後的截尾平均書均值與標準

R教材4 高階資料管理

數值與字元處理函式數學函式，物件非單個數值時，會作用於每個數值絕對值abs() 平方根sqrt() 舍入小數round(,digits=) 對數 log(

R 語言之資料分析高階方法「GLM 廣義線性模型」

R語言︱大資料集下執行記憶體管理

如果建立一個filebacked.big.matrix，那麼需要指定backingfile的名稱和路徑+descriptorfile。可能多個big.matrix物件對應唯一一個descriptorfile，即如果descriptorfile改變，所以對應的big.matrix隨之改變；同樣，decripto

R語言-基本資料結構的用法

關鍵詞：向量、矩陣、陣列、資料框、因子、列表近期開始上手R語言，可能是出於對機器學習的興趣吧從而瞭解到這門語言；之前也看過人生苦短的Python，當然這兩門語言都是人工智慧技術中很好的工具；二者也存在一些相同之處，當然是除了開源之外的一些相同之處；本人蔘考的書籍是R語言實戰[

R語言——電視劇資料分析

對如下資料進行描述性分析，其中包括：最大值，最小值，中位數，眾數等，求表的行數、列數。讀入資料 > mydata<-read.csv("C:\\Users\\adwar\\Desktop\\soapdata.csv") 求表的行數： >

R語言大資料分析工具的安裝與應用

實驗名稱 R語言大資料分析工具的安裝與應用專業軟體工程姓名學

2-7 R語言基礎資料框

#資料框 > df <- data.frame(id=c(1,2,3,4),name=c("a","b","c","d"),gender=c(TRUE,TRUE,FALSE,FALSE))> nrow(df) #4行[1] 4 > ncol(df) #3列[1] 3

R語言_資料篩選高血壓患者

R語言篩選高血壓前期的患者 // #工作目標:讀取csv檔案，並篩選出平均收縮壓120~139或舒張壓80~89的患者（根據2010年中國高血壓指南） > //#檢視R語言的工作環境（檔案儲存位置） > getwd() > non_hypertension_04 <

員工離職案例預測--R語言--kaggle資料

需要安裝的包： library(plyr) # Rmisc的關聯包,若同時需要載入dplyr包，必須先載入plyr包 library(dplyr) # filter() library(ggplot2) # ggplot()

R教材3 資料管理

根據原物件建立新變數，物件=transform(物件,新變數) 變數的重編碼variable[condition]<-expression，變數的下標運算子設定條件，當condition為T時則執行賦值；within(物件,{新變數[原變數的判斷條件]=新值})，建立新物件，{}內

R語言將資料框中的字元型別數字轉換為數值

場景1 我現在有一個數據框datexpr，裡面的數字都是以字元型表示的,像這樣 > datexpr[1,1] [1] " 1.143773961" 現在我想把這個資料框中的字元型數字全部轉為數值型數字使用下面語句即可 datexpr2=as.data.fra

R語言定義資料框的行名和列名

假設有三組資料： > weight = c(150, 135, 210, 140) > height = c(65, 61, 70, 65) > gender = c("Fe","Fe","M","Fe") 據此，我們能夠得到資料框study： >

Advanced SAS Programming for R Users, Part 2 R語言高階SAS程式設計，第2部分 Lynda課程中文字幕

Advanced SAS Programming for R Users, Part 2 中文字幕針對R使用者的高階SAS程式設計，第2部分中文字幕Advanced SAS Programming for R Users, Part 2 面向R的高階SAS程式設計使用者可以探索

用R語言做資料清理

資料的清理如同列夫托爾斯泰所說的那樣：“幸福的家庭都是相似的，不幸的家庭各有各的不幸”，糟糕的噁心的資料各有各的糟糕之處，好的資料集都是相似的。一份好的，乾淨而整潔的資料至少包括以下幾個要素： 1、每一個觀測變數構成一列 2、每一個觀測物件構成一行 3、每一個型別的觀測單元構成一個表就像我

R語言的資料結構

R共有6種儲存資料的物件型別向量列表陣列資料框矩陣因子向量(Vectors) 向量是用於儲存數值型、字元型或邏輯型資料的一維陣列。執行組合功能的函式c()可用來建立向量。 # 建立一個向量 apple <-

R語言與資料探勘學習筆記(1)：資料探勘相關包的介紹

今天發現一個很不錯的部落格(http://www.RDataMining.com)，博主致力於研究R語言在資料探勘方面的應用，正好近期很想系統的學習一下R語言和資料探勘的整個流程，看了這個部落格的內容，心裡久久不能平靜。決定從今天開始，只要晚上能在11點之前把碗洗好，就花一個小時的時間學習部落格上的內容，並把

乾貨：用R語言進行資料提取的方法！

　資料提取是資料分析當中重要的一環，也是需要資料分析師耐心細心地做好。我們大聖眾包（www.dashengzb.cn）小編今天就和大家分享藍鯨的文章，如何通過R語言對資料進行提取分析，達到所需。　　讀取並建立資料表　　首先第一步是讀取資料，並建立名稱為lo

R語言高階資料管理

數學函式

統計函式

概率函式

生成隨機種子

生成多元正態資料

字元處理函式

其他實用函式

將函式應用到矩陣和資料框

例項：一個數據問題的解決

相關推薦