R語言對資料的部分操作

阿新 • • 發佈：2019-02-02

1、R語言定義：

【百度百科】R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、原始碼開放的軟體，它是一個用於統計計算和統計製圖的優秀工具。

2、讀資料：

data <- read.csv("檔名.csv",header=T,check.names=FALSE)

讀入的而檔案存在data.frame（資料框裡面）

注意：此時資料框裡面資料的型別可能是任意型別，可以用str（data）檢視資料框的各個屬性情況

3、資料處理：

資料型別屬性：返回值為true或false

is.numeric() 是否數值型資料

is.character() 是否字元型資料

is.vector() 是否向量資料

is.matrix() 是否矩陣資料

is.data.frame() 是否資料框資料

is.factor() 是否因子資料

is.logical() 是否邏輯型資料

屬性型別轉換：返回相應的型別

as.numeric() 轉化為數值型別

as.character() 轉化為字元（字串）型別

as.vector() 轉化為向量型別

as.matrix() 轉化為矩陣

as.data.frame() 轉化為資料框

as.factor() 轉化為因子

as.logical() 轉化為邏輯

4、資料篩選：

直接選擇某行某列，和矩陣一樣：data[row1:row2,col1:col2] / data[ , ]

用which 語句： data[[which(條件)]，] ，如 data[which(data$name %in% MAP)，]（有時當條件值有幾個重複資料的時候，只能選出出現的第一個資料，例如，data.frame中name “sun”對應的資料出現多次{}sun ming，sun zhe ，sun hhh}，但是以“sun”作為篩選條件時，只能篩選出“sun ming”）

用sql語句：library（sqldf）；res<-sqldf(" select * from data where 條件")

對於出現的篩選條件重複的情況下，可以採用filter（）：library（dplyr）；res<- filter(data, 屬性==條件)

as.numeric() 轉化為數值型別

as.character() 轉化為字元（字串）型別

as.vector() 轉化為向量型別

as.matrix() 轉化為矩陣

as.data.frame() 轉化為資料框

as.factor() 轉化為因子

as.logical() 轉化為邏輯

R語言對資料的部分操作

1、R語言定義：【百度百科】R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、原始碼開放的軟體，它是一個用於統計計算和統計製圖的優秀工具。2、讀資料：data <- read.csv("檔名.csv",header=T,check.names=

利用R語言對資料行列轉制

使用軟體：R語言，mysql 使用系統：ubuntu16.04 使用效果前後對比: 使用前 x1 x2 y a A 1 b B 2 c C 3 a A 4 使

R語言對資料框按某一列分組求組內平均值

可使用aggregate函式，如： aggregate(.~ID,data=這個資料框名字，mean) 如果是對資料框分組，組內有重複的項，對於重複項保留最後一行資料用： pcm_df$du

R語言學習(四)——對資料進行操作

判斷變數的屬性 is.character(x) #判斷是否為字元型 is.numeric(x) #判斷是否為數值型 is.vector(x) #判斷是否為一個向量 is.matrix(x) #判斷是否為一個

用R語言對網路資料進行統計分析(五)

網路圖特徵的描述性統計簡介在對給定的複雜系統的研究中，利益問題通常可以用作為對相應的網路圖的結構或特徵的某些方面的問題的方式來重新表述。例如，各種型別的基本社會動力學可以用三重頂點來表示；涉及資訊或商品的移動的問題通常對應網路圖的路徑，沿著這

R語言對MNIST資料集分析：探索手寫數字分類

資料科學和機器學習之間區別的定義：資料科學專注於提取洞察力，而機器學習對預測有興趣。我還注意到這兩個領域大相徑庭：我在我的工作中同時使用了機器學習和資料科學：我可能會使用堆疊溢位流量資料的模型來確定哪些使用者可能正在尋找工作（機器學習），但是會構建摘要和視覺化來檢查為什麼（資

R語言-基本資料結構的用法

關鍵詞：向量、矩陣、陣列、資料框、因子、列表近期開始上手R語言，可能是出於對機器學習的興趣吧從而瞭解到這門語言；之前也看過人生苦短的Python，當然這兩門語言都是人工智慧技術中很好的工具；二者也存在一些相同之處，當然是除了開源之外的一些相同之處；本人蔘考的書籍是R語言實戰[

R語言——電視劇資料分析

對如下資料進行描述性分析，其中包括：最大值，最小值，中位數，眾數等，求表的行數、列數。讀入資料 > mydata<-read.csv("C:\\Users\\adwar\\Desktop\\soapdata.csv") 求表的行數： >

R語言大資料分析工具的安裝與應用

實驗名稱 R語言大資料分析工具的安裝與應用專業軟體工程姓名學

C#Queue<T>（佇列）對資料的操作

C裡的佇列進行資料操作很方便的，佇列根據先進先出的原則（就是第一個存進去的資料，可以第一個拿到），通過佇列的屬性可以拿到佇列裡的最小值和最大值，也可以計算資料的SUM，還可以通過某一個數進行排序，等等吧，大家有興趣可以研究下。下面我就直接寫程式碼展示一些基本的操作。程式碼： using S

2-7 R語言基礎資料框

#資料框 > df <- data.frame(id=c(1,2,3,4),name=c("a","b","c","d"),gender=c(TRUE,TRUE,FALSE,FALSE))> nrow(df) #4行[1] 4 > ncol(df) #3列[1] 3

R語言_資料篩選高血壓患者

R語言篩選高血壓前期的患者 // #工作目標:讀取csv檔案，並篩選出平均收縮壓120~139或舒張壓80~89的患者（根據2010年中國高血壓指南） > //#檢視R語言的工作環境（檔案儲存位置） > getwd() > non_hypertension_04 <

員工離職案例預測--R語言--kaggle資料

需要安裝的包： library(plyr) # Rmisc的關聯包,若同時需要載入dplyr包，必須先載入plyr包 library(dplyr) # filter() library(ggplot2) # ggplot()

R語言基本資料管理

建立新變數並整合到原來的資料框中： my_data <- transform(my_data, sum_x = x1 + x2, mean_x = (x1 + x2)/2) 變數的重編碼： lead

R語言高階資料管理

數學函式函式描述 abs(x) 絕對值 sqrt(x) 平方根 ceiling(x) 不小於x的最小整數 flo

R語言將資料框中的字元型別數字轉換為數值

場景1 我現在有一個數據框datexpr，裡面的數字都是以字元型表示的,像這樣 > datexpr[1,1] [1] " 1.143773961" 現在我想把這個資料框中的字元型數字全部轉為數值型數字使用下面語句即可 datexpr2=as.data.fra

R語言定義資料框的行名和列名

假設有三組資料： > weight = c(150, 135, 210, 140) > height = c(65, 61, 70, 65) > gender = c("Fe","Fe","M","Fe") 據此，我們能夠得到資料框study： >

R語言開發之陣列操作了解下

陣列是可以在二維及以上儲存資料的R資料物件，例如 - 如果建立一個維陣列(2,3,4)，那麼它將建立4個矩形矩陣，每個矩陣具有2行和3列並且陣列只能儲存資料型別。我們可通過使用array()函式來建立

利用 R 語言對使用者進行深度挖掘

作者簡介：謝佳標樂逗遊戲高階資料分析師，負責大資料探勘及視覺化。資深 R 語言使用者，有九年以上資料探勘工作實戰經驗，多次在中國 R 語言大會上作主題演講。與張良均老師、楊坦老師合著的《R 語言與資料探勘》一書已在 2016 年 7 月出版，新書《R 語言遊戲資料分析》一書也即將於 2

用R語言做資料清理

資料的清理如同列夫托爾斯泰所說的那樣：“幸福的家庭都是相似的，不幸的家庭各有各的不幸”，糟糕的噁心的資料各有各的糟糕之處，好的資料集都是相似的。一份好的，乾淨而整潔的資料至少包括以下幾個要素： 1、每一個觀測變數構成一列 2、每一個觀測物件構成一行 3、每一個型別的觀測單元構成一個表就像我

R語言對資料的部分操作

相關推薦