R語言的資料結構

阿新 • • 發佈：2018-12-19

R共有6種儲存資料的物件型別

向量
列表
陣列
資料框
矩陣
因子

R中的資料結構

向量(Vectors)

向量是用於儲存數值型、字元型或邏輯型資料的一維陣列。執行組合功能的函式c()可用來建立向量。

# 建立一個向量
apple <- c('red','green',"yellow")
num <- c(12, 23, 34, 56, 78, 83)
print(apple)
print(num)

# 查看向量的型別.
print(class(apple))

[1] "red"    "green"  "yellow"
[1] 12 23 34 56 78 83
[1] "character"

** !!! 單個向量中，資料的型別必須是相同的**

# 向量元素的選取

# 與其他程式語言索引從0計數不同的是，R語言的索引從1開始計數
num[1]

# 選取多個元素
num[1:3]

# 索引前加 - 號代表除去這個元素的其他元素，可以看到結果中沒有第二個元素
apple[-2]

# 選取除了第2個和第3個元素外的其他元素
num[-(2:3)]

12
12 23 34
'red' 'yellow'
12 56 78 83

矩陣(Matrix)

矩陣是一個二維陣列，只是每個元素都擁有相同的模式（數值型、字元型或邏輯型）。可通過函式matrix建立矩陣。

# matrix(data = ,nrow = n,ncol = n,byrow = ,dimnames =list(row_vector,col_vector) )
# data包含了矩陣的元素
# nrow和ncol用以指定行和列的維數
# dimnames包含了可選的、以字元型向量表示的行名和列名
# byrow則表明矩陣應當按行填充（byrow=TRUE）還是按列填充（byrow=FALSE），預設情況下按列填充。

# Create a matrix.
M = matrix( num, nrow = 2, ncol = 3, byrow = TRUE, dimnames = list(c('人口','面積'),c('北京','廣州', '上海')))
print(M)

     北京 廣州 上海
人口   12   23   34
面積   56   78   83

M1 <- matrix(1:20, nrow=5, ncol=4)
print(M1)

     [,1] [,2] [,3] [,4]
[1,]    1    6   11   16
[2,]    2    7   12   17
[3,]    3    8   13   18
[4,]    4    9   14   19
[5,]    5   10   15   20

# 矩陣元素選取

# 選取列
M1[,2]

# 選取行
M1[1,]

# 選取單個元素
M1[3,4]

# 選取符合要求的元素
M1[M1>10]

6 7 8 9 10
1 6 11 16
18
11 12 13 14 15 16 17 18 19 20

資料框(data frame)

資料框是表格資料物件。與矩陣一樣都是二維的，但是不同的是每列可以包含不同的資料模式。第一列可以是數字，而第二列可以是字元，第三列可以是邏輯的。它是等長度的向量的列表。

df <- data.frame(
   gender = c("Male", "Male","Female"), 
   height = c(152, 171.5, 165), 
   weight = c(81,93, 78),
   Age = c(42,38,26)
)
df

gender	height	weight	Age
Male	152.0	81	42
Male	171.5	93	38
Female	165.0	78	26

patientID <- c(1, 2, 3, 4)
age <- c(25, 34, 28, 52)
diabetes <- c("Type1", "Type2", "Type1", "Type1")
status <- c("Poor", "Improved", "Excellent", "Poor")
patientdata <- data.frame(patientID, age, diabetes, status)
patientdata

patientID	age	diabetes	status
1	25	Type1	Poor
2	34	Type2	Improved
3	28	Type1	Excellent
4	52	Type1	Poor

# 索引列
print(df$gender)
print(df[,2])
print(df[1:2])
print(df[['Age']])

[1] Male   Male   Female
Levels: Female Male
[1] 152.0 171.5 165.0
  gender height
1   Male  152.0
2   Male  171.5
3 Female  165.0
[1] 42 38 26

# 索引行
print(df[2:3,])

  gender height weight Age
2   Male  171.5     93  38
3 Female  165.0     78  26

# 特定條件索引
df[df$Age > 30]

gender	height	Age
Male	152.0	42
Male	171.5	38
Female	165.0	26

# 索引元素
print(patientdata[1,3])   # 第一列第三行

print(df$Age[1])    # Age列第一行

print(df[[2]][1])  # 第二列第一行

print(df[['Age']][1])  # Age列第一行

[1] Type1
Levels: Type1 Type2
[1] 42
[1] 152
[1] 42

# 生成成糖尿病型別變數diabetes和病情變數status的列聯表
table(patientdata$diabetes, patientdata$status)

        Excellent Improved Poor
  Type1         1        0    2
  Type2         0        1    0

陣列(Array)

雖然矩陣被限制為二維，但陣列可以具有任何數量的維度。陣列函式使用一個dim屬性建立所需的維數。在下面的例子中，我們建立了一個包含兩個元素的陣列，每個元素為3x3個矩陣。

# Create an array.
a <- array(c('green','yellow'),dim = c(3,3,2))
print(a)

, , 1

     [,1]     [,2]     [,3]    
[1,] "green"  "yellow" "green" 
[2,] "yellow" "green"  "yellow"
[3,] "green"  "yellow" "green" 

, , 2

     [,1]     [,2]     [,3]    
[1,] "yellow" "green"  "yellow"
[2,] "green"  "yellow" "green" 
[3,] "yellow" "green"  "yellow"

dim1 <- c("A1", "A2")
dim2 <- c("B1", "B2", "B3")
dim3 <- c("C1", "C2", "C3", "C4")
z <- array(1:24, c(2,3,4), dimnames=list(dim1, dim2, dim3))
print(z)

, , C1

   B1 B2 B3
A1  1  3  5
A2  2  4  6

, , C2

   B1 B2 B3
A1  7  9 11
A2  8 10 12

, , C3

   B1 B2 B3
A1 13 15 17
A2 14 16 18

, , C4

   B1 B2 B3
A1 19 21 23
A2 20 22 24

陣列的索引同矩陣，只不過下標從2個變成了3個，陣列同矩陣一樣，資料型別必須一樣

因子(Factors)

我們都知道，變數的型別可以分為如下幾種

類別變數（定性變數）
- 無序類別變數（名義值）：類別無法排序，沒有順序關係，比如行業類別，性別
- 有序類別變數（順序值）：類別之間有順序關係，比如等級，評價‘差’，‘一般’，‘很好’
數值變數（定量變數）
- 離散變數（有限值）：只能去有限個值的變數，可以一一列舉。
- 連續變數（無限值）：在一個或多個區間內取任何值，連續不斷不可一一列舉，比如溫度，身高。

類別變數在R中被稱為因子，函式factor()以一個整數向量的形式儲存類別值，整數的取值範圍是[1-k ]（其中k 是名義型變數中唯一值的個數），同時一個由字串（原始值）組成的內部向量將對映到這些整數上。這種做法類似於python特徵分子中的將類別變數dummy化

對於有序變數，我們還可以指定變數對應的編碼，使編碼與邏輯順序相一致，比如low,mid,high對應1,2,3

patientID <- c(1, 2, 3, 4)
age <- c(25, 34, 28, 52)
diabetes <- c("Type1", "Type2", "Type1", "Type1")
status <- c("Poor", "Improved", "Excellent", "Poor")
diabetes <- factor(diabetes)
status <- factor(status, order=TRUE)  # order=TRUE R將此變數當做有序變數對待
patientdata <- data.frame(patientID, age, diabetes, status)
str(patientdata）   # 資料的資訊，相當於pandas中的info
summary(patientdata)  # 描述性統計
# 可以看到，描述性統計中，R對數值型分析了最大最小值等，而對因子採用了頻數統計。

'data.frame':	4 obs. of  4 variables:
 $ patientID: num  1 2 3 4
 $ age      : num  25 34 28 52
 $ diabetes : Factor w/ 2 levels "Type1","Type2": 1 2 1 1
 $ status   : Ord.factor w/ 3 levels "Excellent"<"Improved"<..: 3 2 1 3



   patientID         age         diabetes       status 
 Min.   :1.00   Min.   :25.00   Type1:3   Excellent:1  
 1st Qu.:1.75   1st Qu.:27.25   Type2:1   Improved :1  
 Median :2.50   Median :31.00             Poor     :2  
 Mean   :2.50   Mean   :34.75                          
 3rd Qu.:3.25   3rd Qu.:38.50                          
 Max.   :4.00   Max.   :52.00

# 如果變數的預設順序不是按照邏輯順序排列的，比如status如果是按照improved,poor,excellent排列，
# 那麼預設的順序就無法代表真實邏輯順序。
# 因此，可以新增levels變數
status <- factor(status,order=TRUE,levels = c("poor", "improved", "excellent"))
# 這樣就相當於指定了順序，任何在資料中出現而未在引數中列舉的資料都將被設為缺失值

列表

R中的列表比較像python中的列表，列表中的元素可以是單個字元，數值，也可以是向量，矩陣，陣列等
列表就是一些物件的有序集合

# Create a list.
list1 <- list(c(2,5,3),21.3,sin)

# Print the list.
print(list1)

[[1]]
[1] 2 5 3

[[2]]
[1] 21.3

[[3]]
function (x)  .Primitive("sin")

g <- "My First List"
h <- c(25, 26, 18, 39)
j <- matrix(1:10, nrow=5)
k <- c("one", "two", "three")
mylist <- list(title=g, ages=h, j, k)
print(mylistlist)

$title
[1] "My First List"

$ages
[1] 25 26 18 39

[[3]]
     [,1] [,2]
[1,]    1    6
[2,]    2    7
[3,]    3    8
[4,]    4    9
[5,]    5   10

[[4]]
[1] "one"   "two"   "three"

mylist[['ages']]  # 輸出ages
mylist[[2]]   # 輸出第二個元素

25 26 18 39
25 26 18 39

處理資料的常用函式

length(object) 
# 顯示物件中元素/成分的數量

dim(object)     
# 顯示某個物件的維度

str(object)     
# 顯示某個物件的結構

class(object)     
# 顯示某個物件的類或型別

mode(object)     
# 顯示某個物件的模式

names(object)     
# 顯示某物件中各成分的名稱

c(object, object,…)     
# 將物件合併入一個向量

cbind(object, object, …) 
# 按列合併物件

rbind(object, object, …) 
# 按行合併物件

Object 
# 輸出某個物件

head(object) 
# 列出某個物件的開始部分

tail(object) 
# 列出某個物件的最後部分

ls() 
# 顯示當前的物件列表

rm(object, object, …) 
# 刪除一個或更多個物件。語句rm(list = ls())將刪除當前工作環境中的幾乎所有物件,以句點.開頭的隱藏物件將不受影響

newobject <- edit(object) 
# 編輯物件並另存為newobject

fix(object) 
# 直接編輯物件

R語言-資料結構

主站：https://lartpang.github.io/ 之前一陣子，在EDX上學習了R語言的一門基礎課程，這裡做個總結。這門課程主要側重於R的資料結構的介紹，當然也介紹了它的基本的繪圖手段。工作空間相關 ls() ## character(0) rm

R語言資料結構

向量向量是用於儲存數值型、字元型或邏輯型資料的一維陣列。單個向量中的資料必須擁有相同的型別或模式（數值型、字元型或邏輯型）。同一向量中無法混雜不同模式的資料。例如 a <- c(1,2,5,3,6,-2,4) 通過在方括號中給定元素所處位置的數值，我們可以訪

R語言資料結構2—matrix

矩陣矩陣是一個二維陣列，只是每個元素都擁有相同的模式（數值型、字元型或邏輯型）。可通過函式matrix建立矩陣。一般使用為： matrix(vector = , nrow = , ncol = , byrow = ,dimnames = list(,)) 其中vec

R語言-資料框分組求平均值

【技術關鍵】 1、從excel把資料讀到資料框 2、演算法實現將資料框的一些資料合為新的資料並組成新的資料框 3、將處理結果，即新的資料框儲存到excel檔案（或.csv） 4、將繪圖結果輸出到PDF檔案儲存最近在嘗試分析近日的環境溫溼度變化；雖然裝置只運行了48小時左右；

R語言資料集取子集

保留變數： >newdata<-leadership[,c(6:10)] &

C語言資料結構——雙迴圈連結串列的插入操作順序

雙向連結串列與單鏈表的插入操作的區別雙向連結串列因為存在前驅指標和後繼指標所以需要修改的指標多於單鏈表，但指標改動的順序同樣重要單鏈表的插入 eg:在節點p的後面插入指標s s->next=p->next;//首先要使要插入的指標指向p->next p->next=s

C語言資料結構-二叉樹、哈夫曼、佇列小練習

原始碼地址 GitHub：https://github.com/GYT0313/C-DataStructure 1. 二叉樹要求：掌握二叉樹的二叉連結串列的建立方法；掌握二叉樹的3種遍歷遞迴演算法；掌握二叉樹的3種遍歷的非遞迴演算法。程式

Python語言資料結構和語言結構（2）

1. Python預備基礎變數的命名變數命名規則主要有以下幾條：變數名只能包含字母、數字和下劃線，其中下劃線和字母可以開頭，數字不行，即info_1可以，而1_info不行；變數名內不能包含空格，可以用下劃線替代，即info_1，而非info 1；不能與Pyt

基於30多萬條招聘資訊的熱門城市、地域、薪資、人才要求的R語言資料視覺化分析

又是一年畢業季，什麼工作好找、工資高、哪些地域有優勢等就是很多人關注的話題了。這裡用一份2017年初，含有32萬條資料（行）、19個詳細招聘資訊（列）的資料進行招聘資訊的知識發現、挖掘。資料部分截圖如下：需要完成的工作 1、資料預處理； 2、每個行業的招聘次數、平均工

C語言資料結構與演算法之深度、廣度優先搜尋

一、深度優先搜尋（Depth-First-Search 簡稱：DFS） 1.1 遍歷過程：　　（1）從圖中某個頂點v出發，訪問v。　　（2）找出剛才第一個被頂點訪問的鄰接點。訪問該頂點。以這個頂點為新的頂點，重複此步驟，直到訪問過的頂點沒有未被訪問過的頂點為止。　　（3）返回到

深度剖析Go語言資料結構

轉載地址 : http://www.open-open.com/lib/view/open1390373069882.html 當向一個新程式設計師解釋Go語言時，我發現如果解釋Go的資料是如何在記憶體中表示的，將有助於建立編寫高效程式的良好直覺。基礎型別讓我們從一些簡單的例

C語言資料結構——一步步教會你尾插法和頭插法

連結串列也是線性表的一種，與順序表不同的是，它在記憶體中不是連續存放的。在C語言中，連結串列是通過指標相關實現的。而單鏈表是連結串列的其中一種，關於單鏈表就是其節點中有資料域和只有一個指向下個節點的指標域。建立單鏈表的方法有兩種，分別是頭插法和尾插法。所謂頭插法，就是按節點的

c語言資料結構之順序表

c語言資料結構之順序表：順序表的結構跟陣列比起來還是很像的，相比於連結串列，資料表的優勢主要體現在他的查詢速度上，而連結串列的優勢相反，查詢速度慢，但對於插入一個數據來說還是比較快的下面我們就來建立一個順序表 1：定義資料型別，我定義的是一個學生的結構體型別，首

分享《R語言資料分析與挖掘實戰(張良均等)》中文PDF+原始碼

下載：https://pan.baidu.com/s/1I7hm-LP5H3-57vsUjOxeNw 更多資料分享：https://pan.baidu.com/s/1g4hv05UZ_w92uh9NNNkCaA 《R語言資料分析與挖掘實戰(張良均等)》PDF+原始碼 PDF，339頁。配套資料與原始