R語言編程藝術_第六章_因子和表

阿新 • • 發佈：2018-05-19

女性案例子列認識改變 posit 程序實現 style 各類

一、因子與水平

1、簡單直接的認識因子和水平

　　因子可以簡單的理解為包含了更多信息的向量。即因子=向量 + 水平。（當然實際上它們內部機理不同）。水平是對於向量中不同值的記錄，以下面代碼為例：

> x <- c(5, 12, 13, 12)
> x
[1]  5 12 13 12
> xf <- factor(x)
> xf
[1] 5  12 13 12
Levels: 5 12 13

　但是我們說到因子的長度時，則定義為數據的長度，而非水平的個數。

> length(xf)
[1] 4

　2、因子的增，刪，改，查（好了這裏其實只有增）

　在增加因子的水平時，我們需要提前插入，不能像矩陣或是列表那樣隨加隨到。

> x <- c(5,12,13,12)
> xf <- factor(x)
> xff <- factor(x, levels = c(5, 12, 13, 88))
> xff
[1] 5  12 13 12
Levels: 5 12 13 88

　　比如用下面的方法，就會提示非法插入。

xff[3] <- 6
Warning message:
In `[<-.factor`(`*tmp*`, 3, value = 6) : invalid factor level, NA generated
> xff

二、因子的常用函數

　　1、tapply函數

　　典型的tapply函數用法為tapply(x, f, g)， x為向量，f為因子或因子列表，g（）為所需要對x運用的函數。

　　tapply函數的執行操作的流程：先將x按照因子f來分組，得到若幹個子向量，然後針對每個子向量使用g（）函數，最後返回一個分好類的矩陣。

> ages <- c(25,26,55,37,21,42)
> affils <- c("R", "D", "D", "R", "U", "D")
> tapply(ages, affils, mean)
 D  R  U 
41 31 21

　　這個例子就是分別針對每個不同的黨派（民主黨，共和黨，無黨派）的人的年齡進行了求平均數。

　　然後下面的一個例子更進一步，在有兩個或兩個以上因子存在的情況下，也就是需要用因子列表來進行操作。

d <-  data.frame(list(gender = c("M", "M", "F", "M", "F", "F"), 
+                       age = c(47, 59, 21, 32, 33, 24), 
+                       income = c(55000, 88000, 32450, 76500, 123000, 45650)))
> d
  gender age income
1      M  47  55000
2      M  59  88000
3      F  21  32450
4      M  32  76500
5      F  33 123000
6      F  24  45650
> d$over25 <- ifelse(d$age > 25, 1, 0)
> d
  gender age income over25
1      M  47  55000      1
2      M  59  88000      1
3      F  21  32450      0
4      M  32  76500      1
5      F  33 123000      1
6      F  24  45650      0
> tapply(d$income, list(d$gender, d$over25), mean)
      0         1
F 39050 123000.00
M    NA  73166.67

　上面的程序實現的功能是：分別按照性別和年齡（兩個因子）來求收入的平均水平。所以就分成了四個子向量：

25歲以下男性
25歲以下女性
25歲以上男性
25歲以上女性

　　而這裏比較巧妙的就是在於對加了一列“over 25”來對年齡做一個簡單的區分，這就極大的方便了後面的tapply（）使用。

2、split ()函數

　　split()執行的功能是將向量按照因子水平分組，然後返回一個列表。繼續對上面的數據框d操作。

split(d$income, list(d$gender, d$over25))
$F.0
[1] 32450 45650

$M.0
numeric(0)

$F.1
[1] 123000

$M.1
[1] 55000 88000 76500

　　另一個關於鮑魚性別的問題，我們可以通過split函數快速知道哪幾個位置分別是什麽性別的鮑魚。

split(1:7, g)
$F
[1] 2 3 7

$I
[1] 4

$M
[1] 1 5 6

　　3、by() 函數

　　by() 函數和tapply()的作用方式類似，但是它的作用對象不僅僅是向量，可以說矩陣或數據框。下面一個就是利用by()函數做回歸分析的例子。讀取的文件來自於課本附屬的鏈接（可惜的是數據太太太殘缺了）

> aba2 <- read.csv("E:/files_for_R/abalone.data", header = F)
> #read.table vs .csv ：.table默認文件內容用“/”分隔，“.csv"默認為","
> colnames(aba2) <-  c("gender", "length", "diameter","height","wholewt", "shuckedwt", "viscwt", "shellwt", "rings")
> by(aba2, aba2$gender, function(m) lm(m[,2]~m[,3]))
aba2$gender: F

Call:
lm(formula = m[, 2] ~ m[, 3])

Coefficients:
(Intercept)       m[, 3]  
    0.04288      1.17918  

--------------------------------------------------------- 
aba2$gender: I

Call:
lm(formula = m[, 2] ~ m[, 3])

Coefficients:
(Intercept)       m[, 3]  
    0.02997      1.21833  

--------------------------------------------------------- 
aba2$gender: M

Call:
lm(formula = m[, 2] ~ m[, 3])

Coefficients:
(Intercept)       m[, 3]  
    0.03653      1.19480

　　書裏邊給的數據不完整，少了一個header，所以自己給加了一段。自己發揮的如下。

colnames(aba2) <-  c("gender", "length", "diameter","height","wholewt", "shuckedwt", "viscwt", "shellwt", "rings")三

三、表的操作

1、關於R語言中的table函數

到目前為止我們一共遇到過兩個與table有關的函數: 一個是read.table()，另一個是table()。read.table()用以讀取數據文件，默認分隔符為“ ”；table()函數則是對因子或因子的列表進行處理，從而獲得一個列聯表，也就是一種記錄頻數的方法。

2、table()函數詳細操作

首先我們先得到這樣子一個數據框

> ct <- data.frame( 
+   Vote.for.X = factor(c("yes", "yes", "no", "not sure", "no")),
+   Voted.for.X = factor(c("yes", "no", "no", "yes", "no"))
+   )

> ct
  Vote.for.X Voted.for.X
1        yes         yes
2        yes          no
3         no          no
4   not sure         yes
5         no          no

　　使用table（）函數進行處理之後，就得到了如下的頻數表。

> cttab <- table(ct)
> cttab
          Voted.for.X
Vote.for.X no yes
  no        2   0
  not sure  0   1
  yes       1   1

　　同樣的，若果你有三維的數據，table() 可以以兩維的表格的形式打出來。這裏並不想再舉例了（懶。。。。。）

3、表中有關矩陣和類似數組的操作

　　3.1 訪問單元格頻數

這裏的操作其實和列表一樣。依然以上面的cttab為例。

> class(cttab)
[1] "table"
> cttab[,1]
      no not sure      yes 
       2        0        1 
> class(cttab)
[1] "table"
> cttab[,1]
      no not sure      yes 
       2        0        1 
> cttab[1,1]
[1] 2

　　3.2 等比例改變單元格頻數

> cttab/5
          Voted.for.X
Vote.for.X  no yes
  no       0.4 0.0
  not sure 0.0 0.2
  yes      0.2 0.2

　　3.3 得到表的邊界值

變量的邊界值：保持該變量為常數時對其他變量對應的數值求和所得到的值。
比較直接的方法是直接通過apply( )函數來實現。

> apply(cttab, 1, sum)
      no not sure      yes 
       2        1        2

　更加直接的方法是利用添加邊界值的函數 addmargins( ),直接多出兩個維度的邊界值

> addmargins(cttab)
          Voted.for.X
Vote.for.X no yes Sum
  no        2   0   2
  not sure  0   1   1
  yes       1   1   2
  Sum       3   2   5

　4、擴展案例：在表中尋找頻數最高的單元格

整個函數的設計思路可以按照以下路徑來：

添加新的一列Freq來表示各類數據的頻數（這可以通過as.data.frame來實現）
對各行按照頻數大小進行排序（通過order()函數來實現)
按照要求區前k行。
具體代碼如下：

tabdom <- function(tbl, k){
#create a data frame representing tbl, add a Freq column 
 tablframe <- as.data.frame(tbl)
#determine the proper position of the frequencies in an ordered frequency
#rearrange the data frame, get the first k rows
  tblfreord <- order(tablframe$Freq, decreasing = TRUE)
  dom <- tablframe[tblfreord,][1:k,]
  return(dom)
}

R語言編程藝術_第六章_因子和表

女性案例子列認識改變 posit 程序實現 style 各類一、因子與水平 1、簡單直接的認識因子和水平　　因子可以簡單的理解為包含了更多信息的向量。即因子=向量 + 水平。（當然實際上它們內部機理不同）。水平是對於向量中不同值的記錄，以下面代碼為例： >

R語言編程藝術_第六章_因子和表

R語言編程藝術_第六章_因子和表

《R語言編程藝術》中文版PDF+英文版PDF+源代碼

核心編程第二版第六章習題

python編程快速上手第六章實踐項目參考code

Python核心編程第二版第六章課後練習

《Linux命令行與shell腳本編程大全》第六章環境變量

Java編程基礎篇第六章

java並發編程實戰：第六章----任務執行

【資料分析 R語言實戰】學習筆記第六章引數估計與R實現（上）

91、R語言編程基礎

JavaScript DOM 編程藝術（第2版）---P9

代寫數據結構C語言代寫、代寫順序表、鏈表C/C++編程作業、代寫C/C++Data Structures、代寫R語言編程作業

《Java並發編程實戰》第十章避免活躍性危急讀書筆記

《Java並發編程實戰》第五章同步容器類讀書筆記

《Java並發編程實戰》第三章對象的共享讀書筆記

Java編程思想 4th 第2章一切都是對象

Python核心編程第二版第十章課後答案

讀《Go並發編程實戰》第4章流程控制方式

《Linux命令行與shell腳本編程大全》第十章使用編輯器

《shell編程實戰》第2章shell腳本入門

R語言編程藝術_第六章_因子和表

相關推薦