R語言生存分析

阿新 • • 發佈：2018-11-08

文章目錄

R語言進行生存分析

1.下載示例資料
2.R語言程式碼例項詳解
3.難點解讀
4.補充：如何用R語言手動計算生存率

R語言進行生存分析

1.下載示例資料

2.R語言程式碼例項詳解

#示例資料輸入
clinical <- read.table("clinical_clust.txt",header = T, row.names = 1, sep = "\t", check.names = F, na.strings = "", fill = T, stringsAsFactors = F)
RPPA_Hierclust <- read.table("RPPA_Hierclust_clusters.txt", header = T, stringsAsFactors = F)

#將兩個檔案需要的資料組合抽取並組合在一起
n_censor <- clinical[6,]
clinical[6,which(n_censor == "DECEASED")] <- 0
clinical[6,which(n_censor != "DECEASED")] <- 1
clinical_json <- clinical[c(6, 3, 2, 1),]
rownames(clinical_json) <- c("n_censor", "n_event", "surv", "time")
colnames(clinical_json) <- NULL
t_clinical_json <- t(clinical_json)
t_clinical_json <- apply(t_clinical_json, 2, as.numeric) #將雙引號去除
t_surv <- t_clinical_json
t_surv <- cbind(t_surv, as.matrix(RPPA_Hierclust$cluster))
colnames(t_surv)[5] <- "clust"

#用R語言對上述資料進行生存分析
library(survival)
#第一步：用Surv生成一個 survival object####
Sur_obj <- Surv(t_surv[,4], t_surv[,2])
  #第一個引數是time，生存時間，對於右截尾資料，這是follow up time
  #第二個引數是event, 即the status indicator, normally 0=alive,1=dead
  
#第二步：用survfit創造生存曲線模型####
model <- survfit(Sur_obj~1) #如果用所有的資料，不進行分組，則後面引數用1
model_1 <- survfit(Sur_obj~t_surv[,5]) #如果用聚類結果進行分組，則後面寫分組的結果

#第三步：用survdiff計算兩條或者多條生存曲線的差異顯著性####
km <- survdiff(Surv_obj~t_surv[,5])

#第四步：結果的形象化展示(結果展示見程式碼後面）
plot(model)
plot(model_2) #可以展示，但是結果美觀程度不夠
library(survminer) #用survminer進行漂亮的展示
ggsurvplot(model_2, main = "Survival curve", data = t_surv,
           pval=TRUE  #新增P值
)

plot(model)圖片
在這裡插入圖片描述
plot(model_2)圖片

ggsurvplot(model_2) 圖片

3.難點解讀

理解用R語言進行生存分析的大綱
（1）用Surv 生成survival object
（2）用survfit 生成擬合的生存曲線
（3）用survdiff 計算兩條或者兩條以上生存曲線的差異表達值
（4）用適當的方法展示生存曲線
P值雖然可以較好的展示出來，但是將P_value進行輸出並不容易，下面展示P_value 的輸出

km <- survdiff(Surv_obj~t_surv[,5])
p.value <- 1 - pchisq(km$chisq, length(km$n) - 1) #用chisq值和自由度的結果自行計算P.value
print(p.value)

3.關於生存分析系列概念的理解，可以參考部落格：生存分析，裡面有非常詳細的講解

4.補充：如何用R語言手動計算生存率

#延續上述資料輸入，將資料按照time進行排序，計算生存率並替換第三列的資料
#將surv行變成生存率
clust_unique <- unique(RPPA_Hierclust$cluster)
clinical_clust <- NULL
for (i in 1:length(clust_unique)){
  i_station <- which(RPPA_Hierclust$cluster == i)
  t_clinical_json_clust <- t_clinical_json[i_station, ]
  
  #將t_clinical_json 按照time進行排序
  unique_sort <- unique(sort(t_clinical_json_clust[,4]))
  right_sort <- NULL
  for(n in 1:length(unique_sort)){
    right_sort <- c(right_sort, which(t_clinical_json_clust[,4] == unique_sort[n]))
  }
  t_clinical_json_clust <- t_clinical_json_clust[right_sort,]
  
  #將排序的後的資料計算生存率
  allpatiants <- nrow(t_clinical_json_clust)
  unique_time <- unique(t_clinical_json_clust[,4])
  P <- 1
  n <- allpatiants
  for(j in 1:length(unique_time)){
    time_position <- which(t_clinical_json_clust[,4] == unique_time[j])
    censor_sum <- sum(t_clinical_json_clust[time_position, 1])
    d <- sum(t_clinical_json_clust[time_position, 3])
    P <- P*((n-d)/n)
    n <- n-d-censor_sum 
    t_clinical_json_clust[time_position, 3] <- rep(P, length(time_position))
  }
   
  #put it into clinical_clust
  clinical_clust[[i]] <- list(t_clinical_json_clust)
}

R語言生存分析

文章目錄 R語言進行生存分析 1.下載示例資料 2.R語言程式碼例項詳解 3.難點解讀 4.補充：如何用R語言手動計算生存率 R語言進行生存分析 1.下載示例資料示例資料連線 2.R語言程

R語言生存分析

自己整理編寫的R語言常用資料分析模型的模板，原檔案為Rmd格式，直接複製貼上過來，作為個人學習筆記儲存和分享。部分參考薛毅的《統計建模與R軟體》和《R語言實戰》生存分析是研究生存時間的分佈規律，以及生存時間和相關因素之間關係的一種統計分析方法。生存分析在醫學科學研究中具有廣泛而重要的應

R語言統計分析技術研究——嶺回歸技術的原理和應用

gts 根據誤差 med 分享 jce not -c rt4 嶺回歸技術的原理和應用

R語言關聯分析之啤酒和尿布

mea mar 簡單 active 兩個 mark 情況 rgb efault 關聯分析概述啤酒和尿布的故事，我估計大家都聽過，這是數據挖掘裏面最經典的案例之一。它分析的方法就關聯分析。關聯分析，顧名思義，就是研究不同商品之前的關系。這裏就發現了啤酒和尿布這兩個看起來毫不相

R語言︱情感分析—詞典型代碼實踐（最基礎）（一）

text cto 關於 ora 訓練集其他查找 rap boa R語言︱情感分析—基於監督算法R語言實現筆記。可以與博客 R語言︱詞典型情感分析文本操作技巧匯總（打標簽、詞典與數據匹配等）對著看。詞典型情感分析大致有以下幾個步驟：訓練數據集、neg/pos情感

R語言迴歸分析函式說明

迴歸分析相關的函式 1、一元線性迴歸 lm() #計算beta0,beta1引數 summary() # 提取lm()引數資訊 anovn() #方差分析 predict() # 根據給出自變數預測因變數的值例： a=lm(y~1+x,data=…) #對x,y

R語言bootstrap分析（boot）

//## bootstrap分析資料,package = "boot" > library(boot) > city u x 1 138 143 2 93 104 3 61 69 4 179 260 5 48 75 6 37 63 7

R語言-錯誤分析-Error in .Call.graphics(C_palette2, .Call(C_palette2, NULL)) : invalid graphics state

plot時，出現的錯誤01 > ggplot(religions_long, + aes(State, value, fill = variable)) + + geom_bar(stat = "identity") + + coord_flip()

分享《R語言資料分析與挖掘實戰(張良均等)》中文PDF+原始碼

下載：https://pan.baidu.com/s/1I7hm-LP5H3-57vsUjOxeNw 更多資料分享：https://pan.baidu.com/s/1g4hv05UZ_w92uh9NNNkCaA 《R語言資料分析與挖掘實戰(張良均等)》PDF+原始碼 PDF，339頁。配套資料與原始

R語言探索性分析及plyr資料轉換包

R包dplyr可用於處理R內部或者外部的結構化資料，相較於plyr包，dplyr專注接受dataframe物件, 大幅提高了速度,並且提供了更穩健的資料庫介面。下面針對一些具體的例子介紹探索性分析和plyr資料轉換包統計diamonds（R語言自帶的資料

R語言判別分析

自己整理編寫的R語言常用資料分析模型的模板，原檔案為Rmd格式，直接複製貼上過來，作為個人學習筆記儲存和分享。部分參考薛毅的《統計建模與R軟體》和《R語言實戰》本文中分三個方法介紹判別分析，Bayes判別，距離判別，Fisher判別。前兩種判別方法都要考慮兩個、或多個總體協方差（這裡是

R語言因子分析

自己整理編寫的R語言常用資料分析模型的模板，原檔案為Rmd格式，直接複製貼上過來，作為個人學習筆記儲存和分享。部分參考薛毅的《統計建模與R軟體》和《R語言實戰》因子模型： X=μ + A*F* + ε 其中F=[(f1,f2,…,fm)]^T為公共因子向量，[ε=(ε1,ε2,…,ε

R語言統計分析篇

1.描述性統計分析（1）方法雲集通過summary，sapply（）計算描述性統計量 vars<-c("mpg","hp","wt") vars head(mtcars[vars]) #通過summary（）函式來獲取描述性統計量 summary(mtcars[

R語言判別分析小結

判別分析（discriminant analysis）是一種分類技術。它通過一個已知類別的“訓練樣本”來建立判別準則，並通過預測變數來為未知類別的資料進行分類。判別分析的方法大體上有三類，即距離判別、Fisher判別和Bayes判別和。距離判別思想是根據已知

R語言——資料分析的一把利劍

R語言，我把它稱之為資料分析的一把利劍。為什麼這麼說呢？先讓我們看一下，什麼是資料分析？所謂資料分析，就是以商業目的為驅動，所開展的獲取資料、處理資料、分析資料、展示資料和撰寫資料結構報告的一系列

R語言--關聯分析（問卷調查）

在R中用最經典的Apriori關聯演算法對問卷調查結果進行簡單的關聯分析，包括對規則的篩選，輸出以及視覺化。主流程主流程包括4個部分，資料介紹，關聯分析主流程程式碼，主流程子程式碼，視覺化。資料介紹資料包含360份問卷對14個問題的答案，

【R語言資料分析】豆瓣電影R語言爬蟲和資料分析

主要內容： 1、r語言爬蟲 rvest包的使用。 2、r語言字串處理stringr包的使用。 3、r語言聚合dplyr 包的使用。 4、r語言視覺化ggplot 包的使用。 5、r語言畫詞雲圖worldcloud2 包的使用。 6、正則表示式 str

R語言數據分析系列之五

r語來看 tab barplot code 繪制 ber map lib R語言數據分析系列之五 —— by comaple.zhang 本節來討論一下R語言的基本圖形展示,先來看一張效果圖吧。這是一張用R語言生成的，虛擬的wordcloud雲圖，詳細

R語言重要數據集分析研究——搞清數據的由來

pan .cn logs ges 語言 lang -1 r語 tex 搞清數據的由來作者：李雪麗資料來源：百度百科 R語言重要數據集分析研究——搞清數據的由來

R語言數據挖掘中的，“回歸分析”是如何操作的？

r數據挖掘分析技術高級公開課回歸分析是對多個自變量(又稱為預測變量)建立一個函數來預測因變量(又稱為響應變量的值)。例如，銀行根據房屋貸款申請人的年齡、收入、開支、職業、負擔人口，以及整體信用限額等因素，來評估申請人的房貸風險。線性回歸線性回歸是利用預測變量的一個線性組合函數，來預測響應變量

R語言 生存分析

文章目錄

R語言進行生存分析

1.下載示例資料

2.R語言程式碼例項詳解

3.難點解讀

4.補充：如何用R語言 手動計算生存率

相關推薦

R語言生存分析

4.補充：如何用R語言手動計算生存率