1. 程式人生 > 其它 >晶片資料分析步驟1 晶片資料下載-GEO從GEO資料庫下載資料的方法

晶片資料分析步驟1 晶片資料下載-GEO從GEO資料庫下載資料的方法

從GEO資料庫下載資料的方法

1、在GEO DATASETS中輸入關鍵詞,選擇符合的GSE,在ftp中進行 手動下載

2、找到符合的GSE,在R中使用 GEOquery 包進行下載

GEO資料庫的資料種類

1、Platforms 平臺

包含有晶片的探針資訊,如cDNAs,寡核苷酸,ORFs,抗體。

以GPLxxx編號。

一個platform可以包含不同人上傳的不同sample。

不同platform的資料需要分開處理。

2、Samples 樣品

一個以獨立方式處理的樣品。

以GSMxxx編號。

一個sample只能包含於一個platform,一個sample可以包含於多個series。

3、Series 系列

一個Series就是一個study。

以GSExxx編號。

一個系列一定包含多個sample,可能包含多個platform。

不同platform的資料需要分開處理。

4、Datasets 資料集

資料集包含有被summiter處理過的資料,可以使用GEO資料庫自帶的tools進行分析,如differentiated gene expression,
cluster, heatmap。

以GDSxxx編號。

一個dataset的sample來自同一個platform,因此彼此間具有可比性。

範例

  • gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根據GDS號來下載資料,下載soft檔案

  • gpl96 <- getGEO(‘GPL96’, destdir=“.”) ##根據GPL號下載的是晶片設計的資訊!

  • gse1009 <- getGEO(‘GSE1009’, destdir=“.”)##根據GSE號下載資料,下載_series_matrix.txt.gz

下載GDS返回的物件

gds858返回的物件很複雜

用Table(gds858)可以得到表達矩陣!

用Meta(gds858)可以得到描述資訊

    names(Meta(gds858))
    Table(gds858)[1:5,1:5]

可以用 GDS2eSet 函式把它轉變為 expressionset

下載GSE返回的物件

GPLList 函式檢視GPL資訊

處理函式有: geneNames/sampleNames/pData/exprs

用命令

    gsmplatforms <- lapply(GSMList(gse), function(x) {Meta(x)$platform_id})
    head(gsmplatforms)

檢視GSM對應的GPL資訊

用命令

    gsmlist = Filter(function(gsm) { Meta(gsm)$platform_id=='GPLXX'},GSMList(gse))

提取GPLXX對應的樣本(有些實驗涉及到不同平臺的樣品)。

下載GPL返回的物件

根據GPL號下載返回的物件跟GDS一樣,也是用Table/Meta處理!

還可以下載cel原始檔案!

    tmp=getGEOSuppFiles(GSE1009)
    if (is.null(tmp)) {
      warning("Supplementary data files not provided!\nyou should check this GEO ID in NCBI\n")
    }

參考:

1、 [ 用GEOquery從GEO資料庫下載資料 ](http://www.bio-info-
trainee.com/bioconductor_China/software/GEOquery.html)

2、 Using the GEOquery Package

3、 GEOquery Reference Manual