1. 程式人生 > >ensemble和ucsc的一些區別

ensemble和ucsc的一些區別

原文來源:x2yline在生信進化樹上的評論,http://www.biotrainee.com/thread-626-1-1.html

NCBI使用 build 36這樣的版本號;而ucsc等使用諸如human genome的hg18,hg19這樣的版本號;ensembl呢,有自己的release版本,但是資料採用NCBI的編號。
兩種風格的版本號有對應關係,比如最新的human genome: hg19 = GRCh37

Ensemble(  ensembl.org 網站是常用 真核生物 參考 基因組 來源之一  )能夠對人類基因自動進行註釋,包括人類,小鼠,斑馬魚,豬和大鼠等,也包括來自HAVANA的人工註釋資訊。

Ensembl是一項生物資訊學研究計劃 ,旨在開發種能夠對真核生物基因組進行自動註釋(automatic annotation)並加以維護的軟體系統。該計劃由英國Sanger研究所Wellcome基金會及歐洲分子生物學實驗室所屬分部歐洲生物資訊學研究所共同協作運營。

Ensembl與NCBI的NCBI Map Viewer和UCSC是最為常用基因組檢索資料庫。

Ensembl 與NCBI Map Viewer和UCSC最大區別表現在以下5點:
a.Ensembl的基因資料集是依據mRNA和蛋內序列的資料資訊白動註釋的。資料來源為新的基因組資料,UniProt/SwissProt和UniProt/TrEMBL的蛋白序列,NCBI的RefSeq裡的DNA和蛋白序列和EMBL的cDNA序列。

b.Ensembl是一個開源(Perl API )的全自動的基因註釋軟體系統,很多網站都採用Ensembl這套軟體系統。
c.Ensembl擁存其特有的BioMart功能。BioMart可以依據設定的要求對基 因組進行條件性檢索,檢索的結果吋以以圖表的形式給出。
d.與其它資料庫相整合,比如DAS。
e.基因組間的比較分析。

基因註釋機構
目前從事基因註釋的機構組織有很多,這裡列出的只是較為常用的幾個。
1. Ensembl:目的是做出最好的基因註釋集。
2.Havana (VEGA):是桑格中心的一個基因註釋組織,它的目標和Eiisembl—致,因此,結合得也最緊密。

3. HGNC -給出人類基因唯一的名字和符號。
4. UniProt 主要集中於蛋白質的資訊註釋。

Ensembl的通用基因註釋有兩種,一是Ensembl GeneBuild,它是自動化註釋,速度快,實時更新,在不同物種上均適用;另一種是Wellcome基金會的 Havana (VEGA)小組的註釋,它是手工註釋,速度慢,但是準確,它依據的都是已經驗證過的mRNA和蛋白序列來註釋,比較費時。因此Ensembl基因組資料庫 中,會有兩種註釋。

Havana (VEGA)小組的註釋常有以下幾種型別
詳細資訊: http://vega.sanger.ac.uk/info/about/gene_and_transcript_types.html
Protein coding: 包括開放閱讀框 (ORF).
Processed transcript:沒有開放閱讀框(ORF)
Pseudogene:假基因,是指脫氧核糖核酸(DNA)的鹼基序列中,一段與其他生物體內已知的基因序列非常相似的片段。但是這個片段由於移碼突變或者無義突變破壞了ORF,無法發揮原有的基因功能,也就是無法制造出蛋白質
IG gene:免疫球蛋白家族基因
TR Gene:T細胞受體基因
TEC (To be Experimentally Confirmed)

人類和小鼠基因組的GTF檔案與GENCODE計劃釋出的gene set檔案相同。
The GENCODE project 的目標為對人類和小鼠基因組提供高質量的註釋資訊和實驗確證。
The GENCODE gene sets被其他專案作為參考而廣泛使用(如 1000 Genomes).
詳細內容: https://www.gencodegenes.org/about.html


帶有abinitio副檔名的檔案為用Genescan和abinitio基因預測工具生成的
預測基因的註釋檔案