1. 程式人生 > 其它 >BGI-College生信入門系列——3、資料庫

BGI-College生信入門系列——3、資料庫

一、為何需要生物資料庫?

上期在介紹GenBank格式時舉了新冠病毒基因組的例子,僅一個S基因就長達3822 nt(nucleotide,這裡指核苷酸數),基因組全長接近3萬個鹼基。

LOCUS       NC_045512              29903 bp ss-RNA     linear   VRL 18-JUL-2020
...
     gene            21563..25384
                     /gene="S"
                     /locus_tag="GU280_gp02"
                     /gene_synonym="spike glycoprotein"
                     /db_xref="GeneID:43740568"
...

一頁A4紙大概能記錄1.5萬個鹼基

北京大學圖書館以800萬冊的藏書量坐擁國內高校Top1 按照一本書500頁A4紙計算,一個人的基因組約等於200本書,北京大學圖書館紙質書的數量近乎於4萬人的基因組。

這還僅僅是一個物種的一小部分,成千上萬的物種都有基因組資料,有的基因組甚至是人類基因組的數十倍,如重樓百合有150 Gb大小的基因組(表1), 人均每分鐘英文字元的閱讀量不足1千個[1] 。

如此算來,即便你晝夜不停地讀,也要超過285年才能讀完一個重樓百合的基因組序列。此外還有大量的註釋資訊,需要藉助大型計算機才能儲存下這些龐大的資料資源。

基於計算機資源構建的生物資訊資料庫可以更好地管理、更新和讀取分析基因組資料

表1. 代表性物種的基因組大小
物種基因組大小
新冠病毒 ~30 Kb
大腸桿菌 ~5 Mb
酵母 12 Mb
秀麗隱杆線蟲 ~100 Mb
果蠅 120 Mb
3 Gb
小麥 ~17 Gb
重樓百合 150 Gb

二、資料庫的分類

根據儲存資料的型別,可劃分為核酸資料庫、蛋白質資料庫和專用資料庫

表2. 常用的生物資料庫
分類資料庫名稱備註
核酸資料庫 GenBank 核酸資料庫
ENA 核酸資料庫
DDBJ 核酸資料庫
WormBase 線蟲資料庫
FlyBase 果蠅資料庫
miRBase microRNA資料庫
蛋白質資料庫 PDB 蛋白結構資料庫
Swiss-Prot/TrEMBL 蛋白序列資料庫
PIR (Protein Information Resource) 蛋白序列資料庫
Pfam 蛋白結構域資料庫
STRING 蛋白互作資料庫
CATH 蛋白結構分類資料庫
PRINTS 蛋白保守基序資料庫
SCOP 蛋白結構分類資料庫
Prosite 蛋白序列特徵資料庫
專用資料庫 KEGG 代謝通路資料庫
GO (GeneOntology) 基因本體資料庫
Pubmed 文獻資料庫
OMIM 人類孟德爾遺傳資料庫
表3. 常用生物資料庫ID
資料來源資料型別示例
GenBank DNA sequences AF071988.1
U12345.1
ENA Projects Studies PRJEB12345
ERP123456
BioSamples Samples SAMEA123456
ERS123456
Experiments ERX123456
Runs ERR123456
Analyses ERZ123456
Assemblies GCA_123456789.1
Assembled/Annotated Sequences A12345.1
AB123456.1
AB12345678
ABCD01123456
ABCDEF011234567
Protein Coding Sequences ABC12345.1
ABC1234567.1
Ensemble Genome Broswer Genome ENSG00000221914
物種字首對照表
UniProtKB/Swiss-Prot Proteins with accurate, consistent and rich annotation A2BC19
P12345
A0A023GPI8

很多編號看起來挺複雜,還不趕緊收藏一下本帖以備不時之需~

三、資料庫的使用

下面簡單介紹一下NCBI資料庫的使用

Web blast

Nucleotide BLAST
核酸序列比對,query sequence為核酸序列,目標database為核酸資料庫(NT)
blastx
核酸序列比對蛋白序列,query sequence為核酸序列,目標database為蛋白序列資料庫(NR)
tblastn
蛋白序列比對核酸序列,query sequence為蛋白質序列,目標database為核酸資料庫
Protein BLAST
蛋白序列比對,query sequence為蛋白序列,目標database為蛋白序列資料庫

舉個例子

當你做PCR成功擴增出目的片段時,為了驗證產物,得到產物的序列資訊後應該進行核酸序列比對(Nucleotide blast)以確認產物是正確的,而非汙染造成的假陽性。

此外,如果所擴增的片段編碼蛋白質,還可以進行核酸序列比對蛋白序列(blastx)來檢視相應的蛋白功能資訊。

尋找同源蛋白

我們知道蛋白質在生物體的生命活動中承擔著豐富而複雜的功能,而結構相同或相似的蛋白質一般具有相同的功能,其中有一部分我們可以基於序列相似性來判定這些蛋白的同源性

既然可以用序列相似性來判定兩個蛋白是否為同源蛋白,那判定的閾值是多少呢?

研究表明,兩個序列相似性達到50%及以上的蛋白,在同源建模時結構相差大約在1埃(0.1 nm)

當相似性低於30%時,僅通過序列資訊預測獲得的蛋白結構,其準確性難以保證[1]

也就是說30%就是我們用序列相似性評判蛋白質是否同源的一個閾值

其它資料庫——國家基因庫CNGBdb

除了NCBI的資料庫,你還可以在國家基因庫平臺使用千種植物基因組專案(The 1000 Plants Project)和萬種鳥類基因組專案(The Bird 10000 Genomes Project)等專案的資料庫




參考文獻

[1] Chung SY, Subbiah S. A structural explanation for the twilight zone of protein sequence homology.Structure. 1996;4(10):1123-1127. doi:10.1016/s0969-2126(96)00119-0