BGI-College生信入門系列——3、資料庫
一、為何需要生物資料庫?
上期在介紹GenBank格式時舉了新冠病毒基因組的例子,僅一個S基因就長達3822 nt(nucleotide,這裡指核苷酸數),基因組全長接近3萬個鹼基。
LOCUS NC_045512 29903 bp ss-RNA linear VRL 18-JUL-2020 ... gene 21563..25384 /gene="S" /locus_tag="GU280_gp02" /gene_synonym="spike glycoprotein" /db_xref="GeneID:43740568" ...
一頁A4紙大概能記錄1.5萬個鹼基
北京大學圖書館以800萬冊的藏書量坐擁國內高校Top1 按照一本書500頁A4紙計算,一個人的基因組約等於200本書,北京大學圖書館紙質書的數量近乎於4萬人的基因組。
這還僅僅是一個物種的一小部分,成千上萬的物種都有基因組資料,有的基因組甚至是人類基因組的數十倍,如重樓百合有150 Gb大小的基因組(表1), 人均每分鐘英文字元的閱讀量不足1千個[1] 。
如此算來,即便你晝夜不停地讀,也要超過285年才能讀完一個重樓百合的基因組序列。此外還有大量的註釋資訊,需要藉助大型計算機才能儲存下這些龐大的資料資源。
基於計算機資源構建的生物資訊資料庫可以更好地管理、更新和讀取分析基因組資料
表1. 代表性物種的基因組大小
物種 | 基因組大小 |
---|---|
新冠病毒 | ~30 Kb |
大腸桿菌 | ~5 Mb |
酵母 | 12 Mb |
秀麗隱杆線蟲 | ~100 Mb |
果蠅 | 120 Mb |
人 | 3 Gb |
小麥 | ~17 Gb |
重樓百合 | 150 Gb |
二、資料庫的分類
根據儲存資料的型別,可劃分為核酸資料庫、蛋白質資料庫和專用資料庫
表2. 常用的生物資料庫
分類 | 資料庫名稱 | 備註 |
---|---|---|
核酸資料庫 | GenBank | 核酸資料庫 |
ENA | 核酸資料庫 | |
DDBJ | 核酸資料庫 | |
WormBase | 線蟲資料庫 | |
FlyBase | 果蠅資料庫 | |
miRBase | microRNA資料庫 | |
蛋白質資料庫 | PDB | 蛋白結構資料庫 |
Swiss-Prot/TrEMBL | 蛋白序列資料庫 | |
PIR (Protein Information Resource) | 蛋白序列資料庫 | |
Pfam | 蛋白結構域資料庫 | |
STRING | 蛋白互作資料庫 | |
CATH | 蛋白結構分類資料庫 | |
PRINTS | 蛋白保守基序資料庫 | |
SCOP | 蛋白結構分類資料庫 | |
Prosite | 蛋白序列特徵資料庫 | |
專用資料庫 | KEGG | 代謝通路資料庫 |
GO (GeneOntology) | 基因本體資料庫 | |
Pubmed | 文獻資料庫 | |
OMIM | 人類孟德爾遺傳資料庫 |
表3. 常用生物資料庫ID
資料來源 | 資料型別 | 示例 |
---|---|---|
GenBank | DNA sequences | AF071988.1 U12345.1 |
ENA | Projects Studies | PRJEB12345 ERP123456 |
BioSamples Samples | SAMEA123456 ERS123456 |
|
Experiments | ERX123456 | |
Runs | ERR123456 | |
Analyses | ERZ123456 | |
Assemblies | GCA_123456789.1 | |
Assembled/Annotated Sequences | A12345.1 AB123456.1 AB12345678 ABCD01123456 ABCDEF011234567 |
|
Protein Coding Sequences | ABC12345.1 ABC1234567.1 |
|
Ensemble Genome Broswer | Genome | ENSG00000221914 物種字首對照表 |
UniProtKB/Swiss-Prot | Proteins with accurate, consistent and rich annotation | A2BC19 P12345 A0A023GPI8 |
很多編號看起來挺複雜,還不趕緊收藏一下本帖以備不時之需~
三、資料庫的使用
下面簡單介紹一下NCBI資料庫的使用
Web blast
Nucleotide BLAST
核酸序列比對,query sequence為核酸序列,目標database為核酸資料庫(NT)
blastx
核酸序列比對蛋白序列,query sequence為核酸序列,目標database為蛋白序列資料庫(NR)
tblastn
蛋白序列比對核酸序列,query sequence為蛋白質序列,目標database為核酸資料庫
Protein BLAST
蛋白序列比對,query sequence為蛋白序列,目標database為蛋白序列資料庫
舉個例子
當你做PCR成功擴增出目的片段時,為了驗證產物,得到產物的序列資訊後應該進行核酸序列比對(Nucleotide blast)以確認產物是正確的,而非汙染造成的假陽性。
此外,如果所擴增的片段編碼蛋白質,還可以進行核酸序列比對蛋白序列(blastx)來檢視相應的蛋白功能資訊。
尋找同源蛋白
我們知道蛋白質在生物體的生命活動中承擔著豐富而複雜的功能,而結構相同或相似的蛋白質一般具有相同的功能,其中有一部分我們可以基於序列相似性來判定這些蛋白的同源性
既然可以用序列相似性來判定兩個蛋白是否為同源蛋白,那判定的閾值是多少呢?
研究表明,兩個序列相似性達到50%及以上的蛋白,在同源建模時結構相差大約在1埃(0.1 nm)
當相似性低於30%時,僅通過序列資訊預測獲得的蛋白結構,其準確性難以保證[1]
也就是說30%就是我們用序列相似性評判蛋白質是否同源的一個閾值
其它資料庫——國家基因庫CNGBdb
除了NCBI的資料庫,你還可以在國家基因庫平臺使用千種植物基因組專案(The 1000 Plants Project)和萬種鳥類基因組專案(The Bird 10000 Genomes Project)等專案的資料庫
參考文獻
[1] Chung SY, Subbiah S. A structural explanation for the twilight zone of protein sequence homology.Structure. 1996;4(10):1123-1127. doi:10.1016/s0969-2126(96)00119-0