BGI-College生信入門系列——3、資料庫

阿新 • • 發佈：2022-01-29

一、為何需要生物資料庫？

上期在介紹GenBank格式時舉了新冠病毒基因組的例子，僅一個S基因就長達3822 nt（nucleotide，這裡指核苷酸數），基因組全長接近3萬個鹼基。

LOCUS       NC_045512              29903 bp ss-RNA     linear   VRL 18-JUL-2020
...
     gene            21563..25384
                     /gene="S"
                     /locus_tag="GU280_gp02"
                     /gene_synonym="spike glycoprotein"
                     /db_xref="GeneID:43740568"
...

一頁A4紙大概能記錄1.5萬個鹼基

北京大學圖書館以800萬冊的藏書量坐擁國內高校Top1 按照一本書500頁A4紙計算，一個人的基因組約等於200本書，北京大學圖書館紙質書的數量近乎於4萬人的基因組。

這還僅僅是一個物種的一小部分，成千上萬的物種都有基因組資料，有的基因組甚至是人類基因組的數十倍，如重樓百合有150 Gb大小的基因組（表1），人均每分鐘英文字元的閱讀量不足1千個[1] 。

如此算來，即便你晝夜不停地讀，也要超過285年才能讀完一個重樓百合的基因組序列。此外還有大量的註釋資訊，需要藉助大型計算機才能儲存下這些龐大的資料資源。

基於計算機資源構建的生物資訊資料庫可以更好地管理、更新和讀取分析基因組資料

表1. 代表性物種的基因組大小

物種	基因組大小
新冠病毒	~30 Kb
大腸桿菌	~5 Mb
酵母	12 Mb
秀麗隱杆線蟲	~100 Mb
果蠅	120 Mb
人	3 Gb
小麥	~17 Gb
重樓百合	150 Gb

二、資料庫的分類

根據儲存資料的型別，可劃分為核酸資料庫、蛋白質資料庫和專用資料庫

表2. 常用的生物資料庫

分類	資料庫名稱	備註
核酸資料庫	GenBank	核酸資料庫
	ENA	核酸資料庫
	DDBJ	核酸資料庫
	WormBase	線蟲資料庫
	FlyBase	果蠅資料庫
	miRBase	microRNA資料庫
蛋白質資料庫	PDB	蛋白結構資料庫
	Swiss-Prot/TrEMBL	蛋白序列資料庫
	PIR (Protein Information Resource)	蛋白序列資料庫
	Pfam	蛋白結構域資料庫
	STRING	蛋白互作資料庫
	CATH	蛋白結構分類資料庫
	PRINTS	蛋白保守基序資料庫
	SCOP	蛋白結構分類資料庫
	Prosite	蛋白序列特徵資料庫
專用資料庫	KEGG	代謝通路資料庫
	GO (GeneOntology)	基因本體資料庫
	Pubmed	文獻資料庫
	OMIM	人類孟德爾遺傳資料庫

表3. 常用生物資料庫ID

資料來源	資料型別	示例
GenBank	DNA sequences	AF071988.1 U12345.1
ENA	Projects Studies	PRJEB12345 ERP123456
	BioSamples Samples	SAMEA123456 ERS123456
	Experiments	ERX123456
	Runs	ERR123456
	Analyses	ERZ123456
	Assemblies	GCA_123456789.1
	Assembled/Annotated Sequences	A12345.1 AB123456.1 AB12345678 ABCD01123456 ABCDEF011234567
	Protein Coding Sequences	ABC12345.1 ABC1234567.1
Ensemble Genome Broswer	Genome	ENSG00000221914 物種字首對照表
UniProtKB/Swiss-Prot	Proteins with accurate, consistent and rich annotation	A2BC19 P12345 A0A023GPI8

很多編號看起來挺複雜，還不趕緊收藏一下本帖以備不時之需~

三、資料庫的使用

下面簡單介紹一下NCBI資料庫的使用

Web blast

Nucleotide BLAST
核酸序列比對，query sequence為核酸序列，目標database為核酸資料庫（NT）
blastx
核酸序列比對蛋白序列，query sequence為核酸序列，目標database為蛋白序列資料庫（NR）
tblastn
蛋白序列比對核酸序列，query sequence為蛋白質序列，目標database為核酸資料庫
Protein BLAST
蛋白序列比對，query sequence為蛋白序列，目標database為蛋白序列資料庫

舉個例子

當你做PCR成功擴增出目的片段時，為了驗證產物，得到產物的序列資訊後應該進行核酸序列比對（Nucleotide blast）以確認產物是正確的，而非汙染造成的假陽性。

此外，如果所擴增的片段編碼蛋白質，還可以進行核酸序列比對蛋白序列（blastx）來檢視相應的蛋白功能資訊。

尋找同源蛋白

我們知道蛋白質在生物體的生命活動中承擔著豐富而複雜的功能，而結構相同或相似的蛋白質一般具有相同的功能，其中有一部分我們可以基於序列相似性來判定這些蛋白的同源性

既然可以用序列相似性來判定兩個蛋白是否為同源蛋白，那判定的閾值是多少呢？

研究表明，兩個序列相似性達到50%及以上的蛋白，在同源建模時結構相差大約在1埃（0.1 nm）

當相似性低於30%時，僅通過序列資訊預測獲得的蛋白結構，其準確性難以保證[1]

也就是說30%就是我們用序列相似性評判蛋白質是否同源的一個閾值

其它資料庫——國家基因庫CNGBdb

除了NCBI的資料庫，你還可以在國家基因庫平臺使用千種植物基因組專案（The 1000 Plants Project）和萬種鳥類基因組專案（The Bird 10000 Genomes Project）等專案的資料庫

參考文獻

[1] Chung SY, Subbiah S. A structural explanation for the twilight zone of protein sequence homology.Structure. 1996;4(10):1123-1127. doi:10.1016/s0969-2126(96)00119-0

BGI-College生信入門系列——3、資料庫

一、為何需要生物資料庫？上期在介紹GenBank格式時舉了新冠病毒基因組的例子，僅一個S基因就長達3822 nt（nucleotide，這裡指核苷酸數），基因組全長接近3萬個鹼基。

BGI-College生信入門——4、Linux作業系統的配置

Linux環境的配置 Windows子系統Linux虛擬機器線上Linux伺服器 Windows subsystem for Linux (WSL)

BGI-College生信入門2——什麼是資料？

從直覺上看，資料貌似很好理解，但真正要說清楚資料這個詞卻有點困難。想一想，資料到底是什麼呢？

django系列==3、Django日誌

日誌配置包括四個部分：格式器（formatters），過濾器（filters），處理器（handlers），記錄器（loggers），下面我們來一一講解。

python系列==3、自定義爬蟲

爬蟲是一個自動提取網頁的程式，它為搜尋引擎從全球資訊網上下載網頁，是搜尋引擎的重要組成。爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的 URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入佇列

WPF快速入門系列(3)——深入解析WPF事件機制

一、引言　　WPF除了建立了一個新的依賴屬性系統之外，還用更高階的路由事件功能替換了普通的.NET事件。

HBase入門系列(3)- HBase之Shell操作

技術標籤：大資料java資料庫hadoophbase 基本命令 # 進入Shell /opt/soft/hbase-1.6.0/bin ./hbase shell

二、k8s入門系列----deployment、replicaset

　　前面講了一個抽象概念pod，這裡先引出另外兩個抽象概念，deployment和replicaset（副本集），它們之間的關係如下：

六、k8s入門系列----StatefulSet、Headless Services、LoadBalancer Services

　　這節講下有狀態服務應用StatefulSet 和另外兩種 Service：Headless 和LoadBalancer 。

十、k8s入門系列----PV、PVC、StorageClass

　　關於PV、PVC、StorageClass ，這篇文章講的不錯：https://www.cnblogs.com/rexcheny/p/10925464.html

前端學習資料結構與演算法快速入門系列 —— 集合、字典和散列表

集合、字典和散列表集合集合：由一組無序且唯一的項組成。 Tip：集合是數學中的概念，但應用在電腦科學的資料結構中。

【遙感入門系列】3、遙感電磁輻射與遙感過程

遙感電磁輻射是比較難理解也是非常重要的內容，對於一般學習遙感專業的人來說，只需要學習個大概，這個大概主要包括你需要理解幾個概念以及能從電磁輻射原理上解釋一些遙感現象，進而為遙感過程的理解打下一個基礎，

3、MyBatis入門例項

學習資源：動力節點《2020最新MyBatis教程【IDEA版】-MyBatis從入門到精通》目錄入門例項1、建立 MySQL資料庫和表2、建立Maven工程3、加入Maven座標4、資源外掛6、建立實體類 Student7、編寫dao 介面 StudentDao8

淺入 ABP系列(3)：增加日誌元件、依賴注入服務

生信雲實證Vol.3：提速2920倍！用AutoDock Vina對接2800萬個分子

AutoDock Vina是用於分子對接和虛擬篩選的開源程式，由Scripps研究所分子圖形實驗室的Oleg Trott博士設計和實現，是目前使用最為廣泛的分子對接軟體之一。

Go入門系列（十八）反射、包和測試工具

技術標籤：go語言入門golanggo語言本系列文章目錄展開/收起 Go入門系列（一）初識Go語言Go入門系列（二）變數、指標、資料型別簡介和作用域Go入門系列（三）基礎型別——整型、浮點型、布林型別和字

3、Python介面自動化系列之unittest的封裝使用

我們前面已經講過了unittest的常用方法和結合ddt做資料驅動，接下來我們就剩下如何把前面用到的方法都封裝起來然後放到框架中才算是框架中的一部分，之前寫的都是像小學作文一樣，流水仗，哈哈哈好了接下來就開

工信部發新一批免徵車輛購置稅車型目錄：特斯拉 Model 3、比亞迪秦 PLUS 在列

3月10日訊息據工業和資訊化部網站，工信部現已釋出《免徵車輛購置稅的新能源汽車車型目錄》（第四十批）。

微信 Mac 版 3.1.0 內測：支援發表朋友圈、瀏覽朋友圈相簿

6 月 3 日訊息微信 for Mac 今天迎來了 3.1.0 內測更新，繼上次 3.0.0 正式版實現瀏覽朋友圈功能之後，這次 3.1.0 內測版更進一步，已經支援發表朋友圈，此外還支援瀏覽朋友圈相簿。

一、k8s入門系列----pod

　　一開始學習k8s的時候，好多文章一開始就講很多抽象的概念，看了完全不知所云，藉著對知識脈絡整理的機會，梳理一下k8s的知識點，本系列先講解實際的應用，再講解相關理論知識，從實踐講解來理論，這樣才能對理論

BGI-College生信入門系列——3、資料庫

一、為何需要生物資料庫？

一頁A4紙大概能記錄1.5萬個鹼基

表1. 代表性物種的基因組大小

二、資料庫的分類

表2. 常用的生物資料庫

表3. 常用生物資料庫ID

三、資料庫的使用

舉個例子

尋找同源蛋白

既然可以用序列相似性來判定兩個蛋白是否為同源蛋白，那判定的閾值是多少呢？

其它資料庫——國家基因庫CNGBdb

相關推薦