【annotation】非人類物種基因組註釋(MSU為例)
阿新 • • 發佈:2019-01-13
基因 組成 相關 進行 nts 別人 ria dir cti
基因組註釋工具ANNOVAR是一款非常好用的註釋軟件,功能強大,輸出數據簡單美中不足就是對於非人類物種來說UI不夠完善,因此總結一下整個註釋的過程,幫助別人快樂自己。
首先我們需要明確我們需要的數據和軟件:
數據包括:
all.gff3 #MSU的v7.0版本組裝的註釋文件
all.con #基因組序列
這樣就是所有的輸入文件了,現在我們列舉一下需要用到的軟件:
gffread #gff3 to gtf
gtfToGenePred #gtf to genePred (建庫需要的文件)
annovar #註釋主程序,只能通過發郵件獲取
有了這些我們就可開始做註釋了、
一、建庫
如果是給人類的基因組註釋,網上有非常多的教程,我在這裏就不贅述了,請大家自行百度,我要介紹的主要是水稻及其他非人類的生物註釋。
首先我們需要在獲得ANNOVAR之後在目錄下解壓,在軟件主目錄下新建文件夾:
genomics@genomics-70DGA01QCN:~/BioPlatform/annovar$ ls -l 總用量 508 -rwxr-xr-x 1 genomics genomics 221481 4月 17 2018 annotate_variation.pl -rwxr-xr-x 1 genomics genomics 27582 4月 17 2018 coding_change.pl -rwxr-xr-x 1 genomics genomics 170158 4月 17 2018 convert2annovar.pl drwxr-xr-x 2 genomics genomics 4096 4月 17 2018 example drwxr-xr-x 3 genomics genomics 4096 4月 17 2018 humandb -rwxr-xr-x 1 genomics genomics 19407 4月 17 2018 retrieve_seq_from_fasta.pl -rwxr-xr-x 1 genomics genomics 39223 4月 17 2018 table_annovar.pl -rwxr-xr-x 1 genomics genomics 21774 4月 17 2018variants_reduction.pl genomics@genomics-70DGA01QCN:~/BioPlatform/annovar$ mkdir ricedb
ricedb就是我們需要建庫的文件夾了,和同目錄下的humandb是一樣的,在這個文件夾中需要有兩個文件
genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ ls -l 總用量 529324 -rw-rw-r-- 1 genomics genomics 380710511 10月 31 2011 AsianRice_MSU.fasta -rw-rw-r-- 1 genomics genomics 81498659 2月 7 2012 AsianRiice_MSU.gff3
gff文件會報錯所以第一步要轉換成gtf文件
genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ gffread AsianRiice_MSU.gff3 -T -o AsianRice_MSU.gtf
gtf文件轉換成GenePred文件,利用GtfToGenePred工具,這裏註意“-genePredExt”這個參數一定要加上
genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ gtfToGenePred -genePredExt AsianRice_MSU.gtf Os_refGene.txt
結合基因組數據獲得另外一個重要數據,通過上邊獲得的GenePred文件:
perl ../retrieve_seq_from_fasta.pl --format refGene --seqfle all.fa Os_refGene.txt --out Os_refGeneMrna.fa
這樣我們建庫工作就完成了,下次再對相同物種數據進行註釋的時候就不用進行這些操作了,庫的兩個文件組成如下:
genomics@genomics-70DGA01QCN:~/BioPlatform/annovar/ricedb$ ls -l -rw-rw-r-- 1 genomics genomics 127436949 1月 12 12:24 Os_refGeneMrna.fa -rw-rw-r-- 1 genomics genomics 12334559 1月 12 12:23 Os_refGene.txt
二、非人類物種註釋
相比與人類的註釋,其他物種的註釋如果完成了建庫的步驟剩下的就很相似。區別在於其他物種並沒有人類那麽多相關的註釋庫,一般我們就進行基於基因的註釋就可以獲得我們想要的數據:
perl table_annovar.pl <variant.vcf> ricedb/ --vcfnput --outfle fnal --buildver Os --protocol refGene --operation g
剩下的事情交給馬克思和處理器就好了!
輸出格式以及後續的處理在隨後的博文中會有詳細的介紹。
【annotation】非人類物種基因組註釋(MSU為例)