從NCBI基因組資料中獲得cds，pep和geneID對應表

阿新 • • 發佈：2019-01-01

在做基因組相關分析時，我們常常需要從基因組中提取cds，並翻譯成相應的pep序列。此指令碼，以NCBI資料庫中標準的基因組序列檔案和對應的gff檔案為輸入檔案，快速獲得cds序列，pep序列，RNA,Protein和gene的對應關係表等相關檔案。

A perl script which deals with ncbi raw data,and from which get cds ,pep and gene,mRNA and protein ID list.

使用方法如下：

perl $0 gff_filegenomes_fa_file file_prefix

#! /usr/bin/perl -w

=head1 #######################################
	
=head1 name
	grep_cds_pep_from_ncbi_genomes_datas.pl

=head1 description
	deal with ncbi raw data,and from which get cds ,pep and gene,mRNA and protein ID list.

=head1 example
	perl  $0 ref_ConCri1.0_top_level.gff3.gz ccr_ref_ConCri1.0_chrUn.fa.gz  mole
	perl  $0 gff_file genomes_fa_file  file_prefix

=head1 author
	original from Xiangfeng Li, 
[email protected]
		##2014-4-19/21##

=head1 #######################################
=cut

use strict;
die `pod2text $0` unless @ARGV==3;
my ($gff,$fa,$prefix)[email protected];

##deal gff file##
$gff=~/gz$/ ? (open GFF,"gzip -cd $gff|"||die):(open GFF,$gff||die);
my (%mrna,%cds,%pep);
while(<GFF>){
	chomp;
	next if(/^#/);
	my @p=split/\t/,$_;
	my @q=split/;/,$p[8];
	my ($rna,$pep,$nt,$gene);
	my $chr=$p[0];
	if($p[2] eq "mRNA"){
		($rna=$q[0])=~s/ID=//;
		($nt=$q[1])=~s/Name=//;
		($gene=$q[-3])=~s/gene=//;
		$mrna{$chr}{$rna}{strand}=$p[6];
		$cds{$rna}=[$gene,$nt];
	}
        if($p[2] eq "CDS"){
                ($pep=$q[1])=~s/Name=//;
                ($rna=$q[2])=~s/Parent=//;
                push @{$mrna{$chr}{$rna}{nt}},[$p[3],$p[4]];
                $pep{$rna}=$pep;
        }
}
close GFF;

##get id list##
my %anno;
my $id_gene_cds_pep=$prefix."_id_gene_cds_pep.lst";
open ID, ">",$id_gene_cds_pep||die;
foreach my $i(sort keys %pep){
	if($cds{$i}){
		my $out=join "\t",$i,$cds{$i}[0],$cds{$i}[1],$pep{$i};
		print ID $out,"\n";
		($anno{$i}=$out)=~s/\t/\|/g;
	}
}
warn "create file:$id_gene_cds_pep\n";
close ID;

##deal fa file##
my %max;
$fa=~/gz$/ ? (open FA,"gzip -cd $fa|"||die):(open FA,$fa||die);
my $raw_cds=$prefix."_raw_cds";
open CDS1,">$raw_cds"||die;
my ($start,$end);
$/=">";<FA>;$/="\n";
while(<FA>){
        my $name=$1 if(/(\S+)/);
	my $info=(split/\|/,$name)[-1];
        $/=">";
        my $seq=<FA>;
        $/="\n";
        $seq=~s/>|\n+//g;
	my $scaf=$mrna{$info};
	foreach my $k(sort keys %$scaf){
		next if(! exists $scaf->{$k}{nt});
		my @ 
[email protected]{$scaf->{$k}{nt}};
		my $strand=$$scaf{$k}{strand};
		my $get;
		@p=sort{$a->[0]<=>$b->[0]}@p;
		my $loc1=$p[0][0];
		my $loc2=$p[-1][1];
		my ($get_len,$add,$out,$gene);
		if(exists $anno{$k}){
			$add=$anno{$k}; 
			$gene=(split/\|/,$add)[1];
		}else{next;}
		foreach(@p){
			($start,$end) 
[email protected]$_[0,1];
			$get.=uc(substr($seq,$start-1,$end-$start+1));
		}
		if($strand eq "+"){
			$get_len=length$get;
			$get=~s/([A-Z]{50})/$1\n/g;
			chop($get) unless($get_len%50);
			$out=">$add LOC=$info :$loc1:$loc2:+ length=$get_len\n$get\n";
			push @{$max{$gene}},[$get_len,$out];
			print CDS1 $out;
		}
		if($strand eq "-"){
			$get=&reverse_complement($get);
			$get_len=length$get;
			$get=~s/([A-Z]{50})/$1\n/g;
			chop($get) unless($get_len%50);
			$out=">$add LOC=$info :$loc1:$loc2:- length=$get_len\n$get\n";
			push @{$max{$gene}},[$get_len,$out];
			print CDS1 $out;
		}
	}
}
warn "create file:$raw_cds\n";
close FA;
close CDS1;

##get max transcript##
my $filter_cds=$prefix."_filter_cds";
open CDS2,">$filter_cds"||die;
my @a;
foreach my $j(keys %max){
	my @[email protected]{$max{$j}};
	@trans=sort{$a->[0] cmp $b->[0]}@trans;
	push @a,$trans[-1][1];
}
my @a_new;
foreach(@a){
	my $r=$1 if(/^>rna(\d+)/);
	push @a_new,[$r,$_];
}
my @cds_sort=map{$_->[1]}
		sort{$a->[0] <=> $b->[0]}@a_new;
print CDS2 $_ [email protected]_sort;
close CDS2;
warn "create file:$filter_cds\n";

##get raw pep sequences##
my $raw_pep=$prefix."_raw_pep";
open PEP1,">",$raw_pep||die;
my @raw_pep=&cds2pep($raw_cds);
print PEP1 $_ [email protected]_pep;
close PEP1;
warn "create file:$raw_pep\n";

##get filter pep sequences##
my $filter_pep=$prefix."_filter_pep";
open PEP2,">$filter_pep"||die;
my @filter_pep=&cds2pep($filter_cds);
print PEP2 $_ [email protected]_pep;
close PEP2;
warn "create file:$filter_pep\n";

##add label for cds and pep of filter##
my $label=uc($prefix);
open IN1,$filter_cds||die;
my $filter_cds_label=$prefix."_filter_cds_label";
open OUT1,">",$filter_cds_label||die;
while(<IN1>){
	chomp;
	if(/^>/){
		my @a=split/\|/,$_,2;
		my $name=$a[0]."_$label";
		print OUT1"$name |$a[1]\n";
	}else{print OUT1 "$_\n";}
}
close IN1;
close OUT1;
warn "create file:$filter_cds_label\n";

open IN2,$filter_pep||die;
my $filter_pep_label=$prefix."_filter_pep_label";
open OUT2,">",$filter_pep_label||die;
while(<IN2>){
        chomp;
        if(/^>/){
                my @a=split/\|/,$_,2;
                my $name=$a[0]."_$label";
                print OUT2 "$name |$a[1]\n";
        }else{print OUT2 "$_\n";}
}
close IN2;
close OUT2;
warn "create file:$filter_pep_label\n";

##timing##
my $time=times;
my $time_out=sprintf "%.2f",$time/60;
print "##########\nElapsed Time :$time_out mins\n##########\n";

##subroutine##
sub reverse_complement{
	my ($seq)=shift;
	$seq=reverse$seq;
	$seq=~tr/AaGgCcTt/TtCcGgAa/;
	return $seq;
}

##subroutine##
sub cds2pep{
	my $file=shift;
	my %code = (
                        "standard" =>
                                {
                                'GCA' => 'A', 'GCC' => 'A', 'GCG' => 'A', 'GCT' => 'A',                               # Alanine
                                'TGC' => 'C', 'TGT' => 'C',                                                           # Cysteine
                                'GAC' => 'D', 'GAT' => 'D',                                                           # Aspartic Aci
                                'GAA' => 'E', 'GAG' => 'E',                                                           # Glutamic Aci
                                'TTC' => 'F', 'TTT' => 'F',                                                           # Phenylalanin
                                'GGA' => 'G', 'GGC' => 'G', 'GGG' => 'G', 'GGT' => 'G',                               # Glycine
                                'CAC' => 'H', 'CAT' => 'H',                                                           # Histidine
                                'ATA' => 'I', 'ATC' => 'I', 'ATT' => 'I',                                             # Isoleucine
                                'AAA' => 'K', 'AAG' => 'K',                                                           # Lysine
                                'CTA' => 'L', 'CTC' => 'L', 'CTG' => 'L', 'CTT' => 'L', 'TTA' => 'L', 'TTG' => 'L',   # Leucine
                                'ATG' => 'M',                                                                         # Methionine
                                'AAC' => 'N', 'AAT' => 'N',                                                           # Asparagine
                                'CCA' => 'P', 'CCC' => 'P', 'CCG' => 'P', 'CCT' => 'P',                               # Proline
                                'CAA' => 'Q', 'CAG' => 'Q',                                                           # Glutamine
                                'CGA' => 'R', 'CGC' => 'R', 'CGG' => 'R', 'CGT' => 'R', 'AGA' => 'R', 'AGG' => 'R',   # Arginine
                                'TCA' => 'S', 'TCC' => 'S', 'TCG' => 'S', 'TCT' => 'S', 'AGC' => 'S', 'AGT' => 'S',   # Serine
                                'ACA' => 'T', 'ACC' => 'T', 'ACG' => 'T', 'ACT' => 'T',                               # Threonine
                                'GTA' => 'V', 'GTC' => 'V', 'GTG' => 'V', 'GTT' => 'V',                               # Valine
                                'TGG' => 'W',                                                                         # Tryptophan
                                'TAC' => 'Y', 'TAT' => 'Y',                                                           # Tyrosine
                                'TAA' => 'U', 'TAG' => 'U', 'TGA' => 'U'                                              # Stop
                                }
                        ## more translate table could be added here in future
                        ## more translate table could be added here in future
                        ## more translate table could be added here in future
        );
	open IN,$file||die;
	$/=">";<IN>;$/="\n";
	my @results_set;
	while(<IN>){
		my $info=$_;
        	my @a=split/\s+/,$info;
        	$/=">";my $seq=<IN>;$/="\n";
        	$seq=~s/\n|>//g;
        	my $len=length$seq;
        	my $info_out=join " ",@a[0..($#a-1)];
        	my ($pep_out,$triplet);
        	for(my $i=0;$i<$len;$i+=3){
                	$triplet=substr($seq,$i,3);
                	next if(length$triplet!=3);
                	if(exists $code{standard}{$triplet}){
                        	$pep_out.=$code{standard}{$triplet};
                	}else{$pep_out.="X"}
        	}
        	$pep_out=~s/U$// if($pep_out=~/U$/);
        	my $pep_len=length$pep_out;
        	$pep_out=~s/([A-Z]{50})/$1\n/g;
        	chop($pep_out) unless($pep_len%50);
        	my $results= ">$info_out length=$pep_len\n$pep_out\n";
		push @results_set,$results;
	}
	return @results_set;
}

__END__

從NCBI基因組資料中獲得cds，pep和geneID對應表

在做基因組相關分析時，我們常常需要從基因組中提取cds，並翻譯成相應的pep序列。此指令碼，以NCBI資料庫中標準的基因組序列檔案和對應的gff檔案為輸入檔案，快速獲得cds序列，pep序列，RNA,Protein和gene的對應關係表等相關檔案。 A perl scrip

用c# 採用BIT-map 方式，從一堆資料中，找出不重複的

採用的是bit-map演算法，關於什麼是bit-map，百度一下；直接上一段程式碼，用C#改寫的！如下： class Program { private static int[] flags = new int[1000000];

python3 簡單實現從csv文件中讀取內容，並對內容進行分類統計

tmp spa writer ict 打開文件 while 類型 spl blog 新手python剛剛上路，在實際工作中遇到如題所示的問題，嘗試使用python3簡單實現如下，歡迎高手前來優化import csv #打開文件，用with打開可以不用去特意關閉file了

從輸入的值中獲取最大值和最小值，輸入0後結束（利用do_while boolean isRight來標識用戶輸入）

bool out 用戶 system efault 最大 pub string void mport java.util.Scanner; public class DoWhile2 {public static void main(String[] args) { int

[tensorflow] 如何從pb模型檔案中獲得引數資訊 How to obtain parameters information from a tensorflow .pb file?

因為要和SOTA比較模型的複雜度，我想知道引數數量。但是模型檔案不是tensorflow checkpoint，而是pb檔案，我發現當匯入graph後，tf.trainable_variables()返回空。 Problem setting : I need to compare wit

js中從json格式資料中獲取特定物件

寫個方法獲取： function getJsonValue(obj,name){ var result = null; var value = null; for(var key in obj){ valu

菲波那契數——根據輸入資料中的n，輸出第n項菲波那契數

1211：Description: 已知菲波那契數的定義： f(0) = 0 f(1) = 1 f(n) = f(n-1) + f(n-2) n>1的整數根據輸入資料中的n，輸出第n項菲波那契數。 Input: 輸入資料中含有一些整數n（0≤n≤46）。 Ou

關於資料中臺系統，需要了解哪些技術？

導讀：之前整理了一篇“全面解讀資料中臺，讓企業實現數字化轉型”文章，闡述了什麼是資料中臺、建立的原因和原則。今天讓我們全面解讀中臺，包括企業為什麼要平臺化，目前中臺都有哪些形式，實施中臺系統的優勢、面臨的問題以及建議都有哪些？中臺這個概念早期是由美軍

太多人從我的生命中劃過，我們還會再見到嗎？

　　一個人變優秀了，也會看到更大的世界，見到更美的風景，遇到更驚豔的人。再回首，年少時的執念與初心已成了風中的沙粒，而歲月中那個人的出現，則成了自己生命的一部分。就像毛毛蟲在蛹中溶解了自己的組織器官，分子重新組合後才有了破蛹的蝴蝶一樣，有些人的出現，改變了很多，把你送上新的平臺，進入新的世界，之後便隨著風一同

在大量資料中進行查詢，有無索引查詢的速度效果測試

首先在JAVA程式中向資料庫中進行資料的插入，因為要利用索引，少量的資料是不能夠測試出索引的效果，所以要插入大量的資料進行測試，這次我們插入50萬條記錄 JAVA程式如下：建立一個表classfor，向其中錄入50萬條記錄 package com.oracle.jdbc

從一個表格檔案中錄入資訊，進行計算後，在檔案中輸出這個表格

原始碼： #include <iostream> #include<fstream> #include<string> using namespace std; class student { private: string nu

從十億資料中找出出現最多的數以及出現次數

package org.example.bigdata; import java.util.Collections; import java.util.HashMap; import java.util.LinkedList; import java.util.List

從5組資料中所能看到的

今天，在我的物理實驗上，做了“分光計的調節和折射率的測量”實驗，到後來做得比較慢了，在測量量記錄折射率的過程中，我測了兩組資料後，發現數據基本相似，就自己編造了後面的3組資料。我的資料如下： 261

從jdbc的resultset中獲得列名

ResultSet rs = stmt.executeQuery("SELECT a, b, c FROM TABLE2");ResultSetMetaData rsmd = rs.getMetaDa

在程式碼中獲得物體，改變屬性

gameObject.Find("wenzi").GetComponent(GUIText).guiText=""; #pragma strict function Start () { } var sd:int; var xm:int; function Upda

從system返回值中獲得程式退出碼

#include <cstdlib> #include <iostream> #include <string> using namespace std; int main(int argc, char* argv[]) { cout

從React-Native坑中爬出，我記下了這些

吐槽如果React-Native是個人，我估計已經想要打死他了。。。上一篇文章當React開發者初次走進React-Native的世界前言最近因為業務需要，做了一些關於React-Native方面的開發，對一些自己遇到的問題做了記錄。總共 21 條要點記錄，

資料分析：如何從網際網路大資料中分析行業趨勢

一、前言：研究行業趨勢是每家公司的硬需求，如手機業者希望瞭解同行有沒有什麼顏色是比較受消費者歡迎的，護膚品公司想要了解什麼成分是被廣泛而且美譽的討論，藉由加入這些概念元素，他們可以讓他們的產品更具吸引力，這種跟風做法其實一直都有，但是傳統人工去看會遇到兩個問題： 1、發現過慢：通常人工可以發現時，這些概念元

如何從10億資料中快速判斷是否存在某一個元素

# 前言當 `Redis` 用作快取時，其目的就是為了減少資料庫訪問頻率，降低資料庫壓力，但是假如我們某些資料並不存在於 `Redis` 當中，那麼請求還是會直接到達資料庫，而一旦在同一時間大量快取失效或者一個不存在快取的請求被惡意攻擊訪問，這些都會導致資料庫壓力驟增，這又該如何防止呢？ # 快取雪崩

Css 中的 block，inline和inline-block概念和區別

同一行豎直獨立一個 fcc ng- 布局 text display 1.block和inline這兩個概念是簡略的說法，完整確切的說應該是 block-level elements (塊級元素) 和 inline elements (內聯元素)。block元素通常

從NCBI基因組資料中獲得cds，pep和geneID對應表

相關推薦