perl novel可變剪接識別（2）

阿新 • • 發佈：2019-02-12

博主其實對未知的可變剪接分類有些困惑，但想了很久才使用了一項比較複雜的演算法，接下來並不是分類，而是先轉換資料庫，因為ensembl|gencode資料庫的格式並不能滿足博主的需求，轉換後更能方便地處理接下來的工作：

#!/usr/bin/env perl
use warnings;
use strict;

my (%gene);
open GTF, $ARGV[0] or die $!;
while(<GTF>)
{
	chomp;
	next if(/^#/);
	my @tmp = split;
	my ($gid) = $_ =~ /gene_id "([^;]+)";/; #匹配基因名稱
	if($_ =~ /gene_type "protein_coding";/) #分coding和noncoding分別處理，因為noncoding沒有UTR結構，不存在UTR的可變剪接
	{
		if($tmp[2] =~ /exon/)
		{
			push @{$gene{$tmp[0]}{$gid}{$tmp[6]}}, "$tmp[3],$tmp[4],1";
		}
	}else{
		if($tmp[2] =~ /exon/)
		{
			push @{$gene{$tmp[0]}{$gid}{$tmp[6]}}, "$tmp[3],$tmp[4],0";
		}
	}
}
close GTF;

open OUT, ">$ARGV[0].myformat" or die $!;
foreach my $c(keys %gene)
{
	foreach my $g(keys %{$gene{$c}})
	{
			foreach my $ps(keys %{$gene{$c}{$g}})
			{
				if($ps eq '+')
				{
					my ($s, $e, $type);
					if(@{$gene{$c}{$g}{$ps}} eq 1)
					{
						($s,$e, $type) = (split /,/, $gene{$c}{$g}{$ps}->[0])[0,1,2];
					}else{
						$s = (split /,/, $gene{$c}{$g}{$ps}->[0])[0];
						$e = (split /,/, $gene{$c}{$g}{$ps}->[-1])[1];
						$type = (split /,/, $gene{$c}{$g}{$ps}->[0])[2];
					}
					my (@start, @end);
					foreach my $loci(@{$gene{$c}{$g}{$ps}})
					{
						push @start, (split /,/, $loci)[0];
						push @end, (split /,/, $loci)[1];
					}
					my $ss = join ",", @start;
					my $ee = join ",", @end;
					print OUT join "\t", $c, $g, "$s-$e", $ps, $type, $ss, $ee, "\n";
				}else{
					my @ps_a = reverse @{$gene{$c}{$g}{$ps}};
					my ($s, $e, $type);
					if(@ps_a eq 1)
					{
						($s,$e,$type) = (split /,/, $ps_a[0])[0,1,2];
					}else{
						$s = (split /,/, $ps_a[0])[0];
						$e = (split /,/, $ps_a[-1])[1];
						$type = (split /,/, $ps_a[0])[2];
					}
					my (@start, @end);
					foreach my $loci(@ps_a)
					{
						push @start, (split /,/, $loci)[0];
						push @end, (split /,/, $loci)[1];
					}
					my $ss = join ",", @start;
					my $ee = join ",", @end;
					print OUT join "\t", $c, $g, "$s-$e", $ps, $type, $ss, $ee, "\n";
				}
			}
		
	}
}

這個格式類似ucsc的refseq格式，當然只是類似而已，而博主所需求的是gene型別和exon起始與終止而已。

說到資料庫的轉換，博主還想起來一件事情，就是refseq轉gff格式，其實兩者差的有些多。

有個妹子寫了一個轉換的，還不錯，展示的內容非常的詳細想要啥結果都可以，當然在這之中博主也貢獻了一點功勞，嘿嘿！就拿來在這展示一下吧：

#!perl -w
use strict; 
die "Usage : perl $0 <in.refGene.lst> <out.gff>" unless (@ARGV == 2);
my ($in, $out) = @ARGV;

my($pre, $insert, @inserts, $utr, $utr_o, $i, $j, $cds, $nm, $chr, $direction, $start_exon, $end_exon, $start_cds, $end_cds, $cds_num, $start, $end, $tmp, $gene, @starts, @ends, $up, $down);

if ($in =~ /\.gz/){open IN, " gzip -dc $in | " || die $!;}
else{open IN, $in || die $!;}
if ($out =~ /\.gz/){open OUT, "| gzip > $out" || die $!;}
else {open OUT , "> $out" || die $!;}

while (<IN>){
		chomp;
		($nm, $chr, $direction, $start_exon, $end_exon, $start_cds, $end_cds, $cds_num, $start, $end, $tmp, $gene, $insert) = (split)[1..12,15];
		if ($nm =~ /NM/){
				$pre = 'mRNA';
		}else{
				$pre = 'ncRNA';
		}
		$start =~ s/,$//;
		$end =~ s/,$//;
		$insert =~ s/,$//;
		$insert =~ s/\-1/\./g;
		if ($cds_num > 1){
				@starts = split /,/, $start;
				@ends = split /,/, $end;
				@inserts = split /,/, $insert;
		}else{
				@starts = ($start);
				@ends = ($end);
				@inserts = ($insert);
		}
		print OUT "$chr\trefGene\t$pre\t$start_exon\t$end_exon\t.\t$direction\t.\tID=$nm; name=$gene;\n";
		if ($direction eq '+'){
				$utr = 5;
				$utr_o = 3;
				#print OUT "$chr\trefGene\t5-UTR\t$start_exon\t",$start_cds-1,"\t.\t$direction\t.\tParent=$nm;\n";
		} else {
				$utr = 3;
				$utr_o = 5;
				#print OUT "$chr\trefGene\t3-UTR\t$start_exon\t",$start_cds-1,"\t.\t$direction\t.\tParent=$nm;\n";
		}
		for ($i = 0; $i < @starts; $i ++){
				print OUT "$chr\trefGene\tintron\t",$ends[$i-1]+1,"\t",$starts[$i]-1,"\t.\t$direction\t.\tParent=$nm;\n" if ($i > 0);
				if ($pre eq 'ncRNA'){
						print OUT "$chr\trefGene\tCDS\t$starts[$i]\t$ends[$i]\t.\t$direction\t$inserts[$i]\tParent=$nm;\n";
						next;
				}
				if ($ends[$i] < $start_cds){
						print OUT "$chr\trefGene\t$utr-UTR\t$starts[$i]\t$ends[$i]\t.\t$direction\t$inserts[$i]\tParent=$nm;\n";
				}elsif($starts[$i] < $start_cds and $ends[$i] > $start_cds){
						print OUT "$chr\trefGene\t$utr-UTR\t$starts[$i]\t", $start_cds - 1, "\t.\t$direction\t.\tParent=$nm;\n";
						print OUT "$chr\trefGene\tCDS\t$start_cds\t$ends[$i]\t.\t$direction\t$inserts[$i]\tParent=$nm;\n";
				}elsif($starts[$i] >= $start_cds and $ends[$i] <= $end_cds){
						print OUT "$chr\trefGene\tCDS\t$starts[$i]\t$ends[$i]\t.\t$direction\t$inserts[$i]\tParent=$nm;\n";
				}elsif($starts[$i] < $end_cds and $ends[$i] > $end_cds){
						print OUT "$chr\trefGene\tCDS\t$starts[$i]\t$end_cds\t.\t$direction\t$inserts[$i]\tParent=$nm;\n";
						print OUT "$chr\trefGene\t$utr_o-UTR\t", $end_cds + 1, "\t$ends[$i]\t.\t$direction\t.\tParent=$nm;\n";
				}else{
						print OUT "$chr\trefGene\t$utr_o-UTR\t$starts[$i]\t$ends[$i]\t.\t$direction\t$inserts[$i]\tParent=$nm;\n";
				}
		}
}
close IN;
close OUT;

上面是正常的gff格式，下面將新增一些別的東西：

#!perl -w
use strict;
die "Usage : perl $0 <in.file> <out.file> " if (@ARGV > 2);
my ($in, $out) = @ARGV;

$in ||= 'refGene.sort.2.gz';
$out ||= 'refGene.ann.gz';

if($in =~ /\.gz/){
		open IN, "gzip -dc $in |" || die $!;
}else{
		open IN, $in || die $!;
}

if ($out =~ /\.gz/){
		open OUT, "| gzip > $out " || die $!;
}else{
		open OUT, "> $out" || die $!;
}


my (@tmps, $chr, $ref, $region, $start, $end, $num, $dot, $id, $count_cds, $count_intron, $gene, $nm);
my (%infos, %genes);
my @chrs = (1..22, 'X', 'Y');

$/ = "\n>";
chomp (my $line = <IN>);
@tmps = split /\n/, $line;

my ($chr_b, $end_b, $orientation, $id_b) = $tmps[0] =~ /(chr\w+)\t\w+\t\w+RNA\t\d+\t(\d+)\t\.\t([\+\-])\t\.\t(ID=\S+; name=\S+)$/;
$tmps[0] =~ s/>//;
print OUT "$tmps[0]\n";
@tmps[1..$#tmps] = &add_num ($orientation, @tmps[1..$#tmps]);
print OUT join "\n", @tmps[1..$#tmps];
print OUT "\n";

while (<IN>){
		chomp;
		@tmps = split /\n/, $_;
		($chr, $start, $end, $orientation, $id) = $tmps[0] =~ /(chr\w+)\t\w+\t\w+RNA\t(\d+)\t(\d+)\t\.\t([\+\-])\t\.\t(ID=\S+; name=\S+)$/;
		if ($chr eq $chr_b and $end_b < $start){
				print OUT "$chr\trefGene\tintergenic\t",$end_b + 1, "\t", $start - 1, "\t.\t.\t.\t$id_b|$id\n";
		}
		($chr_b, $end_b ,$id_b) = ($chr, $end, $id);
		$tmps[0] =~ s/>//;
		print OUT "$tmps[0]\n";
		@tmps[1..$#tmps] = &add_num ($orientation, @tmps[1..$#tmps]);
		print OUT join "\n", @tmps[1..$#tmps];
		print OUT "\n";
}
close IN;
close OUT;
#$/ = '\n';


sub add_num {
		my @tmps = @_;
		my ($count_cds, $count_intron) = (0, 0);
		if ($tmps[0] eq '+'){
				for my $tmp (@tmps[1..$#tmps]){
						if ($tmp =~ /CDS/){
								$count_cds ++;
								$tmp =~ s/\.\t\+/$count_cds\t\+/;
								#$count_cds ++;
						}elsif($tmp =~ /intron/){
								$count_intron ++;
								$tmp =~ s/\.\t\+/$count_intron\t\+/;
								#$count_intron ++;
						}
				}
				return @tmps[1..$#tmps];
		}
		#return @tmps[1..$#tmps];
		for my $tmp (@tmps[1..$#tmps]){
			if ($tmp =~ /CDS/){
					$count_cds ++;
			}elsif($tmp =~ /intron/){
					$count_intron ++;
			}
		}
		for my $tmp (@tmps[1..$#tmps]){
				if ($tmp =~ /CDS/){
						$tmp =~ s/\.\t\-/$count_cds\t\-/;
						$count_cds --;
				}elsif($tmp =~ /intron/){
						$tmp =~ s/\.\t\-/$count_intron\t\-/;
						$count_intron --;
				}
		}
		return @tmps[1..$#tmps];
}

指令碼如下：

less refGene.txt.gz | sort -k3,3 -k5,5n |gzip > refGene.txt.sort.gz
perl format.pl refGene.txt.sort.gz refGene.gff.gz
less refGene.gff.gz  |perl -lane 'if($F[2] =~ /RNA/){$F[0] = ">$F[0]";}print join "\t",@F[0..7], "$F[8] $F[9]";'  |gzip > refGene.gff.2.gz
perl ann.sort.pl refGene.gff.2.gz refGene.ann.gz

最終的轉換格式如下：

chr1	refGene	intron	763230	764381	1	+	.	Parent=NR_047525; 
chr1	refGene	CDS	764382	764484	2	+	.	Parent=NR_047525; 
chr1	refGene	intron	764485	787305	2	+	.	Parent=NR_047525; 
chr1	refGene	CDS	787306	787490	3	+	.	Parent=NR_047525; 
chr1	refGene	intron	787491	788049	3	+	.	Parent=NR_047525; 
chr1	refGene	CDS	788050	788146	4	+	.	Parent=NR_047525; 
chr1	refGene	intron	788147	788769	4	+	.	Parent=NR_047525; 
chr1	refGene	CDS	788770	794826	5	+	.	Parent=NR_047525; 
chr1	refGene	intergenic	794827	803449	.	.	.	ID=NR_047525; name=LOC643837;|ID=NR_027055; name=FAM41C;
chr1	refGene	ncRNA	803450	812182	.	-	.	ID=NR_027055; name=FAM41C;
chr1	refGene	CDS	803450	804055	3	-	.	Parent=NR_027055; 
chr1	refGene	intron	804056	809490	2	-	.	Parent=NR_027055; 
chr1	refGene	CDS	809491	810535	2	-	.	Parent=NR_027055; 
chr1	refGene	intron	810536	812124	1	-	.	Parent=NR_027055; 
chr1	refGene	CDS	812125	812182	1	-	.	Parent=NR_027055; 
chr1	refGene	intergenic	812183	852951	.	.	.	ID=NR_027055; name=FAM41C;|ID=NR_026874; name=LOC100130417;
chr1	refGene	ncRNA	852952	854817	.	-	.	ID=NR_026874; name=LOC100130417;
chr1	refGene	CDS	852952	853100	4	-	.	Parent=NR_026874; 
chr1	refGene	intron	853101	853400	3	-	.	Parent=NR_026874; 
chr1	refGene	CDS	853401	853555	3	-	.	Parent=NR_026874; 
chr1	refGene	intron	853556	854203	2	-	.	Parent=NR_026874; 
chr1	refGene	CDS	854204	854295	2	-	.	Parent=NR_026874; 
chr1	refGene	intron	854296	854713	1	-	.	Parent=NR_026874; 
chr1	refGene	CDS	854714	854817	1	-	.	Parent=NR_026874; 
chr1	refGene	intergenic	854818	861119	.	.	.	ID=NR_026874; name=LOC100130417;|ID=NM_152486; name=SAMD11;
chr1	refGene	mRNA	861120	879961	.	+	.	ID=NM_152486; name=SAMD11;
chr1	refGene	5-UTR	861120	861180	.	+	.	Parent=NM_152486; 
chr1	refGene	intron	861181	861300	1	+	.	Parent=NM_152486; 
chr1	refGene	5-UTR	861301	861320	.	+	.	Parent=NM_152486; 
chr1	refGene	CDS	861321	861393	1	+	0	Parent=NM_152486;

第6列為exon和intron的排列順序，第8列為翻譯偏移量，intergenic為新增兩個gene或transcript之間的距離等，加強版的gff格式~~~

perl novel可變剪接識別（2）

博主其實對未知的可變剪接分類有些困惑，但想了很久才使用了一項比較複雜的演算法，接下來並不是分類，而是先轉換資料庫，因為ensembl|gencode資料庫的格式並不能滿足博主的需求，轉換後更能方便地處理接下來的工作： #!/usr/bin/env perl use warn

perl novel可變剪接識別（1）

想把之前做的可變剪接模型給大家說一下，看看有什麼遺漏的沒有，由於當時想法比較複雜，所以程式有點多，大致分三個部分來進行。首先，拿到的結果是tophat給出的junction的資料，其次博主使用的資料庫是ensembl的資料庫，gencode也可以，先得到已知的參考junc

京東金融大數據競賽豬臉識別（2）- 圖像特征提取之一

圖像特征提取文件夾遍歷圖像識別進入深度學習時代後，特征提取這個詞的使用頻率明顯下降了。因為深度網絡已經完成了從圖像輸入到分類結果輸出的全過程，似乎不需要再關心特征的好壞和特征提取對於識別結果的影響。不過，不管從算法研究還是工程實現角度看，將特征提取獨立出來應該更有利。這樣我們可以對各種特征提取方法

python實現人臉檢測及識別（2）---- 利用keras庫訓練人臉識別模型

前面已經採集好資料集boss資料夾存放需要識別的物件照片，other存放其他人的訓練集照片，現在，我們終於可以嘗試訓練我們自己的卷積神經網路模型了。CNN擅長影象處理，keras庫的tensorflow版亦支援此種網路模型，萬事俱備，就放開手做吧。前面說過，我們需要通過大量的訓練資料訓練我們的模型，

虛假流量識別（2）

上篇圍繞虛假流量的發生機制、發生原因（背後的利益捆綁）、識別虛假流量的常見維度等；下篇從一個案例完整介紹如何識別虛假流量。在虛假流量的認知與識別（上篇）中介紹，虛假流量的識別可從基本屬性、產品參與度、轉化情況三方面來識別。首先，基本屬性。具體包括：時間 &am

微信小程式之人臉識別（2）

上一篇部落格已經將人臉的照片上傳到了人臉庫，接下來需要做的就是登入時拍照儲存並與人臉庫的圖片進行對比，當score大於95即識別成功！下面是wxml程式碼，主要用的就是camera元件，點選按鈕拍照並儲存，利用開關來控制使用前置還是後置攝像頭。<!--pages/cam

opencv——基於SVM的數字識別（2）

上篇文章我們用的特徵是訓練樣本的所有畫素點值，雖然方便但不準確。這篇文章主要介紹用SVM+HOG特徵對數字進行識別。詳細請看上篇文章，它們主要區別在於訓練樣本HOG特徵的提取，其他基本一樣，所以我直接附上程式碼。下面程式碼是opencv3和C++ 可以根據自己需要修改訓練樣本類

perl入門知識（2）

連接符用法 num 路徑常用函數表示取余運算符內容交互式編程你可以在命令行中使用 -e 選項來輸入語句來執行代碼，實例如下：$ perl -e ‘print "Hello World\n"‘輸入以上命令，回車後，輸出結果為：Hello World 腳本式編程

第21課可變參數模板（2）_展開參數包

delet pre 控制 seq src 構造 pro head del 1. 可變參數模板函數（1）遞歸函數方式展開參數包　　①一般需要提供前向聲明、一個參數包的展開函數和一個遞歸終止函數。　　②前向聲明有時可省略，遞歸終止函數可以是0個或n個參數（2）逗號表達式

TensorFlow車牌識別實踐（2）

準備 flow .com .py pill 檢測遺憾 http pillow http://www.cnblogs.com/jackkwok/p/7228021.html 1，運行準備按照https://github.com/matthewearl/deep-anpr說

perl學習（2）hashes

信息 arrays inverse 例子結構字符串隨機符號 score 一：　　哈希概念　　　　是一種數據結構，可容納很多值，並能隨機存取；由關鍵字與索引值構成<key,value>；　　　　key值是唯一的二：　　應用場景：　　　　根據主機名找

機器學習（2） - KNN識別MNIST

min lose fse skip show turn ESS 行數 sna 代碼 https://github.com/s055523/MNISTTensorFlowSharp 數據的獲得數據可以由http://yann.lecun.com/exdb/mnist

Tensorflow之MNIST手寫數字識別：分類問題（2）

整體程式碼： #資料讀取 import tensorflow as tf import matplotlib.pyplot as plt import numpy as np from tensorflow.examples.tutorials.mnist import input_data mnis

新手上手Tensorflow之手寫數字識別應用（2）

本系列為應用TensorFlow實現手寫數字識別應用的全過程的程式碼實現及細節討論。按照實現流程，分為如下幾部分： 1. 模型訓練並儲存模型 2. 通過滑鼠輸入數字並儲存 2. 影象預處理 4. 讀入模型對輸入的圖片進行識別本文重點討論模型的儲存以及讀入問題。關於Tens

模式識別（六）特徵生成2

根據處理的影象，聲音，文字等資訊的統計特性，可以給出很多反映資訊特性的特徵。模式識別也是對特徵的辨別，不管是有監督的學習分類還是無監督的聚類，都間接或者直接的對特徵進行了提取或者表徵。比如線性迴歸，在使用一條曲線擬合一堆資料的時候，這條曲線（或者曲線引數）就是這堆資料的特徵，而結果和實際

機器人視覺專案：視覺檢測識別+機器人跟隨（2）

目標：在TX2上執行人體檢測和跟蹤演算法主體方案：人體檢測[yolov3] + 跟蹤[KCF] 現狀 yolov3在tx2的幀率是2fps，yolov3-tiny能達到15~20fps。 KCF很快，但是很容易跟丟。目前用的是RGB影象，

python人臉識別、語音合成、智慧簽到系統（2）

基於python+face_recognition+opencv+pyqt5+百度AI實現的人臉識別、語音播報、語音合成、模擬簽到系統（2）人臉識別效果圖功能介紹檔案 ft2.py (對漢字實現轉碼opencv的puttxt不支援漢字需要轉碼)

簡單NLP分析套路（2）----分詞，詞頻，命名實體識別與關鍵詞抽取

文章大綱中文分詞技術評測參考雲服務哈工大語言云 ltp 基於深度學習方法的中文分詞資訊檢索與關鍵詞提取 tf-idf TEXTRANK word2vector

端到端車牌/驗證碼識別（tensorflow版）——（2）

端到端車牌識別（2）二、CNN方法 4. 模型訓練先附上程式碼train.py： """ Created on Tue Sep 5 15:37:26 2017 @author: llc """ #%% import os import numpy as

Deeplearning4j 實戰（2）：Deeplearning4j 手寫體數字識別Spark實現

在前兩天的部落格中，我們用Deeplearning4j做了Mnist資料集的分類。算是第一個深度學習的應用。像Mnist資料集這樣圖片尺寸不大，而且是黑白的開源圖片集在本地完成訓練是可以的，畢竟我們用了Lenet這樣相對簡單的網路結構，而且本地的機器配置也有8G左右的記憶體。但實際生產中，圖片的數量

perl novel可變剪接識別（2）

相關推薦