提取最長轉錄本的程式碼

阿新 • • 發佈：2019-01-26

1.最長轉錄本：就是gene的id相同，但是序列的長度不一樣，應該挑選出序列最長作為後面的分析

下面就是一個轉錄本的id檔案，都是來自同一個gene,但是轉錄本的id和長度均不相同

分析：發現除了第4列表示的基因id相同以外，其他的列均不相同。

2.過濾最長轉錄本的程式設計思路：

考慮到綿羊的轉錄本的id的複雜性，主要按一下幾個步驟來實現：

step1: 讀取轉錄本序列的fasta檔案，並統計序列的長度，生成一個ID檔案，該ID檔案比原來的轉錄本id多出一列，即變成13列，而第13列內容為序列的長度

>ENSOART00000000006 mt_genbank_import:known chromosome:Oar_v3.1:MT:2745:3699:1 gene:ENSOARG00000000006 gene_biotype:protein_coding transcript_biotype:protein_coding 955

step2: 根據上面的ID檔案的第4列資訊(gene:XXXX)和最後一列的長度資訊，過濾得到最長的轉錄本的ID_filter檔案

step3: 通過awk 將ID_filter的最後一列過濾掉，生成最終的ID_final因為如果不過濾掉就和最初輸入的轉錄本序列對應不上

step4:通過存一個雜湊，將ID_final中的id序列挑選出來

然後考慮用一個*.sh指令碼將其全部串起來

問題：

能夠將三個程式寫成一個程式，而實現上面4步的功能？

除了運用perl的語言存雜湊以外，還有其他的方法嗎？

後續會繼續更新

提取最長轉錄本的程式碼

1.最長轉錄本：就是gene的id相同，但是序列的長度不一樣，應該挑選出序列最長作為後面的分析下面就是一個轉錄本的id檔案，都是來自同一個gene,但是轉錄本的id和長度均不相同分析：發現除了第4列表示的基因id相同以外，其他的列均不相同。 2.過濾最長轉錄本的程式

取轉錄本fasta最長的當作基因fasta

#!/usr/bin/env perl use warnings; use strict; use Bio::SeqIO; die "perl $0 <fasta> > <outfile>\n" if(@ARGV != 1); my @le

25、轉錄本(transcript)組成(gtf文件的第三列)

技術 top 不一定 idt 分享 orf 一個 2.3 ear 轉錄本(transcript)長度範圍 3214482 到3671498 3214482--3216021----3216022--3216024----3216025--3216968----3421702

轉錄本組裝軟體StringTie的使用說明

轉錄本組裝軟體StringTie的使用說明 StringTie 轉錄本組裝軟體StringTie的使用說明轉錄組分析流程 HISTA + StringTie 組合。其Protocol 發表在Nature Protocol 上“Transcript-level exp

如何通過RNA-Seq瞭解轉錄本的結構

[轉載]如何通過RNA-Seq瞭解轉錄本的結構已有 1942 次閱讀 2014-12-26 15:22 |個人分類:轉錄組測序|系統分類:科研筆記|關鍵詞:RNA-Seq,轉錄組測序,轉錄本結構| RNA-seq, 轉錄組測序, 轉錄本結構&nbs

LeetCode 5最長迴文子串(java程式碼)

方法一：動態規劃定義P(i,j):如果字串從i位置到j位置是迴文,P(i,j)=true;否則,P(i,j)=false; 那麼P(i,j)= P(i+1,j−1) && Si==Sj &

字串的倒序字串轉數字數字轉字串獲取最長的單詞

#include <stdio.h> #include <ctype.h> #include <stdlib.h> #include <string.h> 字串的倒序“abcd”->“dcba” void Reverse_str(char

資訊學奧賽一本通 1143：最長最短單詞

1143：最長最短單詞時間限制: 1000 ms 記憶體限制: 65536 KB 提交數: 2327 通過數: 703 【題目描述】

小程式跳轉小程式，長按識別小程式碼跳轉小程式解決方案

場景描述：因為小程式跳轉的時候需要公眾號關聯，但是關聯的數量是有限的！因此該文章的處理方案是： a.關聯的小程式，直接可以點選開啟 b.沒有關聯的，那麼可以長按識別小程式碼來進入小程式下面展示效果： 1.點選關聯有appid的時候，直接進入小程式 2.點選沒有appid的

《程式設計師程式碼面試指南》矩陣最長遞增路徑問題——java實現

矩陣最長遞增路徑問題題目描述：給定一個整數矩陣matrix，每個位置你可以向左、右、下、上移動，找到其中最長的遞增路徑。例如： matrix = [ [9,9,4], [6,6,8], [2,1,1] ] 返回4 最長路徑是[1, 2, 6, 9]. m

《程式設計師程式碼面試指南》求兩個字串最長公共子串

/** * 題目： * 給定兩個字串 str1 和 str2，返回兩個字串的最長公共子串。 *舉例： * str1 = "1AB2345CD"，str2 = "12345EF"，返回"2345"。 */ /** * 解答： * 經典動態規劃的方法可以做到時間複

Python Trie樹實現最長字首字串提取

在文字解析專案中，經常會碰到提取品牌、商家名等需求。如給定一個手機型號字串，要求從中提取出品牌。Trie可以很好滿足此類需求。 Tire，也叫字首樹字典樹，是一種資料結構，可以用來快速檢索字串是否存在以及在字串開始處抽取預定義的子字串。 Python中無指標，使用Dict

值最大子串，最長無重複子串，最長無重複子序列，最長公共子串，最長公共子序列解法及程式碼

1.值最大子串比如{5,-3,4,2}的最大子序列就是 {5,-3,4,2}，它的和是8,達到最大；而 {5,-6,4,2}的最大子序列是{4,2}，它的和是6。思路：看子串和是否大於0，大於0繼續加，小於0就從當前開始。 int maxSubSum(const vector<

字串逆序、轉數字、獲取最長單詞

主要內容：針對於字串的基本操作：字串逆序、獲取最長單詞、數字字元轉數字、數字轉字串、十六進位制字串轉十進位制數 //字串逆置 void Reverse_str(char *str) { char *p; for(p=str;*p!='\0';p++) ;

最長上升子序列 O(nlogn)解法 (轉)

最近在做單調佇列，發現了最長上升子序列O(nlogn)的求法也有利用單調佇列的思想。最長遞增子序列問題：在一列數中尋找一些數，這些數滿足：任意兩個數a[i]和a[j]，若i<j，必有a[i]<a[j]，這樣最長的子序列稱為最長遞增子序列。設dp[i]表示以i為結尾的最長遞增子序列的長

DP—最長下降子序列（程式碼）

原理和最長上升子序列一樣，排序和二分時比較方法改一下即可 #include <iostream> #include <cstring> int arr[1003],ans[1003]; using namespace std; int

求最長公共子串的長度程式碼

#include<iostream> #include<string> #include<vector> using namespace std; string s

JVM六:查詢最最耗cpu的執行緒或執行緒時間最長並定位程式碼

jstack可以定位到執行緒堆疊，根據堆疊資訊我們可以定位到具體程式碼，所以它在JVM效能調優中使用得非常多。下面我們來一個例項找出某個Java程序中最耗費CPU的Java執行緒並定位堆疊資訊，用到的命令有ps、top、printf、jstack、grep。第一步先找出Java程序ID，伺服器上的Java

字串中查詢最長迴文子串完整程式碼

#include <stdio.h> #include <string.h> #include <malloc.h> int Min(int a,int b) { return ((a-b)?b:a); } char* huiw

轉置矩陣的分塊並行乘法（C語言實現），計算矩陣C[rawn][rawn]=A[rawm][rawn]'B[rawm][rawn]，子塊大小為ST，其演算法實現原理參加本程式碼的附件。

#include <stdio.h> #include <stdlib.h> #include <string.h> #include <math.h> #define rawm 4 #define rawn 4 #defi

提取最長轉錄本的程式碼

相關推薦