從blast結果中取出每個query搜到的evalue最小的結果

阿新 • • 發佈：2018-11-21

在做多基因blast時，通常每個基因找到的匹配序列很多。這時習慣根據evalue來進行篩選，evalue較小的其相似性更高。下面提供兩種方法解決。

一 linux命令

第11列為evalue值，第一列為基因名，先根據evalue升序排列，然後根據基因名去重。預設會保留最上面的一條記錄，即evalue最小值。

二 pandas

最近在看pandas，所以拿來練手。思路也是先排序，後去重。

import pandas as pd

#將blast(-outfmt 6)輸出結果儲存到DataFrame
inp = pd.read_table( 
'E:\python_test\1.blast')
inp

	query	subject	identity	align_length	q_start	q_end	s_start	s_end	evalue	bit_score
0	gene1	SQ183094348	100	147	1	147	378	232	3	272
1	gene1	SQ183119192	100	66	1	66	82	147	2	122
2	gene1	SQ182140986	100	157	1	157	88	244	1	291
3	gene2	SQ183094348	100	147	1	147	378	232	3	272
4	gene2	SQ183119192	100	66	1	66	82	147	2	122
5	gene2	SQ182140986	100	157	1	157	88	244	1	291
6	gene3	SQ183094348	100	147	1	147	378	232	9	272
7	gene3	SQ183119192	100	66	1	66	82	147	8	122
8	gene3	SQ182140986	100	157	1	157	88	244	7	291

#取出每個query對應的evalue最低的subject
inp.sort_values(by=['query','evalue']).drop_duplicates(subset='query')

	query	subject	identity	align_length	q_start	q_end	s_start	s_end	evalue	bit_score
2	gene1	SQ182140986	100	157	1	157	88	244	1	291
5	gene2	SQ182140986	100	157	1	157	88	244	1	291
8	gene3	SQ182140986	100	157	1	157	88	244	7	291

有可能出現gene相同，evalue相同的情況，我覺得可以在加上bit_socre和align_length進行排序，這兩列為降序排列。

從blast結果中取出每個query搜到的evalue最小的結果

在做多基因blast時，通常每個基因找到的匹配序列很多。這時習慣根據evalue來進行篩選，evalue較小的其相似性更高。下面提供兩種方法解決。一 linux命令第11列為evalue值，第一列為基因名，先根據evalue升序排列，然後根據基因名去重。預設

js從數組中取出n個不重復的數據

arr rda ray array clas RR gpo cti gin /** * 首先，針對這個數組做一個去重處理，避免你在後面取數據的時候，因為取到相同的元素而又要多去取一次隨機數 * 將獲取到的不重復的數組，再到這裏樣本裏面去取隨機數 * 每取到

運用反射從bean物件中取出屬性頁面顯示list優化

最近有一個需求，優化頁面list下拉列表顯示和資料庫的查詢，在頁面顯示的物件list下拉框的值改為根據指定的欄位查詢，並且封裝到一個統一的LabelVO類中。如何把查詢到的物件中需要的屬性名和值取出來放到LabelVO中是個問題，然後想到了用反射能不能解決，於是在網上查了一下，發現可以實現

三個程序P1、P2、P3互斥使用一個包含N(N＞0)個單元的緩衝區。P1每次用produce()生成一個正整數並用put()送入緩衝區某一空單元中；P2每次用getOdd()從該緩衝區中取出一個奇數並

這個問題較為簡單：與生產者一消費者問題非常類似，只不過涉及的程序多了一個。因此，我們可以用類似於生產者一消費者的解決方法來解決這個問題。不過，由於本問題的範圍在生產者～消費者問題上進行了線性擴充套件

從N個數中取出任意個數，求和為指定值的解

題目來自CSDN的帖子：原題是這樣的：任意給一陣列，如{-10，45，35，99，10，6，9，20，17，18} 再任意給一個值，如35. 請從上面的陣列中找出所有的組合，使他們的和等於35. 例如對於上面的陣列，所有的組合情況為： 35； -10+45； 17+

el學習之從四大域中取出資料以及執行表示式

1．EL 表示式概述EL（Express Lanuage）表示式可以嵌入在jsp頁面內部，減少jsp指令碼的編寫，EL 出現的目的是要替代jsp頁面中指令碼的編寫。2．EL從域中取出資料EL最主要的作用是獲得四大域中的資料，格式${EL表示式}EL獲得pageContext

從numpy陣列中取出滿足條件的元素

例如問題：從 arr 陣列中提取所有奇數元素。 input：arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) output: #> array([1, 3, 5, 7, 9]) Solution: #Input &g

多執行緒-從Future物件中獲取執行緒處理Callable方法的結果

Runnable 介面應該由那些打算通過某一執行緒執行其例項的類來實現。類必須定義一個稱為 run 的無引數方法。以上為Runnable介面的描述，明確可以看出，實現Runnable子類的例項是被執行緒來執行的。但是看看run方法的定義為void，因此，獲取run方法中

//組合演算法從M個數中取出N個數，無順序

[self myCombineAlgorithm:MutableArray num:5]; //組合演算法從M個數中取出N個數，無順序 -(void)myCombineAlgorithm:(NSMutableArray*)src num:(int)getnu

從Android手機中取出已安裝的app包[記錄]

TAG：Android，提取，apk，adb，pm，root假設有這樣一個場景，A君看到你手機上一個實用APP，想要安裝到自己手機上，限於下載浪費流量，那麼最簡單的就是從你的手機中拷貝一個，不過你安裝過的apk包已經刪除了，不能直接複製出來進行安裝。辦法來了，就是從手機中製造

如何使用shell從一個檔案中取出不在另一個檔案中的內容

本文展示如何利用shell從一個檔案中，（按行）找出不在另一個檔案中的內容。 #!/bin/bash #@filename checkAddWord.sh #allword.txt 存

java 從json串中取出某個欄位的值

import com.alibaba.fastjson.JSONObject; public class JsonTest { public static void main(String[] args) { // json串(以自己的為準) String st

從一字串中找出其無重複最長子串字元

Question：給定一個字串，找出不含有重複字元的最長子串的長度。 Ex：給定 "abcabcbb" ，沒有重複字元的最長子串是 "abc" ，那麼長度就是3。給定 "bbbbb" ，最長的子串就是 "b"

在集合中查找前k個最小的數

swa n) print style swap fin ++ sizeof out 1 #include <stdio.h> 2 #include <stdlib.h> 3 4 #define SIZE 10 5 6 int * k

整數陣列中兩兩之差絕對值最小的值

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

迴歸分析中的引數估計為何是最小二乘法（least squares），不是最小一乘法(least absolute deviations)

如題，面試被問到了。今天網上找了些資料，整理了一下。迴歸分析就是找到一條最合適的擬合線來逼近所有的觀測點。如何衡量擬合的好壞程度呢，直接地，就是看擬合值與觀測值之間的距離了。在這種情況下，我們直接用擬合值與觀測值差的絕對值就可以衡量誤差（如公式1），為什麼要用差的平方呢（

在MFC視窗中畫圖，如何使視窗最小化後圖形不消失

我遇到的問題：在MFC的視窗中畫圖，如何使最小化後圖形不消失？在mfc的視窗中畫圖形，但當這個視窗被遮蔽覆蓋或最小化後，圖就消失了，如何能使視窗還原後圖形依然顯示。解決辦法：新增對WM_PAINT訊息的處理,也就是加上OnPaint函式,把畫圖的程式碼放到這個函式中,這樣就可

把陣列中數字連起來組成一個最小的數字

題目描述：輸入一個整型陣列，將數組裡的所有數字連起來組成一個數字，輸出所有可能的數字中最小的一個。比如現在輸入一個數組 {3,32,321}，那麼輸出的最小的數應該是 321323. ------

SVM中的訓練演算法：序列最小最優化演算法SMO的讀書筆記

最近重看李航的統計學習方法，看SVM這章，細細的對了一下其中將SMO的這一張，記得去年這會兒看這本書的SMO這章還有點懵懵懂懂，並在書上寫了自己一些疑問的筆記，今年重新看發現之前的疑問不再是疑問了，於是做個筆記總結一下，總結一下。首先線性可分支援向量機的構建條件是需要線性

定義棧的資料結構，請在該型別中實現一個能夠得到棧最小元素的min函式。時間複雜度都是O（1）

定義棧的資料結構，請在該型別中實現一個能夠得到棧最小元素的min函式。要求：使得時間複雜度都是O（1）完成如下的函式： import java.util.Stack; public class Solution { public void pus

從blast結果中取出每個query搜到的evalue最小的結果

一 linux命令

二 pandas

相關推薦