使用Python通過染色體id+位置查詢基因名列表

阿新 • • 發佈：2018-11-10

簡介

通常使用bwa做mapping後會獲得sam檔案，而sam檔案包含2個重要的欄位：該序列mapping上的染色體id和位置(比如第2列(chr5)和第3列(36345037))

KMER_44   0     chr5    36345037        37      7M1D24M *       0       0       CTGATGCAAAAAAAAAAAAGCTTTTTTGAAG II*II?IIIIIIIIII8;[email protected];I4E+2 XT:A:U  NM:i:1  X0:i:1  X1:i:0  XM:i:0  XO:i:1  XG:i:1  MD:Z:7^A24
KMER_45   0     chr5    142493459       37      13M2D18M        *       0

若想通過這2個欄位去檢視該位置上包含哪些已經存在的基因，怎麼做呢？
python提供了一個神奇的包：pyensembl
官網demo:

from pyensembl import EnsemblRelease

# release 77 uses human reference genome GRCh38
data = EnsemblRelease(77)

# will return ['HLA-A'] contig就是chr6的6(染色體id)
gene_names = data.gene_names_at_locus(contig=6, position=29945884)

# get all exons associated with HLA-A 

exon_ids = data.exon_ids_of_gene_name('HLA-A')

安裝步驟

1.先安裝pyensembl

pip install pyensembl

2.執行的時候，提示你要下載一下基因資料庫，執行下面的命令即可

pyensembl install --release 77 --species homo_sapiens

但是不知為何，windowns總是出現如下錯誤:

urlopen error ftp error: error_perm('550 Failed to change directory.',)>

總共需要下載4個壓縮包

Homo_sapiens.GRCh38.77.gtf.gz
Homo_sapiens.GRCh38.cdna.all.fa.gz
Homo_sapiens.GRCh38.ncrna.fa.gz
Homo_sapiens.GRCh38.pep.all.fa.gz

python-ftp-bug無解，只能手動一個一個下載，如下提供一個csdn下載地址:
https://download.csdn.net/download/jiangpeng59/10729670

若是windowns需解壓到如下目錄，注意路徑和自己的使用者名稱對應即可(PJ.Javis)

C:\Users\PJ.Javis\AppData\Local\pyensembl\GRCh38\ensembl77\pyensembl\GRCh38\ensembl77\Cache

然後在此執行上面的命令，但又會提示

ModuleNotFoundError: No module named 'resource'

明明安裝了resource但就是找不到，貌似是win的BUG，如下提供一個暴力的方法，修改檔案"anaconda3\lib\site-packages\gtfparse\util.py"，註釋掉相應的內容- -，最後可正常執行命令。

from __future__ import print_function, division, absolute_import
import sys
#import resource

def memory_usage():
    """
    Returns number of megabytes of memory currently being used by this Python
    process
    """
    # resources = resource.getrusage(resource.RUSAGE_SELF)
    # if sys.platform == 'darwin':
    #     resident_bytes = resources.ru_maxrss
    #     resident_kilobytes = resident_bytes / 1024
    # else:
    #     resident_kilobytes = resources.ru_maxrss
    # return resident_kilobytes / 1024
    return 1024

使用Python通過染色體id+位置查詢基因名列表

簡介通常使用bwa做mapping後會獲得sam檔案，而sam檔案包含2個重要的欄位：該序列mapping上的染色體id和位置(比如第2列(chr5)和第3列(36345037)) KMER_44 0 chr5 36345037 37

Python通過lxml庫遍歷xml通過xpath查詢（標簽，屬性名稱，屬性值，標簽對屬性）

style 去掉 odi 之間 [] 符號層次結構 div amp xml實例：版本一： <?xml version="1.0" encoding="UTF-8"?><country name="chain"><provinces>

Python如何獲取到當前函數名和通過字符串調用函數

環境 print 反射 [1] bject raise 調用函數判斷可能獲取當前函數名: 應用環境: 某些時候, 為了簡化和更好擴展程序,我們需要獲取到當前運行的函數名字方法1(不推薦) import sys def I_want_to_know_my_name()

python--通過xpath相對節點位置查找元素（續）

xpath相對節點元素查找相對節點位置查找方法父節點兄弟節點之前寫過相對父元素及下一個兄弟元素的方法。這次補充一下xpath相對節點位置查找元素的所有方法。例子就不舉了，自己可以去練練。 xpath相對節點查找方法： 1、xpath(‘./ancestor::*‘)查找當前節點

Python 通過微信控制實現app定位傳送到個人伺服器，再轉發微信伺服器接收位置資訊。

考慮到女友的安全問題,就做了一個app實現定位和伺服器實現轉發的東西。剛學python,竟沒想到用物件程式設計會更加方便,全程過程式開發,程式碼有點臃腫,就當學習下python吧.效果就是:在微信公眾號中輸入指定字元比如:”我要知道你的位置”,手機那端的位置就彈出來了.主要是講一下思路:先是

Python通過wmi修改dns，通過windows的執行wbemtest.exe測試wql查詢語句

可以使用 win鍵+R，開啟執行對話方塊，輸入wbemtest.exe測試可查詢wmi物件與wql語句修改需要【管理員許可權】執行 //外掛 pip install pywin32 pip install wmi # -*- coding: utf-8 -*- # chan

python 通過騰訊地圖API獲取全國關鍵詞（樓盤/商場）位置資訊

到騰訊地圖API官網https://lbs.qq.com/index.html 申請一張賬號，申請開發者金鑰（Key）：申請金鑰。以下為搜尋全國萬達的地理位置資訊 #!coding=utf-8 import requests import re import rand

Python 通過函式名的字串呼叫對應的函式

Python 通過函式名的字串呼叫對應的函式使用 getattr() 函式可以實現： class func_factory: def func_name1(self, x): print('func_name1', x) def func_nam

mybatis環境搭建，對錶進行增刪改查（通過id，查詢所有行（list返回），通過兩個關鍵字進行查詢）

搭建mybatis 開發環境 1. 引入jar包 Mybatis 3.2.2.jar ojdbc5.jar log4j-1.2.17.jar(列印日誌，可以看到mybatis的具體實現) 2. 為mybatis 設定執行環境（通過配置檔案） myba

Python pandas 單條染色體體位置區間 SNP 資料提取 haploview

import pandas as pd sheet1 = pd.read_excel('C:\\Users\\windows10\\Desktop\\Python練習\\文字流\\chrom 1\\chrom1_map.xlsx') sheet1 print(type(sheet1)) s

Uiautomator ------通過控制元件ID來查詢進行測試

在上一篇Uiautomator測試----系統測試是通過Uiautomatorviewer工具來搜尋查詢，當控制元件含有搜尋字元時唯一時，容易定位及編寫程式碼如： new UiSelector().className("android.widget.TextView").

Python 如何根據關鍵詞查詢包名

參考資料：http://blog.csdn.net/xia7139/article/details/9113433 相信用過python的同學都碰到過利用pip install的時候發現安裝程式找不到該包名的安裝包，因為python包名不一定和庫名完全相同。那麼如何根

node.js+mongoose通過mongodb的id來查詢資料id型別不對問題的解決

mongodb在資料插入的時候自帶一個唯一的ID，這將方便我們的查詢，但是因為這個ID是特殊的Objectid 型別，所以我們在使用ID進行查詢的時候要把我們取到的字串型別的id轉換成ObjectId

在python中獲取當前位置所在的行號和函式名

對於python，這幾天一直有兩個問題在困擾我: 1.python中沒辦法直接取得當前的行號和函式名。這是有人在論壇裡提出的問題，底下一群人只是在猜測python為什麼不像__file__一樣提供__line__和__func__，但是卻最終也沒有找到解決方案。

[Python]通過websocket與jsclient通信

hash csdn dsm init sel host ces elf 我們站點大多使用HTTP協議通信。而HTTP是無連接的協議。僅僅有client請求時，server端才幹發出對應的應答。HTTP請求的包也比較大，假設僅僅是非常小的數據通信。開銷過大。於是，我們能

10 行 Python 代碼實現模糊查詢/智能提示

import 3.5 django title gif function 項目正則表達裏的 10 行 Python 代碼實現模糊查詢/智能提示 1、導語：模糊匹配可以算是現代編輯器(如 Eclipse 等各種 IDE)的一個必備特性了，它所做的就是根據用戶輸入

使用Python通過xlrd處理excel實戰

python excel xlrd 項目需求：通過指定excel文件，文件格式如下：要求下載第四列URL中的圖片，圖片保存名稱為，url中的名稱，每個公司需要單獨建立一個獨立的文件夾，公司下面會有不同類型的圖片，不同類型的圖片也需要不同的文件夾保存，最終將圖

域名查詢IP及公網IP地址地理位置查詢

ip 查詢域名腳本 shell #!/bin/bashprintf "本腳本包含ip地理位置查詢及已知域名查詢IP \n"printf "###################################### \n"printf "/tmp/dns.txt 需要查詢的域名列表目錄

Python通過SSH隧道鏈接Kafka

available nobrokers kafka Python通過SSH隧道鏈接Kafka最近有一個需求需要連接Kafka，但是它只允許內網鏈接，但是有些服務跑在服務器上總沒有在我本機調試起來爽，畢竟很多開發工具還是在客戶端機器上用的熟練。於是我想到了通過SSH連接Kafka，至於怎麽連接可以通

instance在ceph對應pool的位置查詢

ceph pool先是rados -p vms ls 查看 map的id然後通過map的ID 去查看所在pg的位置ceph osd map vms rbd_object_map.25f24a3c4e2d通過ceph osd tree | grep -A 10 osd.216查看所在設備遠程登錄所在設備進入相應

使用Python通過染色體id+位置查詢基因名列表

簡介

安裝步驟

相關推薦