生信指令碼練習（12）求fasta檔案各序列長度並統計作圖

阿新 • • 發佈：2019-02-08

題目要求是要從一個fasta檔案中統計出每條序列的長度分佈，並作圖。

程式碼如下：

import os
import getpass
import matplotlib.pyplot as plt
usr = getpass.getuser()
os.chdir('c:/Users/' + usr + '/Desktop')
seq_len = {}
# 把fasta檔案全部讀取做成字典，鍵是帶‘>’的那一行，值是序列
def readfasta(filename):
    fa = open(filename, 'r')
    res = {}
    ID = ''
    for 
 line in fa:
        if line.startswith('>'):           
            ID = line.strip('\n')
            res[ID] = ''
        else:           
            res[ID] += line.strip('\n')
    return res
seq = readfasta('Test1.fa')

# 做成另外一個字典字典，鍵是帶‘>’的那一行，值是序列長度：
for k,v in seq.items():
    seq_len[k] = len 
(v)
seq_len_sort = sorted(seq_len.items(), key=lambda x: x[1])
seq_len_sort = dict(seq_len_sort)

location = {}
lenth_a = 0
lenth_b = 500
bar = 500
# 通過迴圈的方式找到每個視窗區間內的長度分佈，這裡選的視窗是500
# 這裡的4500是排序之後根據最大值看出來的
while lenth_b < 4500:
    count = 0
    ran = range(lenth_a,lenth_b)
    for k,v in seq_len_sort.items 
():
        if v in ran:
            count += 1
    location[(str(lenth_a)+ '-'+ str(lenth_b))] = count
    lenth_a += bar
    lenth_b += bar
#print(location)
f = open('t1.txt','w')
f.write('lenth' + '\t' + 'number'+ '\n')
lenth = []
number = []
for k,v in location.items():
    f.write(str(k)+ '\t' + str(v) + '\n')
    lenth.append(k)
    number.append(v)
f.close()
plt.bar(range(len(lenth)),number)
# 最後matplotlib畫圖
#xlabels = [x[index] for index in lenth]
#plt.xticks(number, lenth, rotation='vertical')
plt.show()

然而我還不會更改x軸座標值。因為我用的字串的形式。。。
這裡寫圖片描述

畫圖程式碼參照matplotlib官網的barh_demo改了一下：

import matplotlib.pyplot as plt
plt.rcdefaults()
fig, ax = plt.subplots()

y_pos = np.arange(len(lenth))
error = np.random.rand(len(lenth))
ax.barh(y_pos, number, xerr=error, align='center',
        color='lightblue', ecolor='black')
ax.set_yticks(y_pos)
ax.set_yticklabels(lenth)
ax.invert_yaxis()  # labels read top-to-bottom
ax.set_xlabel('nummber')
ax.set_title('lenth location')
plt.show()

errorbar 怎麼也去不掉？？？
這裡寫圖片描述

下面是我用R畫的

這裡寫圖片描述

library(ggplot2)
x <- c('0-500', '500-1000', '1000-1500', '1500-2000', '2000-2500', '2500-3000', '3000-3500', '3500-4000')
y <- c( 4, 16, 10, 11, 3, 5, 0, 1)
dt = data.frame(length= x, number = y)
dt$length = factor(dt$length, levels=c('0-500', '500-1000', '1000-1500', '1500-2000', '2000-2500', '2500-3000', '3000-3500', '3500-4000'))
ggplot(dt, aes(x = length, y = number, fill = length)) + 
geom_bar(stat = "identity") +
theme_set(theme_bw())

# 誰能告訴我為什麼下面這樣的寫法就畫不出來呢？？
library(ggplot2)
setwd("c:\\Desktop") 
dt <- read.table("t1.txt",header = T) 
print(dt)
dt$length =factor(dt$length, levels=c('0-500', '500-1000', '1000-1500', '1500-2000', '2000-2500', '2500-3000', '3000-3500', '3500-4000'))
ggplot(dt, aes(length = length, number = number, fill = length)) + 
geom_bar(stat = "identity") +
theme_set(theme_bw())

# 報錯：
Error in `$<-.data.frame`(`*tmp*`, "length", value = structure(integer(0), .Label = c("0-500", : replacement has 0 rows, data has 8
Traceback:

1. `$<-`(`*tmp*`, "length", value = structure(integer(0), .Label = c("0-500", 
 . "500-1000", "1000-1500", "1500-2000", "2000-2500", "2500-3000", 
 . "3000-3500", "3500-4000"), class = "factor"))
2. `$<-.data.frame`(`*tmp*`, "length", value = structure(integer(0), .Label = c("0-500", 
 . "500-1000", "1000-1500", "1500-2000", "2000-2500", "2500-3000", 
 . "3000-3500", "3500-4000"), class = "factor"))
3. stop(sprintf(ngettext(N, "replacement has %d row, data has %d", 
 .     "replacement has %d rows, data has %d"), N, nrows), domain = NA)

生信指令碼練習（12）求fasta檔案各序列長度並統計作圖

題目要求是要從一個fasta檔案中統計出每條序列的長度分佈，並作圖。程式碼如下： import os import getpass import matplotlib.pyplot as pl

野生前端的資料結構練習（12）貪心演算法

參考程式碼可見：https://github.com/dashnowords/blogs/tree/master/Structure/GreedyAlogrithm 一.貪心演算法貪心演算法屬於比較簡單的演算法，它總是會選擇當下最優解，而不去考慮單次遞迴時是否會對未來造成影響，也就是說不考

野生前端的數據結構練習（12）貪心算法

影響 ges load coin 求解動態規劃遞歸 image 時也參考代碼可見：https://github.com/dashnowords/blogs/tree/master/Structure/GreedyAlogrithm 一.貪心算法貪心算法屬於比較

shell練習（12）——批量生成使用者，並設定密碼

1. 習題建立user_00至user_09 共十個新的賬號，並且給他們建立密碼。密碼要求：長度10，包含數字，大小寫字母。建立時，需要將使用者名稱和對應的密碼儲存到一個日誌檔案。 2. 分析首先，對使用者格式，可以用for迴圈，配合seq命令產生，具體情況如下： (1) 產生0-3的數字 $ f

shell練習（12）——批量生成用戶，並設置密碼

通過生成連續 -- bash 執行一個習題系統 1. 習題創建user_00至user_09 共十個新的賬號，並且給他們創建密碼。密碼要求：長度10，包含數字，大小寫字母。創建時，需要將用戶名和對應的密碼保存到一個日誌文件。 2. 分析首先，對用戶格式，可以用

Python練習（12） -易

問題描述素數的平方是迴文，即正讀和反讀相同。比如11 * 11=121，求不超過1000的平方迴文素數。分析構造素數判斷函式；構造判斷迴文的函式；遍歷1000以內的數，找到素數；判斷該數的平方是否滿足迴文，且不超過1000；程式碼 # 素數判

shell指令碼練習（一）

最近學習中遇到了，需要shell指令碼編寫，但是對於shell一竅不通，為了滿足學習需求，同時學會一門指令碼語言的編寫也是很重要的一項能力，對於提高自己有很大的好處。 shell一些常用的基礎知識，上網查查，看了一些基礎，但是不管看多少最終實戰最重要，因此，這

生物資訊指令碼練習（1）找出fasta檔案中大於500的序列

最近做了一些生物資訊的指令碼練習。這是第一個例子。找出一個fasta檔案中大於500的序列，並重定向到另一個新的檔案中。這個檔案每條序列是如下的樣子。 c100027.graph_c

自制指令碼語言（12）作用域與符號表

摘要：介紹了自制語言的編譯器對符號表的處理。 YF語言中，符號表的基本結構是hash表。每個AST，附帶了3個hash表，變量表，型別表，函式表。例如<String, R_Variable>就是變量表，記錄變數的名稱和值。型別表記錄各種型別，array、clas

ACM練習--（三）求質數因子

程式設計求出質數因子首先我們得知道什麼是質數因子不懂的可以去百度這裡談談我的對質數因子的理解：如果給定一個數（得判斷是不是1，如果是1的話不做任何處理，因為1沒有質數），求它的質數因子，那麼我們就開始用這個數對2開始整除（因為1是和所有數互質的），能整除則2就是一

Python從菜鳥到高手（12）：通過索引操作序列元素

九月輸出字符串二維多維負數輸入數值倒數格式 1.定義序列本文將介紹一下在Python語言中如何定義序列。定義序列的語法與Java中的數組類似，使用一對中括號將序列中的元素值括起來。下面的例子創建一個元素類型是字符串的序列，實現代碼如

TensorFlow2.0（12）：模型儲存與序列化

注：本系列所有部落格將持續更新併發布在github上，您可以通過github下載本系列所有文章筆記檔案。模型訓練好之後，我們就要想辦法將其持久化儲存下來，不然關機或者程式退出後模型就不復存在了。本文介紹兩種持久化儲

Cocos Creator開發微信小遊戲（三）實戰練習篇

目錄 cocos creator練習專案介紹我的開發環境：使用cocos creator製作過程一：新建cocos creator工程二：製作解析度選擇三：指令碼語言選擇四：程式碼如何組織五：遊戲邏輯實現六：cocos creato

shell指令碼練習（查詢某目錄下的所有文字檔案的個數，和行數）

#!/bin/bash if [ $# -lt 1 ];then echo "at least one path." exit 1 fi if ! [ -e "$1" ];then ec

Linux命令列與shell指令碼（12）--控制指令碼

處理訊號 Ctrl+C組合鍵會產生SIGINT訊號，會停止shell中當前執行的程序 Crtl+Z組建鍵會產生SIGTSTP訊號，停止shell中執行的任何程序，停止程序會讓程式繼續保留在記憶體中，

二、Linear Regression 練習（轉載）

hold off int 必須 html 移動根據 which win from 轉載鏈接：http://www.cnblogs.com/tornadomeet/archive/2013/03/15/2961660.html 前言　　本文是多元線性回歸的練習，這裏練習的

六、regularized logisitic regssion練習（轉載）

method open lose hold on update import 等高線 algo 2個轉載鏈接：http://www.cnblogs.com/tornadomeet/archive/2013/03/17/2964858.html 在上一講Deep learn

日常編程練習（三）

style tar code 依次 span 二叉 div 前序遍歷 cin 一、樹的遍歷算法樹的創建 struct BinaryTreeNode { int val; BinaryTreeNode* left; BinaryTreeNode*

python小技巧--通過字典的值（value）求鍵（key）

python key dict 思路：通過遍歷字典將key ==> vlaue 取出來，將值進行比較，從而獲得key。d = {‘a‘:1, ‘b‘:2, ‘c‘:123, ‘d‘:‘hello world‘} for k,v in d.items(): if v == ‘hell

課堂練習（團隊）

公開壓力自己的般的責任開發人員做出勞動力了解 1.團隊如何做決定？ a)獨裁：領導說了算。優點：領導比較冷靜、客觀，以整體利益為主；避免了團隊間的明面上的糾紛，團隊能有效地服從、執行。缺點：領導可能不知道團隊的能力，不了解團隊的做事方法，不能做出正確的決

生信指令碼練習（12）求fasta檔案各序列長度並統計作圖

題目要求是要從一個fasta檔案中統計出每條序列的長度分佈，並作圖。

下面是我用R畫的

相關推薦