reads count檔案轉化為fasta格式檔案(redundant reads)

阿新 • • 發佈：2018-11-21

從NCBI下載的測序資料很多是去過接頭的，並且整理成readscount格式，即每行第一列為reads，第二列為reads數，而我們需要把它整理成fasta格式，並且每個read都整理為一條序列

原始檔案：

cat GSM3124755_WTB_PARE.csv | head

GATCTTTCGAACTTTCCCAAC,1
ACTCTCTGCACTAAACAAAA,1
TTTTGTCATTGATTTTTGTA,4
GCAATCGAAATTCTCTGACG,1
GTAGTGACGAAAGCTGGCTCC,1
ATTACAGCTTCTGATGTCTT,4
CATCTTGGTCATGTCTTTGA,1
CATACAATATGGAGATGAAG,1
CCGACTTTGAGGGAGTTCGT,1
TACATTGGTGTTGGTACTGT,1

python指令碼

fw = open('GSM3124755_WTB_PARE.fas', 'w')
s = 0
with open('GSM3124755_WTB_PARE.csv', 'r') as fr:
    for line in fr.readlines():
        s += 1
        count = str(line.strip().split(',')[1])
        seq = str(line.strip().split(',')[0])
        for i in range(int(count)):
            fw.write('>' + str(s) + '_' + str(i + 1)  + '\n' + seq + '\n')
fw.close()

輸出結果：
cat cat GSM3124755_WTB_PARE.fas | head

>1_1
GATCTTTCGAACTTTCCCAAC
>2_1
ACTCTCTGCACTAAACAAAA
>3_1
TTTTGTCATTGATTTTTGTA
>3_2
TTTTGTCATTGATTTTTGTA
>3_3
TTTTGTCATTGATTTTTGTA
>3_4
TTTTGTCATTGATTTTTGTA
>4_1
GCAATCGAAATTCTCTGACG
>5_1
GTAGTGACGAAAGCTGGCTCC
>6_1
ATTACAGCTTCTGATGTCTT
>6_2
ATTACAGCTTCTGATGTCTT
>6_3
ATTACAGCTTCTGATGTCTT
>6_4
ATTACAGCTTCTGATGTCTT
>7_1
CATCTTGGTCATGTCTTTGA
>8_1
CATACAATATGGAGATGAAG
>9_1
CCGACTTTGAGGGAGTTCGT
>10_1
TACATTGGTGTTGGTACTGT

reads count檔案轉化為fasta格式檔案(redundant reads)

從NCBI下載的測序資料很多是去過接頭的，並且整理成readscount格式，即每行第一列為reads，第二列為reads數，而我們需要把它整理成fasta格式，並且每個read都整理為一條序列原始檔案： cat GSM3124755_WTB_PARE.csv | h

reads count檔案轉化為fasta格式檔案(uniq reads)

在NCBI下載測序資料時有很多是以reads序列 + count數的格式，這種是作者去完接頭並過濾掉低質量reads後的結果。下面實現將reads count格式轉化為fasta格式 cat reads_count.txt AAACCCGGGTTT 3 ACAAGATTAG

bam（sam）格式檔案轉化為fasta格式

bam2fasta的轉變方式： samtools view input.bam | awk '{OFS="\t"; print ">"$1"\n"$10}' - > output.fasta sam2fasta的轉變方式 cat *.sam | awk '{pri

python 將yaml標籤檔案轉化為xml格式的標籤檔案

最近在跑SSD和Faster R-CNN深度學習程式碼，下載了一些資料集，但是這些資料集標籤檔案不是xml格式檔案，而是yaml檔案，雖然網上有線上轉化的工具，但是這種做法對我來說顯然是很低效率的。為了提高效率，自己寫了相關的程式碼。現在分享給大家。感謝Bosch Small

python實現CSV特徵檔案轉化為libsvm特徵檔案輸入spark中進行機器學習

今天早早地下班，閒來無事就繼續鼓搗spark了，spark計算能力很強之外還有一個很強大的功能就是機器學習，藉助於spark平臺的高效能以及高計算能力，機器學習演算法也被廣泛地開發出來，今天在實際使用spark中提供的機器學習演算法的時候遇到一個問題就是：

caffe：將mean.binaryproto檔案轉化為mean.npy檔案

# -*- coding: utf-8 -*- """ Created on Thu May 24 16:03:14 2018 @author: chrisd """ import caffe im

利用python實現 CAD STEP格式轉化為STL格式--update 對整個資料夾下的所有檔案進行轉換格式

update # 匯入FreeCAD 路徑為FreeCAD安裝路徑,bin檔案裡有個檔案叫 FreeCad.pyd 這是關鍵 import sys sys.path.append('C:\\Software\\FreeCAD 0.17\\bin') import FreeC

caffe中將jpg資料轉化為lmdb格式的檔案

Linux下caffe中如何將自己的jpg格式的圖片轉化為lmdb格式的檔案本文利用caffe自帶的create_imagenet.sh檔案進行轉化，具體步驟如下。 1 資料準備將圖片資料和標註分別放好訓練資料放在train資料夾裡，測試資料放在v

labelme格式json檔案轉化為coco資料集json格式

為製作可供Mask RCNN 模型訓練的資料集，直接使用已經十分成熟的coco格式無疑是十分方便的。下面這位博主的文章詳細介紹了將labelme格式轉化為coco格式的方法。https://blog.csdn.net/wc781708249/article/details/7

如何將xml檔案轉化為Bitmap

一、獲取windownwidth int windowWidth = MyApplication.getWindowWidth(); 二、將佈局檔案轉化成Bitmap public Bitmap getScrollViewBitmap(RelativeLayout relativeLay

資料集製作之xml檔案轉化為csv

# -*- coding: utf-8 -*- """ 將資料夾內所有XML檔案的資訊記錄到CSV檔案中 """ import os import glob import pandas as pd import xml.etree.ElementTree as ET os.chdir('

qsv檔案轉碼mp4格式過程記錄

之前幫一個朋友剪輯配音視訊，原始檔在愛奇藝裡，特有的qsv格式讓我白忙活一下午。晚上趁著有空，在網上查詢資料，翻閱了很多檔案，都讓我無從下手。基本都是一個套路，轉成fiv格式，再轉mp4格式，但是轉出來的檔案大了十幾倍，視訊檔案也混亂，音訊不同步，無法正常擷取和放映。在一個貼吧中找到一個特別好的辦

合併並轉化一代測序seq純文字為fasta格式檔案

use strict; use warnings; my @dir; my @filelist; open OUT, ">result.fst"; opendir (DIR, "./") or die "can't open the directory!"; @dir = read

Java使用PegDown將markdown檔案轉成html格式

maven依賴： <dependency> <groupId>org.pegdown</groupId> <artifactId>pegdown</artifactId> <versio

如何將視訊MP4檔案轉化成AVI格式？

　　如今很多人喜歡在網上下載視訊，視訊轉換的格式在生活中也是很常見的，因此會有很多人將要把視訊MP4檔案轉化成AVI格式，那麼究竟有哪些方法呢？哪些視訊轉化器可以幫助我們呢？以下便是小編給你們介紹的這款好用的軟體，一起往下看吧。　　視訊轉換器http://www.xunjieshipin.com/

word檔案轉成WPS格式如何操作

在電腦上遇到處理檔案格式的問題大家是怎麼解決的呢？就拿平時用到的word檔案來說，需要將word格式轉換成WPS格式如何操作呢？為什麼要進行格式轉換呢？小編針對這個問題提出一種解決方案，大家可以試著去操作一遍。 1、電腦中可以安裝一款可以轉換檔案格式的工具，進

batch指令碼將proto檔案轉化為js

要進入proto的資料夾開啟cmd 輸入dir *.proto > aj.text 開啟aj.text 刪除多餘的空行和沒有的行（不含檔名的行）新建一個demo.bat @Echo Off Setlocal Enabledelayedexpansi

把標註TXT檔案轉化為VOC的xml檔案

我自己的資料集格式為filename lable xmin ymin xmax ymax1 通過別的模板轉換VOC資料集的xml格式為：<annotation>

python 用逗號分隔欄位但被三個引號括起來的欄位不被逗號分隔的檔案轉化為dataframe

請教一個問題： 0,"""哎，想當年來佘山的時候，類來,空了。""",-2,-2,-2,0,-2,-2,-2,1,-2,-2,-2,-2,-2,-2,-2,0,-2,-2,1,0 這種資料怎麼用pandas讀到dataframe中，"""括起來的是一個欄位，dataframe

Sketch檔案轉成PSD格式手把手教程

主要需求來源： window沒有sketch的不能下載，設計做了sketch版本，不好意思讓他重做，就想看下有沒有可以轉換的工具官網下載連結【可以試用】【下載AI+PS】： https://www.adobe.com/cn/creativecloud/catalog/d

reads count檔案轉化為fasta格式檔案(redundant reads)

相關推薦