1. 程式人生 > >測序資料模擬——ART基因序列產生器

測序資料模擬——ART基因序列產生器

目錄

ART基因序列產生器簡介

官網1.

軟體下載2.

相關論文3.

ART使用

軟體配置

tar zxvf artbingreatsmokymountains041716linux64tgz.tgz 
cd art_bin_GreatSmokyMountains/
#art_illumina=~/congmin/software/art_bin_GreatSmokyMountains/art_illumina

引數設定

[email protected]:~/congmin/software/art_bin_GreatSmokyMountains$ art_illumina 

    ====================ART====================
             ART_Illumina (2008
-2016) Q Version 2.5.1 (Apr 17, 2016) Contact: Weichun Huang <[email protected]> ------------------------------------------- ===== USAGE ===== art_illumina [options] -ss <sequencing_system> -sam -i <seq_ref_file> -l <read_length> -f <fold_coverage> -o <outfile_prefix> art_illumina [options] -ss <sequencing_system> -sam -i <seq_ref_file> -l <read_length> -c <num_reads_per_sequence> -o <outfile_prefix> art_illumina [options] -ss <sequencing_system> -sam -i <seq_ref_file> -l <read_length> -f <fold_coverage> -m <mean_fragsize> -s <std_fragsize> -o <outfile_prefix> art_illumina [options] -ss <sequencing_system> -sam -i <seq_ref_file> -l <read_length> -c <num_reads_per_sequence> -m <mean_fragsize> -s <std_fragsize> -o <outfile_prefix> ===== PARAMETERS ===== -1
--qprof1 the first-read quality profile -2 --qprof2 the second-read quality profile -amp --amplicon amplicon sequencing simulation -c --rcount number of reads/read pairs to be generated per sequence/amplicon (not be used together with -f/--fcov) -d --id the prefix identification tag for
read ID -ef --errfree indicate to generate the zero sequencing errors SAM file as well the regular one NOTE: the reads in the zero-error SAM file have the same alignment positions as those in the regular SAM file, but have no sequencing errors -f --fcov the fold of read coverage to be simulated or number of reads/read pairs generated for each amplicon -h --help print out usage information -i --in the filename of input DNA/RNA reference -ir --insRate the first-read insertion rate (default: 0.00009) -ir2 --insRate2 the second-read insertion rate (default: 0.00015) -dr --delRate the first-read deletion rate (default: 0.00011) -dr2 --delRate2 the second-read deletion rate (default: 0.00023) -l --len the length of reads to be simulated -m --mflen the mean size of DNA/RNA fragments for paired-end simulations -mp --matepair indicate a mate-pair read simulation -M --cigarM indicate to use CIGAR 'M' instead of '=/X' for alignment match/mismatch -nf --maskN the cutoff frequency of 'N' in a window size of the read length for masking genomic regions NOTE: default: '-nf 1' to mask all regions with 'N'. Use '-nf 0' to turn off masking -na --noALN do not output ALN alignment file -o --out the prefix of output filename -p --paired indicate a paired-end read simulation or to generate reads from both ends of amplicons NOTE: art will automatically switch to a mate-pair simulation if the given mean fragment size >= 2000 -q --quiet turn off end of run summary -qL --minQ the minimum base quality score -qU --maxQ the maxiumum base quality score -qs --qShift the amount to shift every first-read quality score by -qs2 --qShift2 the amount to shift every second-read quality score by NOTE: For -qs/-qs2 option, a positive number will shift up quality scores (the max is 93) that reduce substitution sequencing errors and a negative number will shift down quality scores that increase sequencing errors. If shifting scores by x, the error rate will be 1/(10^(x/10)) of the default profile. -rs --rndSeed the seed for random number generator (default: system time in second) NOTE: using a fixed seed to generate two identical datasets from different runs -s --sdev the standard deviation of DNA/RNA fragment size for paired-end simulations. -sam --samout indicate to generate SAM alignment file -sp --sepProf indicate to use separate quality profiles for different bases (ATGC) -ss --seqSys The name of Illumina sequencing system of the built-in profile used for simulation NOTE: sequencing system ID names are: GA1 - GenomeAnalyzer I (36bp,44bp), GA2 - GenomeAnalyzer II (50bp, 75bp) HS10 - HiSeq 1000 (100bp), HS20 - HiSeq 2000 (100bp), HS25 - HiSeq 2500 (125bp, 150bp) HS10 - HiSeq 1000 (100bp), HS20 - HiSeq 2000 (100bp), HS25 - HiSeq 2500 (125bp, 150bp) HSXn - HiSeqX PCR free (150bp), HSXt - HiSeqX TruSeq (150bp), MinS - MiniSeq TruSeq (50bp) MSv1 - MiSeq v1 (250bp), MSv3 - MiSeq v3 (250bp), NS50 - NextSeq500 v2 (75bp) ===== NOTES ===== * ART by default selects a built-in quality score profile according to the read length specified for the run. * For single-end simulation, ART requires input sequence file, outputfile prefix, read length, and read count/fold coverage. * For paired-end simulation (except for amplicon sequencing), ART also requires the parameter values of the mean and standard deviation of DNA/RNA fragment lengths ===== EXAMPLES ===== 1) single-end read simulation art_illumina -ss HS25 -sam -i reference.fa -l 150 -f 10 -o single_dat 2) paired-end read simulation art_illumina -ss HS25 -sam -i reference.fa -p -l 150 -f 20 -m 200 -s 10 -o paired_dat 3) mate-pair read simulation art_illumina -ss HS10 -sam -i reference.fa -mp -l 100 -f 20 -m 2500 -s 50 -o matepair_dat 4) amplicon sequencing simulation with 5' end single-end reads art_illumina -ss GA2 -amp -sam -na -i amp_reference.fa -l 50 -f 10 -o amplicon_5end_dat 5) amplicon sequencing simulation with paired-end reads art_illumina -ss GA2 -amp -p -sam -na -i amp_reference.fa -l 50 -f 10 -o amplicon_pair_dat 6) amplicon sequencing simulation with matepair reads art_illumina -ss MSv1 -amp -mp -sam -na -i amp_reference.fa -l 150 -f 10 -o amplicon_mate_dat 7) generate an extra SAM file with zero-sequencing errors for a paired-end read simulation art_illumina -ss HSXn -ef -i reference.fa -p -l 150 -f 20 -m 200 -s 10 -o paired_twosam_dat 8) reduce the substitution error rate to one 10th of the default profile art_illumina -i reference.fa -qs 10 -qs2 10 -l 50 -f 10 -p -m 500 -s 10 -sam -o reduce_error 9) turn off the masking of genomic regions with unknown nucleotides 'N' art_illumina -ss HS20 -nf 0 -sam -i reference.fa -p -l 100 -f 20 -m 200 -s 10 -o paired_nomask 10) masking genomic regions with >=5 'N's within the read length 50 art_illumina -ss HSXt -nf 5 -sam -i reference.fa -p -l 150 -f 20 -m 200 -s 10 -o paired_maskN5

使用例項

程式碼

zhoukr@bsn001:~/congmin/software/art_bin_GreatSmokyMountains$ art_illumina -ss HS20 -i GRCH38chr1L3556522.fna -l 100 -f 20 -o G38L100F20Nhs20

結果

zhoukr@bsn001:~/congmin/software/art_bin_GreatSmokyMountains$ art_illumina -ss HS20 -i GRCH38chr1L3556522.fna -l 100 -f 20 -o G38L100F20Nhs20

    ====================ART====================
             ART_Illumina (2008-2016)          
          Q Version 2.5.1 (Apr 17, 2016)       
     Contact: Weichun Huang <whduke@gmail.com> 
    -------------------------------------------
還在執行

結果檔案

[email protected]:~/congmin/software/art_bin_GreatSmokyMountains$ ll
total 9443836
drwxrwxr-x 2 hadoop hadoop       4096  62 23:10 ./
drwxrwxr-x 6 hadoop hadoop       4096  62 22:59 ../
-rw-rw-r-- 1 hadoop hadoop 4635232124  62 23:11 G38L100F20Nhs20.aln
-rw-rw-r-- 1 hadoop hadoop 4347022003  62 23:11 G38L100F20Nhs20.fq
-rw-r--r-- 1 hadoop hadoop  252513055  62 23:00 GRCH38chr1L3556522.fna

參考

相關推薦

資料模擬——ART基因序列產生

目錄 ART基因序列產生器簡介 官網1. 軟體下載2. 相關論文3. ART使用 軟體配置 tar zxvf artbingreatsmokymountains041716linux64tgz.tgz cd

Next generation sequencing (NGS)二代資料預處理與分析

Next generation sequencing (NGS)二代測序資料預處理與分析 By  zilhua | 2014 年 3 月 12 日 0 Comment 常使用的工具列表 質量控制Quality Co

降解組資料分析--CleaveLand

需要準備的資料: 降解組測序資料QC後整理為redundant fasta格式 轉錄本資料,fasta格式 miRNA序列,fasta格式 檢視幫助文件 CleaveLand4.pl --help readscount轉為fasta格式(redundent rea

資料質控-FastQC

通常我們下機得到的資料是raw reads,但是公司通常會質控一份給我們,所以到很多人手上就是clean data了。我們再次使用fastqc來進行測序資料質量檢視以及結果分析。 fastqc的操作: 1. FastQC使用 fastqc -f [bam | sam | fastq] -o [

2018-6-23轉錄組學習2 資料質量檢查

1.sra檔案轉換為fastq格式 為了進行測序資料質量檢查我們需要將下載好的sra資料轉換為fastq格式:使用Sratoolkits中的fastq-dump命令進行格式轉換 Sratoolkits的官方文件中有fastq-dump命令的介紹(http

如何劃窗統計資料的reads數(depth)

      對於公司送回來的測序資料,我們通常需要進行質檢,檢查資料是否符合我們要求的測序深度,在質檢中,統計各個位點的depth就顯得尤為重要。      最常見的統計depth的方法就是使用samtools depth,但是這個方法僅僅侷限於對單個位點進行depth進行統

miRDeep分析microRNA資料流程

microRNA的分析過程:microRNA測序資料分析選用軟體miRDeep,關於這個軟體,有文章:Discovering microRNAs from deep sequencing data using miRDeep,Nature Biotechnology 2

經典:基因組資料從頭拼接或組裝演算法的原理

  基因組測序資料的拼接/組裝 (圖片來源:google)     每一個物種的參考基因組序列(reference genome)的產生都要先通過測序的方法,獲得基因組的測序讀段(reads),然後再進行從頭拼接或組裝(英文名稱為do novo&nbs

一代序列資料批量聚類處理

  首先我們將所有一代測序的序列檔案都儲存在同一個資料夾下,然後用cat命令合併成一個fasta檔案。 在每條序列第一行插入> for file in .fas; do sed -i “s/>./file” ; done 將序列第一和第二行合併

全面解讀第四代基因技術Oxford Nanopore--轉載

能夠 ural 變異 發現 提高 pla art deep 導致 納米孔測序技術(又稱第四代測序技術)是最近幾年興起的新一代測序技術。目前測序長度可以達到150kb。這項技術開始於90年代,經歷了三個主要的技術革新:一、單分子DNA從納米孔通過;二、納米孔上的酶對於測序分子

Java位元組(不同語言中的網路資料傳輸時位元組序列轉換)

BIG-ENDIAN(大位元組序、高位元組序) LITTLE-ENDIAN(小位元組序、低位元組序) 主機位元組序 網路位元組順序 JAVA位元組序 1.BIG-ENDIAN、LITTLE-ENDIAN跟多位元組型別的資料有關的比如

基因組模擬

基因組測序模擬 一、摘要 通過熟悉已有的基因組測序模擬和評估程式,加深全基因組鳥槍法測序原理的理解,並且能夠編寫程式模擬全基因組鳥槍法測序,理解覆蓋度、測序深度、拷貝數等概念,設定測序相關引數,生成單端/雙端測序結果檔案 二、材料和方法 1、硬體平臺 處理器:Inte

關於illumina產生原始檔bcl轉換成fastq格式的問題

    由於連線測序儀的伺服器不知道哪裡抽了風,無法直接的生成fastq格式的檔案,好久都無解,經過一段時間仍無法解決,所以採用曲線救國的方法,看能不能利用三方軟體將bcl轉換成fastq檔案     google以後發現illumina的OLB(off-line Base

java 連結mysql 產生500W資料模擬生成環境

java 插入資料到mysql 通過sqoop 匯入到hive 中,kylin模擬見cube 時間和 資料膨脹率 kylin 資料插入到 HBase Kylin HBase 1.1.3 Hive 1.2.1 Hadoop 2.5.1 create table infoa

第三代基因技術革新 雲計算的應用

打通 等等 高速公路 個人 獲得 能力 雲端 減少 計算 第三代基因測序技術革新 雲計算的應用一位準媽媽,在懷孕12-24周時,需要做唐氏兒的篩查,傳統唐篩的方式準確率低,如果結果顯示危險性高,那麽準媽媽還需要做羊膜穿刺等進一步檢查。  而今天,隨著基因測序技術的發展,我們

分析軟件-phred的安裝

就會 des 自帶 red 獲得 install zxvf port 文件 1.進入phred官網,給作者寫信,獲得所需的軟件,大約需要兩三天的時間即可收到回信。 2.根據作者的指示下載,解壓相應軟件。 3.以筆者本人的安裝為例unbuntu系統(phred自帶的insta

&lt;二代&gt; 下載 NCBI sra 文件

fix mpc size blog contains 地址 flow logic tid 本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51077222 隨著測序技術的

宏基因組及分析

drop 體積 構建 pan 以及 lex 建議 nod 1.8 宏基因組測序: 濃度>=50ng/ul OD260/280:1.8-2.0 DNA兩次需要量>=3ug 宏基因組測序需要提供什麽樣品要求? (1)提供環境微生物的基因組DNA或者擴增產物,O

illumina 原理

需要 qmail 等等 lane prime 功能 一段 vfk 可能 一些常用基本概念的介紹: flowcell流動池 是指Illumina測序時,測序反應發生的位置,1個flowcell含有8條lane lane通道 每一個flowcell上都有8條泳道,用於測序反應

WES 平均深度

一次 概念 發生 區分 分離 利用 變異 相同 作用 http://blog.csdn.net/guomutian911/article/details/70312973 1 基礎概念 平均測序深度: 指定區域內得到的所有堿基數目與該區域的長度的比值,如果是全基因組