NGS中的一些軟件功能介紹
1.bowtie
短序列比對工具,blast也是短序列比對工具,速度快,結果易理解。
輸入可以是fastq或者fasta文件。
生成比對結果文件sam格式的吧。
2.bwa
轉自:https://www.jianshu.com/p/1552cc6ac3be
將DNA序列比對到參考基因組上的軟件,包含三種算法:
BWA-backtrack:適合比對長度不超過100bp的序列;
BWA-SW:合於長度為70-1M bp的序列;
BWA-MEM:合於長度為70-1M bp的序列,高質量的測序數據,其比對的速度更快,精確度更高。
使用whereis bwa找到其安裝路徑:
xhs@dandan26:/data1/zzl$ whereis bwa bwa:/usr/bin/bwa /usr/share/bwa /usr/share/man/man1/bwa.1.gz
輸入bwa得到以下幫助:
Usage: bwa <command> [options] Command: index index sequences in the FASTA format mem BWA-MEM algorithm fastmap identify super-maximal exact matches pemerge merge overlapping paired ends (EXPERIMENTAL) aln gapped/ungapped alignment samse generate alignment (single ended) sampe generate alignment (paired ended) bwasw BWA-SW for long queries shm manage indices in shared memory fa2pac convert FASTA to PAC format pac2bwt generate BWTfrom PAC pac2bwtgen alternative algorithm for generating BWT bwtupdate update .bwt to the new format bwt2sa generate SA from BWT and Occ Note: To use BWA, you need to first index the genome with `bwa index‘. There are three alignment algorithms in BWA: `mem‘, `bwasw‘, and `aln/samse/sampe‘. If you are not sure which to use, try `bwa mem‘ first. Please `man ./bwa.1‘ for the manual.
步驟:
1.對參照基因組建索引:
bwa index –a bwtsw hg19.fasta
此處構建索引使用的是bwtsw算法,最終輸出的結果文件:
會生成:bwt,pac,ann,amb,sa五種類型的文件:
xhs@dandan-PowerEdge-T620:/data1/GRCm38$ ls
GRCm38_68.fa GRCm38_68.fa.amb GRCm38_68.fa.ann GRCm38_68.fa.bwt GRCm38_68.fa.fai GRCm38_68.fa.pac GRCm38_68.fa.sa
2.使用bwa-mem算法進行比對:
bwa mem –t 4 hg19.fasta read1.fq read2.fq > aln-pe.sam
我使用了這條命令:
bwa mem -t 4 ../hg19/hg19.fasta ERR580012_1.fastq.gz ERR580012_2.fastq.gz > aln-pe.sam
使用了mem算法,-t是選擇幾個線程,增加線程,減少運行時間;然後是參照基因組的fasta文件。以及其他參數:
-p
忽略第二個輸入序列,默認情況下,輸入一個序列文件認為是單端測序,輸入兩個序列文件則是雙端測序,加上這個參數後,會忽略第二個輸入序列文件,把第一個文件當做單端測序的數據進行比對;
將最終結果存入到了sam文件中。
那麽什麽是單端測序和雙端測序:
轉自:https://www.cnblogs.com/Formulate0303/p/7843082.html
1、單端測序(Single-ead)首先將DNA樣本進行片段化處理形成200-500p的片段,引物序列連接到DNA片段的一端,然後末端加上接頭,將片段固定在flowcell上生成DNA簇,上機測序單端讀取序列。
2、Paied-end方法是指在構建待測DNA文庫時在兩端的接頭上都加上測序引物結合位點,在第一輪測序完成後,去除第一輪測序的模板鏈,用對讀測序模塊(Paied-End Module)引導互補鏈在原位置再生和擴增,以達到第二輪測序所用的模板量,進行第二輪互補鏈的合成測序。
//其實這個第二點還不太明白.[1]
3.將sam文件壓縮為bam格式
samtools view –bS aln-pe_reorder.sam –o aln-pe.bam
查找samtools幫助:
Usage: samtools <command> [options] Command: view SAM<->BAM conversion sort sort alignment file mpileup multi-way pileup depth compute the depth faidx index/extract FASTA tview text alignment viewer index index alignment idxstats BAM index stats (r595 or later) fixmate fix mate information flagstat simple stats calmd recalculate MD/NM tags and ‘=‘ bases merge merge sorted alignments rmdup remove PCR duplicates reheader replace BAM header cat concatenate BAMs bedcov read depth per BED region targetcut cut fosmid regions (for fosmid pool only) phase phase heterozygotes bamshuf shuffle and group alignments by name
-b 表示輸出為bam文件格式 –S默認下輸入是 BAM 文件,若是輸入是 SAM 文件,則最好加該參數,否則有時候會報錯。-o 輸出文件名
最終生成了bam文件,其中b指binary,運算快。
使用下面命令來查看文件頭:
samtools view -H ESCell#8.sam
NGS中的一些軟件功能介紹