2、samtools-faidx index
1、samtools faidx
1、samtools faidx 能夠對fasta 序列建立一個後綴為.fai 的文件,根據這個.fai 文件和原始的fasta文件, 能夠快速的提取任意區域的序列
2、用法:samtools faidx genome.fa #生成genome.fa.fai
3、例子
該命令對輸入的fasta序列有一定要求:對於每條序列,除了最後一行外, 其他行的長度必須相同,
>one
ATGCATGCATGCATGCATGCATGCATGCAT
GCATGCATGCATGCATGCATGCATGCATGC
ATGCAT
>two another chromosome
ATGCATGCATGCAT
GCATGCATGCATGC
最後生成的.fai文件如下, 共5列,\t分隔;
one 66 5 30 31
two 28 98 14 15
第一列 NAME : 序列的名稱,只保留“>”後,第一個空白之前的內容;
第二列 LENGTH: 序列的長度, 單位為bp;
第三列 OFFSET : 第一個堿基的偏移量, 從0開始計數,換行符也統計進行;
第四列 LINEBASES : 除了最後一行外, 其他代表序列的行的堿基數, 單位為bp;
第五列 LINEWIDTH : 除了最後一行外, 其他代表序列的行的長度, 包括換行符, 在windows系統中換行符為\r\n, 要在序列長度的基礎上加2;
提取序列:
samtools faidx input.fa #生成索引input.fa.fai
samtools faidx input.fa chr1 > chr1.fa #提取chr1序列
samtools faidx input.fa chr1:1-10000 > chr1.fa #提取chr1序列上1-10000間的序列
2、samtools index
1、
samtools index accepted_hits.bam #生成索引accepted_hits.bam.bai
samtools view accepted_hits.bam contig1 #提取比對到chr1序列reads
samtools view accepted_hits.bam contig:1-10000 #提取比對到chr1序列上100-200區間的reads
2、
samtools tview accepted_hits.bam ../genome.fa #samtools tview運用要求要先對bam文件index索引
2、samtools-faidx index