1. 程式人生 > 實用技巧 >pindel 軟體基本介紹

pindel 軟體基本介紹

目的:本文主要簡單介紹pindel檢測sv的基本知識

能力:會基本使用,簡單結果檔案解讀

官網: http://gmt.genome.wustl.edu/packages/pindel/ 參考文獻: Ye, K., Schulz, M. H., Long, Q., Apweiler, R. & Ning, Z. Pindel: a pattern growth approach to detect break points of large deletionsand medium sized insertionsfrom paired-end short reads. Bioinformatics 25, 2865–2871(2009). pindel變異檢測:
1.pindel進行sv檢測時,需要一個配置檔案, 配置檔案內容如下所示:
$ cat FLT3_28608223_conf 
edit.sorted.bam	250	FLT3
第一列:bam的絕對路徑 第二列:bam的intersize, 寫個大概的值即可(本人的測序資料為PE100) 第三列:設一個標籤,因為這邊可以設多個bam檔案,這邊的標籤就會代替檔名出現在最終的結果中來區分reads的不同來源。列與列之間用製表符或者空格分開。 2.pindel進行sv檢測的命令列引數:
/jdfstj1/B2C_COM_P1/pipeline/miniconda3/bin/pindel \
		-f hg19.fa \
		-i FLT3_28608223_conf \  # 上述描述的配置檔案
	       -c chr13 \    
		-o FLT3_28608223 \

上述命令可以產生多個結果檔案: 不同類似的變異結果分開放置.

FLT3_28608223_BP              
FLT3_28608223_INT_final  
FLT3_28608223_LI  
FLT3_28608223_SI      
FLT3_28608223_TD
FLT3_28608223_CloseEndMapped  
FLT3_28608223_D     
FLT3_28608223_INV        
FLT3_28608223_RP
D = deletion缺失序列 SI = short insertion短的插入序列 INV = inversion轉位 TD = tandem duplication串聯重複 LI = large insertion長的插入序列,這個檔案的格式跟其他檔案的很不相同 BP = unassigned breakpoints沒有分到上面任意一種型別剩下來的斷點

3.第二步的結果可能利於我們的閱讀,因此可通過以下操作將其轉換為vcf檔案格式

/jdfstj1/B2C_COM_P1/pipeline/miniconda3/bin/pindel2vcf \
		-r hg19.fa \
		-R hg19 \
		-p FLT3_28608223_TD \
		-d 20201101 \  # 隨便是個啥,沒啥用
		-v FLT3_28608223_TD.vcf \
		-G#讓它儘可能符合GATK輸入檔案的要求。
/jdfstj1/B2C_COM_P1/pipeline/miniconda3/bin/pindel2vcf \ 
          -r hg19.fa \
          -R hg19 \
          -p FLT3_28608223_SI \
          -d 20201101 \
          -v FLT3_28608223_SI.vcf \
          -G