pindel 軟體基本介紹
阿新 • • 發佈:2020-11-12
目的:本文主要簡單介紹pindel檢測sv的基本知識
能力:會基本使用,簡單結果檔案解讀
官網: http://gmt.genome.wustl.edu/packages/pindel/ 參考文獻: Ye, K., Schulz, M. H., Long, Q., Apweiler, R. & Ning, Z. Pindel: a pattern growth approach to detect break points of large deletionsand medium sized insertionsfrom paired-end short reads. Bioinformatics 25, 2865–2871(2009). pindel變異檢測:$ cat FLT3_28608223_conf edit.sorted.bam 250 FLT3第一列:bam的絕對路徑 第二列:bam的intersize, 寫個大概的值即可(本人的測序資料為PE100) 第三列:設一個標籤,因為這邊可以設多個bam檔案,這邊的標籤就會代替檔名出現在最終的結果中來區分reads的不同來源。列與列之間用製表符或者空格分開。 2.pindel進行sv檢測的命令列引數:
/jdfstj1/B2C_COM_P1/pipeline/miniconda3/bin/pindel \ -f hg19.fa \ -i FLT3_28608223_conf \ # 上述描述的配置檔案 -c chr13 \ -o FLT3_28608223 \
上述命令可以產生多個結果檔案: 不同類似的變異結果分開放置.
FLT3_28608223_BP FLT3_28608223_INT_final FLT3_28608223_LI FLT3_28608223_SI FLT3_28608223_TD FLT3_28608223_CloseEndMapped FLT3_28608223_D FLT3_28608223_INV FLT3_28608223_RPD = deletion缺失序列 SI = short insertion短的插入序列 INV = inversion轉位 TD = tandem duplication串聯重複 LI = large insertion長的插入序列,這個檔案的格式跟其他檔案的很不相同 BP = unassigned breakpoints沒有分到上面任意一種型別剩下來的斷點
3.第二步的結果可能利於我們的閱讀,因此可通過以下操作將其轉換為vcf檔案格式
/jdfstj1/B2C_COM_P1/pipeline/miniconda3/bin/pindel2vcf \ -r hg19.fa \ -R hg19 \ -p FLT3_28608223_TD \ -d 20201101 \ # 隨便是個啥,沒啥用 -v FLT3_28608223_TD.vcf \ -G#讓它儘可能符合GATK輸入檔案的要求。
/jdfstj1/B2C_COM_P1/pipeline/miniconda3/bin/pindel2vcf \
-r hg19.fa \
-R hg19 \
-p FLT3_28608223_SI \
-d 20201101 \
-v FLT3_28608223_SI.vcf \
-G