1. 程式人生 > >臨床測序(WES, WGS)分析流程(一)基本流程+過濾

臨床測序(WES, WGS)分析流程(一)基本流程+過濾

從指控->比對->BAM處理->call突變->合併gvcf都可參考我之前的GATK Germline Best Practivce 假設目前得到VCF test1.vcf(包含4個樣本,其中一個為CJ-258)

Task1 提取CJ-258特有的突變 :
java -Xmx15g  -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta -T SelectVariants -V test1.vcf -ef -o test1-clean.vcf   

-ef表示過濾低質量的點

java -Xmx5g  -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta -T SelectVariants -V test1-clean.vcf -sn CJ-258 -env -o CJ-258.vcf

-sn表示選擇樣本,-ens表示去除對應該樣本為野生型的位點

java -Xmx5g  -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta -T SelectVariants -V test1-clean.vcf -xl_sn CJ-258 -env -o CJ-258-other.vcf

-xl_sn表示提取非CJ-258的樣本的點

java -Xmx5g  -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta -T SelectVariants -V CJ-258.vcf --discordance CJ-258-other.vcf -env -o CJ-258-candidate.vcf

--discordance表示選擇與CJ-258-other.vcf不一樣的點

mkdir anno
annovar2table_annovar.pl CJ-258-candidate.vcf annovar2/humandb/hg19/ -buildver hg19 -out anno/CJ-258-candidate -remove -protocol refGene,genomicSuperDups,phastConsElements46way,esp6500siv2_all,exac03,1000g2014oct_eas,1000g2014oct_all,avsnp142,clinvar_20180603,scsnv,revel,mcap,cosmic68wgs,ljb26_all -operation g,r,r,f,f,f,f,f,f,f,f,f,f,f -nastring . -vcfinput

ANNOVAR篩選

對於得到的結果,篩選方式:基於ExAC、1000G MAF<0.01/0.005過濾 --> CLINSIG/CLINVAR挑選致病和可能致病的位點 –> 若CLINVAR註釋上,根據ACMG評估 –> 若CLINVAR沒有註釋上,選擇nonsynonymous SNV(這裡表示錯義突變,非同義還包括其他型別)+ scSNV≠0的位點(可預測可變剪下)–> genomimcsuperdups>0表示位於同源區,過濾掉 自己的想法:以上是一種篩選方式,自己在做的方法(參考):對SNV,nonsynonymous -> exonic/splicing -> exclude MAF > 0.01 in union(1000G, ExAC, dbsnp138nonflag) -> exlude dups -> prediction tools (SIFT, PolyPhen2, metaSVM等等)留下damaging的位點。對indel,exonic/splicing -> frameshift + stop change -> exlcude variant databases -> exclude dups -> select protein damaging loci。 注:LoF (frameshift, stop gain/loss, nonsense) + missense 經篩選之後,對於得到的位點對應的gene list,可以有2個工具對疾病和表型找找關聯已經基因間相互關係。這裡兩個工具更多是對單基因病。 工具一:panelAPP 目前包含了222個panel的基因資料 工具二:phenolyzer 輸入表型/疾病 + gene list + email可得到基因間關係,基因重要性等資訊。有網頁和本地版本。

補充知識和一些小技巧: tip1 計算平均深度,已經1X,10X,20X等不同深度的比例:

java -Xmx3g -jar GenomeAnalysisTK.jar -T DepthOfCoverage -R ucsc.hg19.fasta -o test1 -I WJ-2338.bam -L Agilent-v6.bed --omitDepthOutputAtEachBase --omitIntervalStatistics -ct 1 -ct 10 -ct 20 -ct 50