一個關於對比(參考基因組)的弱智錯誤
阿新 • • 發佈:2018-11-10
一個關於對比(參考基因組)的弱智錯誤
2018年10月25日 23:55:04 生信小白白 閱讀數:19在重複文章:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034中的工作時,用的是hisat2軟體做比對,比對指令碼如下:
for id in SRR35899{56,57,58,59,60,61,62}; do echo "Processin sample ${id}" hisat2 -p 4 -x /trainee/home/amliang/reference/hisat2/hg19/genome -1 /trainee/home/amliang/data/clean/${id}.sra_1_val_1.fq.gz -2 /trainee/home/amliang/data/clean/${id}.sra_2_val_2.fq.gz -S /trainee/home/amliang/data/align/align2/${id}.hisat.sam done
- 1
- 2
- 3
- 4
- 5
比對結果發現,除了SRR3589956,SRR3589957,SRR3589958三個樣本比對率較好,其餘樣本的比對率極低,大大超出了正常範圍,只有不到百分之十的比對率,如下圖:
圖中可以看出,SRR3589958的比對率達到97.12%,但SRR3589959的比對率就只有8.37%,低得有點離譜,我檢查了很多遍指令碼,確定沒錯,然後又谷歌了比對率過低相關問題,也各有各的說法,並不能解決問題,最後無奈,去看了下原文,發現,原來參考基因組搞錯了,只有前面三個樣本是人類,後面的都是小鼠的,
真是弱智一般的錯誤:
解決辦法:
然後,用小鼠的參考基因組索引比對了一下剩下的4個樣本,59~62
for id in SRR35899{59,60,61,62}; do echo "Processin sample ${id}" hisat2 -p 4 -x /trainee/home/amliang/reference/hisat2/mm10/genome -1 /trainee/home/amliang/data/clean/${id}.sra_1_val_1.fq.gz -2 /trainee/home/amliang/data/clean/${id}.sra_2_val_2.fq.gz -S /trainee/home/amliang/data/align/align2/align3/${id}.hisat.sam done
- 1
- 2
- 3
- 4
- 5
發現,比對率正常!
所以,處理資料的前提是搞明白實驗設計。
生信技能樹