1. 程式人生 > >一個關於對比(參考基因組)的弱智錯誤

一個關於對比(參考基因組)的弱智錯誤

一個關於對比(參考基因組)的弱智錯誤

2018年10月25日 23:55:04  閱讀數:19  

在重複文章:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034中的工作時,用的是hisat2軟體做比對,比對指令碼如下:

for id in SRR35899{56,57,58,59,60,61,62};
do 
echo "Processin sample ${id}"
hisat2 -p 4 -x /trainee/home/amliang/reference/hisat2/hg19/genome -1 /trainee/home/amliang/data/clean/${id}.sra_1_val_1.fq.gz -2 /trainee/home/amliang/data/clean/${id}.sra_2_val_2.fq.gz -S /trainee/home/amliang/data/align/align2/${id}.hisat.sam
done
  • 1
  • 2
  • 3
  • 4
  • 5

比對結果發現,除了SRR3589956,SRR3589957,SRR3589958三個樣本比對率較好,其餘樣本的比對率極低,大大超出了正常範圍,只有不到百分之十的比對率,如下圖:
在這裡插入圖片描述

圖中可以看出,SRR3589958的比對率達到97.12%,但SRR3589959的比對率就只有8.37%,低得有點離譜,我檢查了很多遍指令碼,確定沒錯,然後又谷歌了比對率過低相關問題,也各有各的說法,並不能解決問題,最後無奈,去看了下原文,發現,原來參考基因組搞錯了,只有前面三個樣本是人類,後面的都是小鼠的,
真是弱智一般的錯誤:
在這裡插入圖片描述

解決辦法:

然後,用小鼠的參考基因組索引比對了一下剩下的4個樣本,59~62

for id in SRR35899{59,60,61,62};
do 
echo "Processin sample ${id}"
hisat2 -p 4 -x /trainee/home/amliang/reference/hisat2/mm10/genome -1 /trainee/home/amliang/data/clean/${id}.sra_1_val_1.fq.gz -2 /trainee/home/amliang/data/clean/${id}.sra_2_val_2.fq.gz -S /trainee/home/amliang/data/align/align2/align3/${id}.hisat.sam
done
  • 1
  • 2
  • 3
  • 4
  • 5

發現,比對率正常!
在這裡插入圖片描述
所以,處理資料的前提是搞明白實驗設計。

生信技能樹