誰能告訴我,這資料測毀了麼?
作者往期投稿: 高通量資料下載還能這樣操作?
本次目的與任務:瞭解fastq測序資料
需要用安裝好的sratoolkit把sra檔案轉換為fastq格式的測序檔案,並且用fastqc軟體測試測序檔案的質量。
作業:理解測序reads,GC含量,質量值,接頭,index,fastqc的全部報告,搜尋中文教程,併發在論壇上面。
SRA檔案轉換為fastq檔案
用sratoolkit將NCBI上下載的sra檔案轉換成fastq檔案,以便進行下一步的QC。該工具的安裝與介紹在轉錄組入門1中已經有所介紹。這裡我再回顧一下sratoolkit的使用:
閱讀官方文件
https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc ,我們的目的是把測序sra檔案轉換為fastq檔案,因此點選“fastq-dump”進一步閱讀。
![](https://img.796t.com/res/2022/05-03/11/0809082dde279e85e2ecccca5885c344.png)
檢視本地幫助
從進入的這個頁面我們能大概瞭解到fastq-dump命令的基本用法。
![](https://img.796t.com/res/2022/05-03/11/db27bf6e897f59ba8115d084766ea576.jpeg)
然後我在本地的CentOS上又運行了幫助命令 來檢視本地版的命令說明。
fastq-dump -h #顯示幫助
![](https://img.796t.com/res/2022/05-03/11/72b21e013b7d2610f7ea3a7a65b61f61.jpeg)
顯然,本地的幫助說明更詳細一點。
先看用法:fastq-dump [各種引數] <輸入檔案的登入號或者路徑>
其中,[各種引數]在幫助中有詳細介紹,根據博主@徐洲更以及@沈夢圓的文章介紹,我們常用到的引數主要是以下兩部分的:
![](https://img.796t.com/res/2022/05-03/11/0c540c159616bddd4648f18d0192168b.jpeg)
關於輸出:
-O 指定輸出路徑--gzip 指定輸出格式為gzip壓縮格式(fastqc軟體可以直接識別gzip壓縮的檔案)--bzip2 指定輸出格式為bzip2壓縮格式**多個檔案引數**--split-3 如果是雙端測序資料,則輸出兩個檔案,如果不是則只輸出一個檔案。
明白了fastq-dump的常用引數,我們就得到了轉換sra檔案的套路
fastq-dump --gzip --split-3 -O path -A accession
具體到我們下載的資料,可以直接用@徐州更博文中的命令進行轉換
for i in `seq 56 62`do fastq-dump --gzip --split-3 -O ./fastq/ -A SRR35899${i}.sradone
以上命令在vim中編輯,儲存為.sh檔案後,通過bash執行,注意seq前的撇不是單引號。
檢視轉換結果
![](https://img.796t.com/res/2022/05-03/11/d84e5f073e80b641bb8e95fe49ba6e06.png)
轉換後生成一系列以.sra1.fastq.gz以及.sra2.fastq.gz結尾的壓縮檔案。
fastqc檢測測序檔案質量
多個檔案批量進行QC
進入轉換後fastq.gz檔案所在的檔案中,用以下命令生成批量執行的指令碼
ls ./*fastq.gz | xargs -i echo fastqc -o ./fastqc_result --nogroup {} & > fastqc.sh
執行結果會生成一個名稱為fastqc.sh的指令碼,執行該指令碼即可對當前資料夾下的fastq.gz檔案進行QC。
bash fastqc.sh
檢視QC結果
單獨檢視
關於單獨的QC結果檔案,大家可以看我以前的幾個入門帖子瞭解基本知識。 https://zhuanlan.zhihu.com/p/24608131?group_id=871001548837228544
知乎上@孟浩巍也有寫過QC結果的解讀,推薦閱讀: https://zhuanlan.zhihu.com/p/20731723
MultiQC彙總檢視
MultiQC是一款批量檢視QC結果的軟體,大大節省了我們開啟多個QC結果檔案的時間,具體使用方式可以檢視我的知乎專欄上的介紹: https://zhuanlan.zhihu.com/p/27646873
FastQC報告中哪些是值得關注的
FastQC報告的具體解讀可以參考文末參考文獻,其中值得重點關注的部分主要是:
- basic statistics
- per base sequence quality
- per base sequcence content
- adaptor content
- sequence duplication levels
主要的幾個指標是GC含量,Q20和Q30的比例以及是否存在接頭(adaptor)、index以及其他物種序列的汙染等。
- 徐洲更的博文《轉錄組入門(3):瞭解fastq測序資料》(微信搜一搜中搜索徐洲更,或者生信媛)
- 沈夢圓的博文《PANDA姐的轉錄組入門(3): 瞭解fastq測序資料 》(微信公眾號:沈夢圓)
- 孟浩巍知乎專欄文章《20160410測序分析-使用FastQC做質控》
- 用FastQC檢查二代測序原始資料的質量( https://www.plob.org/article/5987.html )
編輯:思考問題的熊