1. 程式人生 > 其它 >誰能告訴我,這資料測毀了麼?

誰能告訴我,這資料測毀了麼?

作者往期投稿: 高通量資料下載還能這樣操作?

本次目的與任務:瞭解fastq測序資料

需要用安裝好的sratoolkit把sra檔案轉換為fastq格式的測序檔案,並且用fastqc軟體測試測序檔案的質量。

作業:理解測序reads,GC含量,質量值,接頭,index,fastqc的全部報告,搜尋中文教程,併發在論壇上面。

SRA檔案轉換為fastq檔案

用sratoolkit將NCBI上下載的sra檔案轉換成fastq檔案,以便進行下一步的QC。該工具的安裝與介紹在轉錄組入門1中已經有所介紹。這裡我再回顧一下sratoolkit的使用:

閱讀官方文件

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc ,我們的目的是把測序sra檔案轉換為fastq檔案,因此點選“fastq-dump”進一步閱讀。

檢視本地幫助

從進入的這個頁面我們能大概瞭解到fastq-dump命令的基本用法。

然後我在本地的CentOS上又運行了幫助命令 來檢視本地版的命令說明。

fastq-dump -h #顯示幫助

顯然,本地的幫助說明更詳細一點。

先看用法:fastq-dump [各種引數] <輸入檔案的登入號或者路徑>

其中,[各種引數]在幫助中有詳細介紹,根據博主@徐洲更以及@沈夢圓的文章介紹,我們常用到的引數主要是以下兩部分的:

關於輸出:

-O 指定輸出路徑--gzip 指定輸出格式為gzip壓縮格式(fastqc軟體可以直接識別gzip壓縮的檔案)--bzip2 指定輸出格式為bzip2壓縮格式**多個檔案引數**--split-3 如果是雙端測序資料,則輸出兩個檔案,如果不是則只輸出一個檔案。

明白了fastq-dump的常用引數,我們就得到了轉換sra檔案的套路

fastq-dump --gzip --split-3 -O path -A accession

具體到我們下載的資料,可以直接用@徐州更博文中的命令進行轉換

for i in `seq 56 62`do     fastq-dump --gzip --split-3 -O ./fastq/ -A SRR35899${i}.sradone

以上命令在vim中編輯,儲存為.sh檔案後,通過bash執行,注意seq前的撇不是單引號。

檢視轉換結果

轉換後生成一系列以.sra1.fastq.gz以及.sra2.fastq.gz結尾的壓縮檔案。

fastqc檢測測序檔案質量

多個檔案批量進行QC

進入轉換後fastq.gz檔案所在的檔案中,用以下命令生成批量執行的指令碼

ls ./*fastq.gz | xargs -i echo fastqc -o ./fastqc_result --nogroup {} & > fastqc.sh 

執行結果會生成一個名稱為fastqc.sh的指令碼,執行該指令碼即可對當前資料夾下的fastq.gz檔案進行QC。

bash fastqc.sh

檢視QC結果

單獨檢視

關於單獨的QC結果檔案,大家可以看我以前的幾個入門帖子瞭解基本知識。 https://zhuanlan.zhihu.com/p/24608131?group_id=871001548837228544

知乎上@孟浩巍也有寫過QC結果的解讀,推薦閱讀: https://zhuanlan.zhihu.com/p/20731723

MultiQC彙總檢視

MultiQC是一款批量檢視QC結果的軟體,大大節省了我們開啟多個QC結果檔案的時間,具體使用方式可以檢視我的知乎專欄上的介紹: https://zhuanlan.zhihu.com/p/27646873

FastQC報告中哪些是值得關注的

FastQC報告的具體解讀可以參考文末參考文獻,其中值得重點關注的部分主要是:

  • basic statistics
  • per base sequence quality
  • per base sequcence content
  • adaptor content
  • sequence duplication levels

主要的幾個指標是GC含量,Q20和Q30的比例以及是否存在接頭(adaptor)、index以及其他物種序列的汙染等。

參考文獻: 基因課課程《測序資料過濾與質控》( http://genek.tv )
  1. 徐洲更的博文《轉錄組入門(3):瞭解fastq測序資料》(微信搜一搜中搜索徐洲更,或者生信媛)
  2. 沈夢圓的博文《PANDA姐的轉錄組入門(3): 瞭解fastq測序資料 》(微信公眾號:沈夢圓)
  3. 孟浩巍知乎專欄文章《20160410測序分析-使用FastQC做質控》
  4. 用FastQC檢查二代測序原始資料的質量( https://www.plob.org/article/5987.html )

編輯:思考問題的熊