1. 程式人生 > >Trim Galore用法及參數考量

Trim Galore用法及參數考量

mini .html read rate clean adapter ... cts 數據

Trim Galore是一個非常流行的用於「去接頭序列」的軟件,用於處理高通量測序得到的原始數據。通常我們從測序公司拿到數據後,第一步就是評估數據的質量以及對raw data去接頭處理。公司拿來的數據通常附帶了clean data以及去接頭的說明文件,我自己重新實現了一下trim的過程。參數都是根據公司的說明文件來設定的。

軟件說明

版本信息

  1. Trim Galore version: 0.4.1
  2. Cutadapt version: 1.11
  3. FastQC version:0.11.3

依賴環境

  1. FastQC
  2. Cutadapt

軟件安裝

Trim Galore直接在官網下載解壓後即可使用(perl文件,無需任何安裝)。

參數概覽

這裏只討論了部分參數(與我的數據相關的部分,數據情況請參照下面)。其余參數的設定可以參考「官方文檔」(Trim_Galore_User_Guide)。

  • -q/–quality :控制的質量分數閾值
  • –length :丟棄小於此長度的讀段
  • -e:允許的錯誤率
  • –stringency:限定最少與adaptor序列重疊的堿基數(用來trim的標準)
  • -o:輸出文件路徑

案例分析

測序數據

Illumina Hiseq3000
Paired-end RNA-seq

代碼展示

/.../trim_galore /.../*_R1.fastq /.../*_R2.fastq -q 25 --length 50 -e 0.1 --stringency 5 -o /.../ -a adapter1 -a2 adapter2 --paired

軟件輸出

Trimming mode: paired-end
Trim Galore version: 0.4.1
Cutadapt version: 1.11
Quality Phred score cutoff: 25
Quality encoding type selected: ASCII+33
Adapter sequence: …
Maximum trimming error rate: 0.1 (default)
Optional adapter 2 sequence (only used for read 2 of paired-end files): …

Minimum required adapter overlap (stringency): 5 bp
Minimum required sequence length for both reads before a sequence pair gets removed: 50 bp

參考資料

http://www.bioinformatics.bbsrc.ac.uk/projects/trim_galore/

Trim Galore用法及參數考量