Trim Galore用法及參數考量
阿新 • • 發佈:2019-01-21
mini .html read rate clean adapter ... cts 數據
Trim Galore是一個非常流行的用於「去接頭序列」的軟件,用於處理高通量測序得到的原始數據。通常我們從測序公司拿到數據後,第一步就是評估數據的質量以及對raw data去接頭處理。公司拿來的數據通常附帶了clean data以及去接頭的說明文件,我自己重新實現了一下trim的過程。參數都是根據公司的說明文件來設定的。
軟件說明
版本信息
- Trim Galore version: 0.4.1
- Cutadapt version: 1.11
- FastQC version:0.11.3
依賴環境
- FastQC
- Cutadapt
軟件安裝
Trim Galore直接在官網下載解壓後即可使用(perl文件,無需任何安裝)。
參數概覽
這裏只討論了部分參數(與我的數據相關的部分,數據情況請參照下面)。其余參數的設定可以參考「官方文檔」(Trim_Galore_User_Guide)。
- -q/–quality :控制的質量分數閾值
- –length :丟棄小於此長度的讀段
- -e:允許的錯誤率
- –stringency:限定最少與adaptor序列重疊的堿基數(用來trim的標準)
- -o:輸出文件路徑
案例分析
測序數據
Illumina Hiseq3000
Paired-end RNA-seq
代碼展示
/.../trim_galore /.../*_R1.fastq /.../*_R2.fastq -q 25 --length 50 -e 0.1 --stringency 5 -o /.../ -a adapter1 -a2 adapter2 --paired
軟件輸出
Trimming mode: paired-end
Trim Galore version: 0.4.1
Cutadapt version: 1.11
Quality Phred score cutoff: 25
Quality encoding type selected: ASCII+33
Adapter sequence: …
Maximum trimming error rate: 0.1 (default)
Optional adapter 2 sequence (only used for read 2 of paired-end files): …Minimum required adapter overlap (stringency): 5 bp
Minimum required sequence length for both reads before a sequence pair gets removed: 50 bp
參考資料
http://www.bioinformatics.bbsrc.ac.uk/projects/trim_galore/
Trim Galore用法及參數考量