資料清洗—【trim_galore】那些事

阿新 • • 發佈：2022-02-21

Trim Galore是對FastQC和cutadapt的包裝。適用於所有高通量測序，包括RRBS(Reduced Representation Bisulfite-Seq )、 Illumina、Nextera和smallRNA測序平臺的雙端和單端資料。主要功能包括兩步：第一步首先去除低質量鹼基，然後去除3' 末端的adapter, 如果沒有指定具體的adapter，程式會自動檢測前1 million的序列，然後對比前12-13bp的序列是否符合以下型別的adapter：

1 Illumina: AGATCGGAAGAGC
2 Small RNA: TGGAATTCTCGG
3 Nextera: CTGTCTCTTATA

一、部分引數說明

1 #–q | ––quality <INT>
2     除了去除接頭，同時修剪3‘端低質量的鹼基；預設的phred分數為20；對不同的樣本處理方式不同；
3     RRBS樣本：先修剪3‘末端低質量鹼基，隨後再去除接頭；
4     其他型別樣本：低質量鹼基和接頭一次性處理；

1 #––phred33
2    適用於IlLumina 1.9+：指導cutadapt使用ASCII+33質量分數作為pared分數，預設使用。
3 #--phred64
4    適用於Illumina 1.5: 指導cutadapt使用ASCII+64質量分數作為pared分數

1 #––fastqc
2     當資料修剪完成以後以預設引數執行fastqc再次處理fastq檔案
3 #––fastqc_args ”<ARGS>”
4     為fastqc執行提供額外的引數，如果引數多於一個，必須以”arg1 arg2…”的格式。如：––fastqc_args ”--nogroup --outdir /home ”

 1 #-a | --adapter <STRING>
 2    指定要修剪的接頭序列；若沒有特別指定，trim_galore將自動檢測是否為以下的種類：
 3    Illumina通用
 4    Nextera轉座酶
 
 5    Illumina小RNA接頭序列
 6    如果在指定的第一個檔案的前100萬個序列中沒有檢測到接頭或者在一些接頭序列之間存在聯絡，trim_galore會預設使用”--illumina”(如果illuminate adapter是其中的一個選項，否則會預設使用”--nextera”)
 7 
 8 #-a2 | --adapter2 <STRING>
 9    為雙端測序的第二個讀長設定要去除的接頭序列；該選項依賴於”--paired”;如果要清洗的文庫是smallRNA，則a2會自動使用Illumina系統的small RNA 5’接頭（GATCGTCGGACT)
10 
11 #--illumina
12    使用illumina通用接頭的前13bp作為要去除的接頭序列（AGATCGGAAGAGC），而不會預設去檢測接頭序列的型別
13 
14 #--nextera
15    使用Nextera接頭的前12bp作為要去除的接頭序列（CTGTCTCTTATA），而不會預設去檢測接頭序列的型別
16 
17 #--small_rna
18    使用illumina small RNA 3’接頭的前12bp作為要去除的接頭序列（TGGAATTCTCGG），而不會預設去檢測接頭序列的型別。此選項會預設將”--length”值設定為18，如果 smallRNA 文庫是雙末端的，則 a2 將自動設定為 Illumina small RNA 5' 接頭 (GATCGTCGGACT)，除非設定-a2的值

 1 #-- consider_already_trimmed <INT>
 2    設定一個閾值，在接頭自動檢測的過程中，若沒有接頭的序列序列個數達到閾值，則去接頭的程式不會繼續執行，但其他質控會繼續執行
 3 
 4 #--max_length <INT>
 5    修剪後丟棄長於 <INT> bp 的read。 這僅建議用於 smallRNA 測序以去除non-small RNA 序列。
 6 
 7 #--stringency <INT>
 8     接頭序列最小配對鹼基數：簡單來說就是最多能允許末端殘留多少個接頭序列的鹼基，預設值為極端值1；該引數與trimmomatic中ILLUMINACLIP <minAdapterLength>含義相同。
 9 
10 #-e <ERROR RATE>
11    允許的最大錯誤率，預設是0.1；即ERROR rate大於10%的read 會被捨棄，如果新增來--paired引數則會捨棄一對reads
12 
13 #--gzip
14    使用gzip格式壓縮輸出檔案，如果輸入檔案是經過gzip壓縮過的，則輸出檔案會預設使用此格式進行壓縮
15 
16 #--dont_gzip
17    此選項會重寫” --gzip”，輸出檔案不會使用gzip格式進行壓縮。
18 
19 #--length <INT>
20    設定長度閾值，若read通過質控清洗或去接頭後長度小於此閾值，則會被剔除。
21    對於雙端結果，一對reads中若一個read因為該原因被拋棄，則對應的另一個read也拋棄。不會被輸出到雙端結果檔案。

1 #--paired
2    對於雙端結果，一對reads中若一個read因為質量或其他原因被拋棄，則對應的另一個read也拋棄，但若使用--retain_unpaired選項可以保留

二、利用trim_galore對測序資料進行清洗

1.對資料名預處理

1 ls fastq | grep "_1" > gz1
2 ls fastq | grep "_2" > gz2
3 paste gz1 gz2>config_file
4 cat config_file

2.資料處理

 1 #!/bin/bash
 2 cat config_file | while read id
 3 do
 4     sample_dir="./fastq"
 5     output_dir="./fastq_clean"
 6     arr=($id)
 7     fq1=${arr[0]}
 8     fq2=${arr[1]}
 9     sample_dir1="$sample_dir/$fq1"
10     sample_dir2="$sample_dir/$fq2"
11     #為防止結束終端時命令掛掉，可以用nohub防止掛起，因為現在使用學校超算中心，所以不用擔心該問題
12     trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 --paired -o $output_dir $sample_dir1 $sample_dir2
13 done

資料清洗—【trim_galore】那些事

Trim Galore是對FastQC和cutadapt的包裝。適用於所有高通量測序，包括RRBS(Reduced Representation Bisulfite-Seq )、 Illumina、Nextera和smallRNA測序平臺的雙端和單端資料。主要功能包括兩步：第一步首先去除低質

python selenium實現自動操作chrome的某網站資料清洗【此篇為jupyter notebook直接匯出.md】

背景最近實習的時候進行資料清洗，需要非常繁瑣卻重複的操作chrome瀏覽器中的某網站，大大消耗了我的精力和耐心。同組的另一位員工直接開發了一個python指令碼實現\"半\"自動化操作，拿來修改並且學習之後，解放雙手

C# 幾種常見資料結構【轉】

原文：https://www.cnblogs.com/Dewumu/p/12067573.html 一、記憶體上連續儲存，節約空間，可以索引訪問，讀取快，增刪慢

【elasticsearch】——用ILM策略自動完成冷熱資料分離【轉】

原文連結：https://blog.csdn.net/weixin_40449300/article/details/106034912 一、前言從Elastic Stack 迎來 6.6 版本後，就增加了ILM生命週期管理的功能。下面我們從以下幾個方面來分析：

grouplens上的movielens資料集_大資料基礎【Task7】實踐

技術標籤：grouplens上的movielens資料集計算每個content的CTR。資料集下載：連結：https://pan.baidu.com/s/1YDvBWp35xKLg5zsysEjDGA 提取碼：rpgs

3dTiles 資料規範詳解[3] 內嵌在瓦片檔案中的兩大資料表【轉】

3dTiles 資料規範詳解[3] 內嵌在瓦片檔案中的兩大資料表轉載請宣告出處：全網@秋意正寒目錄：https://www.cnblogs.com/onsummer/p/12799366.html

NET 通用方法：把扁平資料轉換為樹形資料結構【表格】

1.demo [Theory] [InlineData(@\"C:\\Working\\TestTreeNode.xlsx\")] public void Run(string path) { // 節點後端屬性名集合

Linux核心--核心資料型別【轉】

轉自：https://www.cnblogs.com/x_wukong/p/6057148.html 轉自：http://www.linuxidc.com/Linux/2013-12/93637.htm

【轉】那些sql語句真的值得你細細地研究

1 關於like例1，查詢name欄位中包含有“明”字的。select * from table1 where name like ‘%明%’

02_demo_測試資料分離【API】

#!/usr/bin/env python3 #-*- coding: utf-8 -*- \"使用config.ini、以及login.yaml儲存測試資料，實現測試資料分離\"

Tsugu的第147期活動資料分析【147】

這篇文章提供了不同檔線的具體資料，與同類型活動的肝力對比，和近期活動的肝力變化趨勢等資料，可以體現不同檔線的肝力變化，可以為未來的活動帶來更多參考價值。如果大家有任何想看到的資料，或者對於這篇文章的

資料科學【七】：聚類（三）

資料科學【七】：聚類（三）本文資料為CIFAR-10 dataset 載入資料集開啟“batch_1”，並隨機顯示一個影象：

【參觀微軟分享有禮】參觀微軟亞太研發集團的那些事

9月26日，我參加了由51CTO聯合微軟舉辦微軟亞太研發集團參觀活動，懷著興奮、好奇的心情，來到了位於北京中關村的“微軟亞太研發集團”。接下來，就請大家和我一起走進這個全球僅有的三個未來科技體驗中心

【大資料】那些簡化操作的輔助指令碼

技術標籤：大資料大資料hadoophivezookeeperkafka 【大資料】那些簡化操作的輔助指令碼

【Vivado那些事】Xilinx FPGA普通IO能不能直接接入PLL作為時鐘輸入

技術標籤：Vivado那些事兒 [結論] 普通IO不能直接作PLL的時鐘輸入,專用時鐘管腳可以;

【音視訊專題】音訊質量評估方法那些事

今天參加了聲網 Agora 的《實時語音質量監控系統的過去、現在與未來》，結合之前工作時音訊處理的一些經驗，分享一些自己的理解。

【說句閒話】那年比賽那些事

以下是關於 China Collect-money Foundation 的 NOI 系列相關比賽的一些事er （此乃前輩、同學以及我自己的一些親身經歷、血的教訓）

【原創】關於github那些事:如何把專案提交到coding上/gitLab上

如何把專案提交到coding上一.首先讓運維給你個程式碼庫地址: 如http://git.shiaozhijia.com/XXX.git

【使用分享】Hive分割槽表那些事

一、靜態分割槽 1.建立靜態分割槽格式: create table employees ( namestring, salaryfloat,

【自動化測試】Pytest+Appium+Allure 做 UI 自動化的那些事

Override the entrypoint of an image Introduced in GitLab and GitLab Runner 9.4. Read more about the extended configuration options.

資料清洗—【trim_galore】那些事

相關推薦