1. 程式人生 > >比對軟體hisat2的使用

比對軟體hisat2的使用

下載地址:https://ccb.jhu.edu/software/hisat2/index.shtml

官方手冊:https://ccb.jhu.edu/software/hisat2/manual.shtml#usage

基因組比對軟體常用bwa,轉錄組比對軟體常用bowtie2、hisat2等,其中有參考基因組的常用hisat2,沒有參考基因組的常用bowtie2。下面我們來介紹一下hisat2的使用方法~

一、建立索引

建立基因組索引

hisat2-build –p 4 genome.fa genome

建立基因組+轉錄組+SNP索引:
bowtie2的索引只有基因組序列資訊,tophat2比對時,轉錄組資訊通過-G引數指定。HISAT2建立索引時,就應該把轉錄組資訊加進去。
HISAT2提供兩個Python指令碼將GTF檔案轉換成hisat2-build能使用的檔案:

extract_exons.py Homo_sapiens.GRCh38.83.chr.gtf > genome.exon
extract_splice_sites.py Homo_sapiens.GRCh38.83.chr.gtf > genome.ss

此外,HISAT2還支援將SNP資訊加入到索引中,這樣比對的時候就可以考慮SNP的情況。這仍然需要將SNP檔案轉換成hisat2-build能使用的檔案:

extract_snps.py snp142Common.txt > genome.snp

最後,將基因組、轉錄組、SNP建立索引:

hisat2-build -p4 genome.fa --snp
 genome.snp --ss genome.ss --exon genome.exon genome_snp_tran

官網提供了人和小鼠的索引檔案下載,壓縮包有make_grch38_tran.sh檔案,詳細記錄了建立索引的過程。

執行HISAT2

hisat2 -p16-x ./grch38_tran/genome_tran -1 SRR534293_1.fastq -2 SRR534293_2.fastq –S SRR534293.sam

-p 執行緒數

-x 指定基因組索引

-1 指定第一個fastq檔案
-2 指定第二個fastq檔案

-S 指定輸出的SAM檔案

官方操作手冊簡要版

用法:
hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> | –sra-acc <SRA accession number>} [-S <hit>]

主要引數:
-x <hisat2-idx>
參考基因組索引檔案的字首。
-1 <m1>
雙端測序結果的第一個檔案。若有多組資料,使用逗號將檔案分隔。Reads的長度可以不一致。
-2 <m2>
雙端測序結果的第二個檔案。若有多組資料,使用逗號將檔案分隔,並且檔案順序要和-1引數對應。Reads的長度可以不一致。
-U <r>
單端資料檔案。若有多組資料,使用逗號將檔案分隔。可以和-1、-2引數同時使用。Reads的長度可以不一致。
–sra-acc <SRA accession number>
輸入SRA登入號,比如SRR353653,SRR353654。多組資料之間使用逗號分隔。HISAT將自動下載並識別資料型別,進行比對。
-S <hit>
指定輸出的SAM檔案。

輸入選項:
-q
輸入檔案為FASTQ格式。FASTQ格式為預設引數。
-qseq
輸入檔案為QSEQ格式。
-f
輸入檔案為FASTA格式。
-r
輸入檔案中,每一行代表一條序列,沒有序列名和測序質量等。選擇此項時,–ignore-quals引數也會被選擇。
-c
此引數後是直接比對的序列,而不是包含序列的檔名。序列間用逗號隔開。選擇此項時,–ignore-quals引數也會被選擇。
-s/–skip <int>
跳過輸入檔案中前條序列進行比對。
-u/–qupto <int>
只使用輸入檔案中前條序列進行比對,預設是沒有限制。
-5/–trim5 <int>
比對前去除每條序列5’端個鹼基
-3/–trim3 <int>
比對前去除每條序列3’端個鹼基
–phred33
輸入的FASTQ檔案鹼基質量值編碼標準為phred33,phred33為預設引數。
–phred64
輸入的FASTQ檔案鹼基質量值編碼標準為phred64。
–solexa-quals
將Solexa的鹼基質量值編碼標準轉換為phred。
–int-quals

相關推薦

軟體hisat2的使用

下載地址:https://ccb.jhu.edu/software/hisat2/index.shtml官方手冊:https://ccb.jhu.edu/software/hisat2/manual.shtml#usage基因組比對軟體常用bwa,轉錄組比對軟體常用bowti

Linux下檔案輕鬆,自由開源的比較軟體

from : http://www.linuxidc.com/Linux/2015-01/111973.htm Meld Meld是一個適用於Gnome桌面的、開源的、圖形化的檔案差異檢視和合並的應用程式。它支援2到3個檔案的同時比較、遞迴式的目錄比較、處於版

kettle入門(七) 之kettle增量方案(一)全量取增量-依據唯一標示

ctp 不變 net inf not content 變量 orm const 引: ods有個project表來自於上遊系統,數據量不大 十幾萬,下遊系統須要此數據,而且須要每天提供截止當天的增量數據 要求每條數據給出數據變化時間及標示,即數據若是插入 有插入時

身份證照片,身份鑒別,人臉實名

encode 相似度 argument eas json service dbn valid utf 詳情鏈接: 基於國家人口庫,通過面部識別相關技術鑒證識別用戶真實身份,人臉實名 支持格式: JSON/XML 請求方式: POST 接口備註

linux下文件功能

shp aar eth dwr mri mcu adg mfs npm 很想對吧兩個文本有什麽不同,可linux下有沒有那麽方便的工具,怎麽辦?其實也很簡單:diff命令,一行搞定。 新建a.txt文件 新建b.txt文件 執行命令:diff -C0 a.txt b.t

沒時間看。先記下。跟之前已經寫好程序下。

變量 正在 all tor pro str state 程序 settings using System; using System.Drawing; using System.Collections; using System.ComponentModel; u

超短reads(primer、barcode、UMI、index等)方法

get lan ref ads 需求 .com blank bar 常用 二代reads最短都有50bp,所以大家常用的比對工具都是不支持50bp以下的reads的比對的。 但是,在實際中,我們確實又有比對super short reads的需求。 So,我找到了如下方法來

工具

輸出結果 data ase api 我們 model orm clas last (green) short pairwise alignment / detailed edit model; (yellow) database search / divergent

10、在線blast結果解析

pan sum efault gen 要求 hit query 用途 str 轉載:http://www.bio1000.com/experiment/fenzi/237846.html 標簽: NCBI Blast LASTP 摘要 : NCBI BLAST比對結果報告分

利用Needleman–Wunsch算法進行DNA序列全局

gap aac print man sat odi sequence org 命令 生物信息學原理作業第二彈:利用Needleman–Wunsch算法進行DNA序列全局比對。 具體原理:https://en.wikipedia.org/wiki/Needleman%E2%8

ES6函數ES5函數

cto 箭頭函數 pan ply 單獨 {} pos efi 直接 簡介 這裏只做簡單的ES6函數與ES5函數對比,把ES6函數中新增的方法或者用法介紹一下。方便大家學習、記憶。隨著社會發展,瀏覽器肯定會在不久全部支持ES6語法,因為現在的IE8用戶都很少了,做web前端

megacc的進行多序列

.exe spec ase update settings where cati ply -- 1.軟件的安裝: 網站:http://www.megasoftware.net/ windows上安裝,下載windows-command line(cc)版本的,格式為zip,

c# 重載運算符(ovveride operator)踩坑記,關於null

漏洞 pre console blog 為什麽 留言 報表 bool 解決辦法 場景描述: 需要比對兩個版本的對應對象是否完全一致(每個屬性值一致),不一致的導出報表顏色標識,以便提醒後續使用報表人員。 實現思路: 對象重載ToString方法,另實現一比對基類(為了通用)

11、軟件STAR(https://github.com/alexdobin/STAR)

之前 sam tween 4.3 rand dex 帶來 註釋 是我 轉載:https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484731&idx=1&sn=b15fbee5910b3

linux目錄

目錄比對起因:由於兩地公司服務器互為備份,目錄結構,文件應當一樣,先發現部分目錄數據不一致。查出不一致目錄思路:將每層目錄取出做統一處理,得到所有目錄之後,統計目錄下文件個數並輸出到文件,將比對的兩個文件目錄的文件去除收個目錄結構,數據對比,刪除一致數據,返回一個不一致文件,並將文件重命名為目錄結構文件處理方

hql語句一次查詢單表中多個字段

end nta 不能 ase color poll 存儲 pen ike 前端輸入客戶名稱,在使用hql查詢時,要同時比對表中,客戶名稱,客戶簡稱,拼音簡寫,客戶編碼等多個字段 hql寫法 String fdCustomerName=cv.poll("docMain.fdC

Python3實現兩個Excel文件內容

都是 格式 lines 當前 msg 不存在 pyhon [1] 練手 最近在工作中,需要人工比對大量的excel格式報表,剛好剛學了Pyhon入門基礎知識,想著寫個東西練練手,不但能提高代碼編寫能力,還能減輕工作量,提高工作效率。說幹就幹,簡單的理了邏輯。首先,將目標表和

多序列後可視化之texshade

記錄 gho maker aaaaaa mage 展示 script 事情 如果 一 :準備工作 1)中文的 LaTeX - CTEX 2)LaTeX 的*.tex 的編輯工具-Texmarker 3)TEXshade宏包 二:安裝 1) 直接雙擊運行下載的CTEX,安裝

emacs文本廣東快樂十分平臺出租工具ediff的使用說明

編號 內容替換 多個 切換 啟動 win 那是 linux http 兩個Buffer之間比對廣東快樂十分平臺出租 haozbbs.com Q1446595067 1、啟動Ediff Session通過/M-x eddif-buffers,啟動Ediff Sessio

elastic 部分更新 retry_on_conflict 和 數據庫寫鎖 詳細

and last conf 區分 文檔 刪除 階段 不同 重建 1 數據庫的 update 在修改這條數據的的過程中(這個過程指的是 數據庫執行update 到 事務提交的過程中 )為這條數據加上 寫鎖,阻止 別的事務 對鎖定數據的修改,請求後一個修改事務的線程阻塞,直到