1. 程式人生 > >RNA-seq流程報告

RNA-seq流程報告


一、摘要

實驗旨在瞭解RNA-seq的基本原理。通過模仿文獻《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,學會利用NCBI和EBI資料庫下載資料,熟悉Linux下的基本操作,並使用R語言畫圖,用Python或者shell寫指令碼進行基本的資料處理,使用FastQC等軟體進行資料處理,學習Hisat2+StringTie+Ballgown的RNA-seq分析流程,並對結果進行分析討論。

二、材料

1、硬體平臺

處理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz

安裝記憶體(RAM):16.0GB

2、系統平臺

Windows 8.1,Ubuntu 

3、軟體平臺

① Aspera connect ② FastQC ③ Hisat2

④ StringTie ⑤ Ballgown

4、資料庫資源

NCBI資料庫:https://www.ncbi.nlm.nih.gov/;

EBI資料庫:http://www.ebi.ac.uk/

;

5、研究物件

加入H3K27Ac 抗體處理過的TE7細胞系測序資料和其空白對照組

加入H3K27Ac 抗體處理過KYSE510細胞系和其空白對照組

背景簡介:食管鱗狀細胞癌(OSCC)是一種侵襲性的惡性腫瘤,本文章通過高通量小分子抑制劑進行篩選,發現了一個高度有效的抗癌物,特異性的CDK7抑制劑THZ1。RNA-Seq顯示,低劑量THZ1會對一些致癌基因的產生選擇性抑制作用,而且,對這些THZ1敏感的基因組功能的進一步表徵表明他們經常與超級增強子結合(SE)。Chip-seq解讀在OSCC細胞中,CDK7的抑制作用的機制。

本文亮點:確定了在OSCC細胞中SE的位置,以及識別出許多SE有關的調節元件;並且發現小分子THZ1特異性抑制SE有關的轉錄,顯示強大的抗癌性。

文章PMID: 27196599

三、方法

1Aspera軟體下載及安裝

進入Aspera官網的Downloads介面,選中aspera connect server,點選Wwindows圖示,選擇v3.6.2版本,點選Download進行下載。

 

圖表 1 aspera的下載

Linux下的安裝配置參考博文:

http://blog.csdn.net/likelet/article/details/8226368

2RNA-Seq資料下載

1)選擇NCBIGEO DataSets資料庫,輸入GSE76861,開啟GSM2039114、GSM2039119GSM2039120GSM2039125獲取它們對應的SRX序列號。(此處僅僅做了KYSE510TE7細胞系加入THZ10hr12hrRNA-seq資料)

 

圖表 2 RNA-seq資料

 

圖表 3 獲取SRA編號

2)進入EBI,獲取ascp下載地址

 

 

 



圖表 4 ascp下載地址

3)使用aspera下載並解壓

aspera下載命令及gunzip解壓命令(nohup+命令+& 可以後臺執行)

 

3FastQC質量檢查

3.1 FastQC的安裝

Ubuntu軟體包內自帶Fastqc

故安裝命令apt-get install fastqc

3.2使用FastQC進行質量檢查

fastqc命令:

fastqc -o . -t 5 SRR3101238_1.fastq.gz &

-o . 將結果輸出到當前目錄

-t 5 表示開5個執行緒執行

(要分別對fastq檔案執行八次)

4、使用Hisat2Reads進行Mapping

4.1 Hisat2的安裝

進入Hisat2官網http://ccb.jhu.edu/software/hisat2/index.shtml下載二進位制程式,再配置環境變數即可

 

圖表 5 Hisat2下載與安裝

4.2下載人類參考基因組和註釋檔案

人類參考基因組:Hisat2官網上有Ensemble GRCh38的基因組索引,可以直接下載使用

 

圖表 6 Hisat2建立的GRCh38索引

註釋檔案:下載自ensemble資料庫ftp://ftp.ensembl.org/pub/release-86/gtf/homo_sapiens

 

圖表 7 Ensemble註釋檔案

 

PS:如果是想自己下載基因組,然後自己建立索引,需要使用Hisat2包裡面的python指令碼

extract_splice_sites.pyextract_exons.py,從註釋檔案裡面抽取出剪下位點和外顯子資訊

First, using the python scripts included in the HISAT2 package, extract splice-site and exon information from the gene annotation file:

 

extract_splice_sites.py chrX_data/genes/chrX.gtf >chrX.ss

extract_exons.py chrX_data/genes/chrX.gtf >chrX.exon

 

Second, build a HISAT2 index:

 

hisat2-build --ss chrX.ss --exon chrX.exon chrX_data/genome/chrX.fa chrX_tran

 

The --ss and --exon options can be omitted in the command above if annotation is not available.

 

4.3 Hisat2比對

RNA-seq的測序reads使用hisat2比對

 

5samtools檔案格式轉化

samtoolssam檔案轉成bam,並且排序,為下游分析做準備

 

6stringtie轉錄本處理

6.1stringtie組裝轉錄本

stringtie對每個樣本進行轉錄本組裝

 

6.2stringtie合併轉錄本

stringtie 將所有樣本的轉錄本進行合併

注意:此處的mergelist.txt是自己建立的,需要包含之前SRR3101238.gtfSRR3101242.gtfSRR3101244.gtfSRR3101248.gtf的路徑

stringtie --merge -p 4 -G Homo_sapiens.GRCh38.86.chr_patch_hapl_scaff.gtf -o stringtie_merged.gtf mergelist.txt;

6.3 stringtie評估表達量

計算表達量並且為Ballgown包提供輸入檔案

 

7Ballgown表達量分析

7.1 Ballgown的安裝

source("http://bioconductor.org/biocLite.R")

biocLite("ballgown")

 

7.2 檔案準備與分析

將資料的分組資訊寫入一個csv檔案,此處phenodata.csv檔案

 

phenodata.csv檔案內容

sampleid,celllines,time

SRR3101238,KYSE,0hr

SRR3101242,KYSE,12hr

SRR3101244,TE7,0hr

SRR3101248,TE7,12hr

接下來就可以用ballgown愉快地進行分析了。

此處只做了四個樣本,然後在Ballgown包裡用stattest是無法計算出P值的,樣本稍微多一些才可以檢驗。

四、結果

1RNA-Seq資料下載

RNA-Seq資料下載結果

 

圖表 8 RNA-Seq資料

 

2FastQC質量檢查

資料質量檢查

 

圖表 9 質量檢查檔案

 

 

圖表 10 質量檢查結果

3、使用Hisat2對Reads進行Mapping

3.1基因組檔案

 

圖表 11人類參考基因組GRCh38索引

3.2 Mapping結果

 

圖表 12 Mapping整體結果

4samtools結果

samtools結果檔案

 

圖表 13檔案轉化結果

 

5stringtie結果

5.1組裝轉錄本

 

 

圖表 14 組裝轉錄本

5.2 合併轉錄本

 

圖表 15合併轉錄本

5.3評估表達量

 

圖表 16評估表達量

6Ballgown分析結果

剪下方式分析

 

圖表 17 某個基因的剪下方式

 

圖表 18某個基因的剪下方式

五、分析與討論

FastQC質量檢查

 

圖表 10 質量檢查結果顯示,測序質量挺好,Per base sequence content、Sequence Duplication Levels、Kmer Content出現警告更可能是由於測序方法本身存在的固有誤差

 Hisat2整體覆蓋度

 

圖表 12 Mapping整體結果可以看出四個fastq檔案Mapping整體覆蓋率都在98%左右,從另一方面說明資料質量很好

可變剪下方式分析

 

初步繪製了幾個基因的剪下方式圖,發現在可變剪下中,確實會有某一種方式佔據主導地位。

表達量熱力圖

 

圖表 19 KYSE510細胞系

 

圖表 20 TE7細胞系

 

圖表 19 KYSE510細胞系圖表 20 TE7細胞系的基因表達圖的計算方式為

加藥12hr表達量÷0hr表達量,再取log2後的值;

由於表達量訊號值小於1不顯著,故篩去,僅留下訊號值都大於1的基因。

從圖中綠色較多,可以看出加入THZ112hr後,明顯抑制了基因的表達。

RNA-SeqChip-Seq結合分析

 

圖表 21 KYSE510結合分析

 

圖表 22 TE7結合分析

圖表 21 KYSE510結合分析顯示,KYSE510細胞系差異表達基因中,有363個與Chip-seq分析流程中鑑定出的SuperEnhancer相重疊。

圖表 22 TE7結合分析顯示TE7細胞系差異表達基因中,有165個與Chip-seq分析流程中鑑定出的SuperEnhancer相重疊。

Kobas註釋分析

 

圖表 23 TE7結合分析基因註釋

 

圖表 24 KYSE510結合分析基因註釋

對於Chip-seqSuperEnhancerRNA-seq差異表達基因overlap的部分,先用Ensemble資料庫的Biomart,將GeneSymbol轉成EnsembleID,再輸入至Kobas註釋註釋選用OMIM、KEGG DISEASE、NHGRI GWAS Catalog資料庫圖表 23 TE7結合分析基因註釋圖表 24 KYSE510結合分析基因註釋結果來看與癌症相關

參考文獻

[1] Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma PMID: 27196599