Chip-seq流程報告
實驗旨在瞭解Chip-seq的基本原理。通過模仿文獻《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,學會利用NCBI和EBI資料庫下載資料,熟悉Linux下的基本操作,並使用R語言畫圖,用Python或者shell寫指令碼進行基本的資料處理,通過FastQC、Bowtie、Macs、samtools、ROSE等軟體進行資料處理,並對預測結果進行分析討論。
1、硬體平臺
處理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz 2.50GHz
安裝記憶體(RAM):16.0GB
2、系統平臺
Windows 8.1,Ubuntu
3、軟體平臺
① Aspera connect ② FastQC ③ Bowtie
④ Macs 1.4.2 ⑤ IGV ⑥ ROSE
4、資料庫資源
NCBI資料庫:https://www.ncbi.nlm.nih.gov/;
EBI資料庫:http://www.ebi.ac.uk/;
5、研究物件
加入H3K27Ac 抗體處理過的TE7細胞系測序資料和其空白對照組
加入H3K27Ac 抗體處理過的KYSE510細胞系和其空白對照組
背景簡介:食管鱗狀細胞癌(
本文亮點:確定了在OSCC細胞中SE的位置,以及識別出許多SE有關的調節元件;並且發現小分子THZ1特異性抑制SE有關的轉錄,顯示強大的抗癌性。
文章PMID: 27196599
1、Aspera軟體下載及安裝
進入
圖表 1 aspera的下載
Linux下的安裝配置參考博文:
http://blog.csdn.net/likelet/article/details/8226368
2、Chip-Seq資料下載
1)選擇NCBI的GEO DataSets資料庫,輸入GSE76861,開啟GSM2039110、GSM2039111、2039112、GSM2039113獲取它們對應的SRX序列號。
圖表 2 Chip-seq資料
圖表 3 獲取SRA編號
2)進入EBI,獲取ascp下載地址
圖表 4 ascp下載地址
3)使用aspera下載並解壓
aspera下載命令及gunzip解壓命令(nohup+命令+&可以後臺執行)
3、FastQC質量檢查
3.1 FastQC的安裝
Ubuntu軟體包內自帶Fastqc
故安裝命令apt-get install fastqc
3.2 使用FastQC進行質量檢查
fastqc命令:
fastqc -o . -t 5 -f fastq SRR3101251.fastq &
-o . 將結果輸出到當前目錄
-t 5 表示開5個執行緒執行
-f fastq SRR3101251.fastq 表示輸入的檔案
(要分別對四個fastq檔案執行四次)
4、使用Bowtie對Reads進行Mapping
4.1 Bowtie的安裝
Ubuntu軟體包內自帶bowtie
故安裝命令apt-get install bowtie
4.2 下載人類參考基因組
文獻說序列比對到了人類參考基因組GRCh37/hg19上
bowtie官網上面有人類參考基因組hg19已經建好索引的檔案
圖表 5 bowtie hg19建好的索引
再執行解壓縮命令:unzip hg19.ebwt.zip
4.3 使用bowtie進行比對
bowtie命令:
5、MACS尋找Peak富集區
5.1 Macs14的安裝
至劉小樂實驗室網站下載http://liulab.dfci.harvard.edu/MACS/Download.html
解壓後,切換到資料夾目錄,執行
python setup.py install
5.2 使用Macs建模,尋找Peaks富集區
MACS命令:
6、IGV視覺化
6.1資料正規化normalised
編寫python程式對wig檔案進行normalised
對TE7_H3K27Ac和KYSE510_H3K27Ac的wig檔案(即MACS後生成的treat資料夾裡的wig檔案)計算RPM
RPM公式:(某位置的reads數目÷所有染色體上總reads數目)×1000000
6.2 使用wigToBigWig轉化格式
6.3安裝IGV(Integrative Genomics Viewer)對結果視覺化
從IGV官網下載windows版本http://software.broadinstitute.org/software/igv/download根據提示安裝
直接點選開啟igv.jar或者對bat檔案以管理員身份執行
首先,載入hg19基因組;接著載入兩個normalised後的bw檔案即可
7、ROSE鑑定Enhancer
7.1 ROSE程式安裝
ROSE程式可以到http://younglab.wi.mit.edu/super_enhancer_code.html下載,並且有2.7G的示例資料
7.2 資料預處理
7.3執行ROSE程式
7.4 進行基因註釋
7.5 編寫R程式,繪製Enhancer及鄰近基因
圖表 6 TE7.r程式
圖表 7 KYSE510.r程式
1、Chip-Seq資料下載
Chip-Seq資料下載並解壓結果
圖表 8 Chip-Seq資料
2、FastQC質量檢查
資料質量檢查
圖表 9 質量檢查檔案
3、使用Bowtie對Reads進行Mapping
3.1基因組檔案
圖表 11人類參考基因組HG19索引
3.2 Mapping結果
圖表 13 生成的sam檔案
4、MACS尋找Peak富集區
4.1MACS結果檔案
圖表 14 TE7實驗對照組結果
圖表 15 KYSE510實驗對照組結果
4.2 MACS結果解讀
Peaks.xls從左至右依次是:峰所在的染色體名稱,峰的起始位置,峰的結束為止,峰的長度,峰的高度,貼上的reads標籤個數,pvalue(表示置信度),峰的富集程度,FDR假陽性率(越小則峰越好)
圖表 16 Peaks.xls檔案
negative_peaks.xls當有對照組實驗存在時,MACS會進行兩次peak calling。第一次以實驗組(Treatment)為實驗組,對照組為對照組,第二次顛倒,以實驗組為對照組,對照組為實驗組。這個相當於顛倒過後計算出來的檔案
圖表 17 negative_peaks.xls
Peaks.bed檔案相當於Peaks.xls的簡化版,從左至右依次是:峰所在的染色體名稱,峰的起始位置,峰的結束為止,峰的MACS名稱,pvalue(表示置信度)
圖表 18 Peaks.bed檔案
summits.bed是峰頂檔案,從左至右依次是:峰所在的染色體名稱,峰頂的位置,峰的MACS名稱,峰的高度
圖表 19 summits.bed檔案
MACS_wiggle資料夾下面分為control資料夾和treat資料夾,裡面分別存了control組和treat組每隔50bp,貼上的reads數目。第一列為染色體上的位置;第二列為從第一列對應的位置開始,延伸50bp,總共貼上的標籤(reads)個數。
圖表 20 wiggle資料夾下afterfiting_all.wig檔案
model.r檔案可以使用R執行,繪製雙峰模型的圖片PDF
圖表 21 model.r檔案
圖表 22 TE7雙峰模型 圖表 23 KYSE510雙峰模型
5、IGV對peaks視覺化
5.1Normalised後,wig檔案與文獻資料比較
圖表 24 peaks整體統計比較
5.2 IGV peaks整體視覺化
圖表 25 IGV視覺化
6、ROSE分析結果
6.1 資料預處理結果
Samtools將sam檔案轉化為bam檔案,並且排序,再建立索引
圖表 26 bam檔案和bai索引
6.2 ROSE程式Enhancer分類結果
圖表 27 TE7 Enhancer分類結果
圖表 28 KYSE510 Enhancer分類結果
peaks_AllEnhancers.table.txt檔案從左到右分別是,Enhancer區域名稱ID,染色體位置,Enhancer起始位置,結束位置,由多少個Enhancer縫合連線而成,Enhancer大小,Treat組峰高度,Control組峰高度,Enhancer大小排名,是否為Super Enhancer
圖表 29 peaks_AllEnhancers.table.txt檔案
peaks_Plot_points.png圖片,縱座標為peaks_AllEnhancers.table.txt中G,H列相減結果,及減掉對照組峰後的高度,橫座標為全部Enhancer的排名,越可能是SuperEnhancer則越靠圖的右邊。
圖表 30 TE7_peaks_Plot_points.png圖表 31 KYSE510_peaks_Plot_points.png
6.3 基因註釋結果
AllEnhancers_ENHANCER_TO_GENE.txt第J列開始為離Enhancer最近的基因名稱
AllEnhancers_GENE_TO_ENHANCER.txt第1列為基因名,後面為鄰近峰的名稱
圖表 32 AllEnhancers_ENHANCER_TO_GENE.txt檔案
圖表 33 AllEnhancers_GENE_TO_ENHANCER.txt
1、結論
1.1 FastQC質量檢查
FastQC 版本和機房小型機不同,為v0.10.1,因此檢測結果略有區別。圖表 8 質量檢查結果顯示,測序質量挺好,Per base sequence content、Per sequence GC content、Kmer Content出現警告更可能是由於測序方法本身存在的固有誤差。
1.2 bowtie整體覆蓋度
由圖表 10 Mapping整體結果可以看出,四個fastq檔案Mapping整體覆蓋率都在90%以上,從另一方面說明資料質量很好
1.3 ROSE辨別出的Super Enhancer
由圖表 29 TE7_peaks_Plot_points.png圖表 28 KYSE510_peaks_Plot_points.png可以看出,在TE7細胞系中,找出了439個Super Enhancer,在KYSE510細胞系中,找出了823個Super Enhancer。
2、討論
由IGV視覺化圖可以看出,峰的高度和位置基本和文獻相同。
圖表 34 IGV視覺化圖
再用R程式根據ROSE程式結果,繪製和文獻相同的圖片,與文獻的圖片進行比較,可以看出來,基因的分佈是相似的,就是具體位置和文獻不是很一樣。
圖表 35 本流程結果
圖表 36 文獻結果
在MACS結果中,有些很窄的峰高度明顯比文獻要低,這可能是因為bowtie時候,設定的引數使得多條reads比對上僅輸出一次,使得峰高度減小。
在ROSE結果中,MIR205HG沒有標註出來,而文獻中有此基因,經過檢查,在相似位置ROSE程式有找到MIR205基因,這可能是基因註釋檔案和文獻不同導致的。
參考文獻
[1] Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma PMID: 27196599