1. 程式人生 > 其它 >lncRNA實戰專案-第三步-瞭解參考基因組及註釋檔案

lncRNA實戰專案-第三步-瞭解參考基因組及註釋檔案

下載原始測序資料:

在GEO資料庫搜尋GSE87182, 這裡沒有直接給出ftp地址,需要先從BioProject找到SRA號,可以得到RNA-Seq的SRA的accession_list,共64組資料(SRA資料下載方法參考:https://www.ncbi.nlm.nih.gov/books/NBK158899/)。

得到SRA號就可以從NCBI的SRA或者EBI的ENA批量下載原始資料了,NCBI下載的原始資料是sra格式,需要用SRA Toolkit軟體包轉化為fastq資料格式,EBI下載的資料直接是fastq格式。

這裡要注意SRR號並不是連續的,好像有人已經踩過這個坑了,我還是掉進去了,下了一個晚上的資料白瞎了。重新下載,這次只選擇下載CC,OC兩個腦區域的資料,剛好這兩組資料的測序平臺也一致。

#NCBI下載
for ((i=230;i<=237;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR404/SRR4042$i/SRR4042$i.sra;done
for ((i=393;i<=400;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR401/SRR4015$i/SRR4015$i.sra;done

SRR4015393和SRR4015394測序質量不好,最好不要下載這兩組資料練習。

#EBI下載
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i_1.fastq.gz;done
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i_2.fastq.gz;done

另外若覺得wget下載速度慢,可以選擇其他下載方法(SRA、SAM以及Fastq檔案高速下載方法):

  • 首選Aspera Connect軟體,這是IBM旗下的商業高速檔案傳輸軟體,與NCBI和EBI有協作合同,我們可以免費使用它下載高通量測序檔案,體驗飛一般的感覺,速度可飈至300-500M/s。下載完成後,本地用fastq-dump提取fastq檔案,用sam-dump提取SAM檔案。
  • 其次,如果上述方法不奏效,優先使用sratoolkit中的prefetch命令
  • 最後,使用sratoolkit中的fastq-dump和sam-dump命令下載,如果fastq-dump不穩定,推薦大家嘗試Biostar Handbook中的wonderdump指令碼

SRA資料庫介紹

SRA(Sequence ReadArchive)資料庫是儲存二代測序的原始資料。

根據SRA資料產生的特點,將SRA資料分為四類: tudies-- 研究課題 xperiments-- 實驗設計 uns-- 測序結果集 amples-- 樣品資訊 RA中資料結構的層次關係為:Studies->Experiments->Samples->Runs. tudies是就實驗目標而言的,一個study 可能包含多個Experiment。 Experiments包含了Sample、DNA source、測序平臺、資料處理等資訊。 一個Experiment可能包含一個或多個runs。 uns 表示測序儀執行所產生的reads。 SRA資料庫用不同的字首加以區分: ERP或SRP表示Studies; RS 表示 Samples; RX 表示 Experiments; RR 表示 Runs;

下載基因組資料:

基因組資料:ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/ Ensemble基因組資料的形式包含以下2種: (1)masked/unmasked dna_sm- Repeats soft-masked (converts repeat nucleotidesto lowercase) dna_rm- Repeats masked (converts repeats to to N's) dna- No masking (2) toplevel / primary assembly toplevel- Includes haplotype information (notsure how aligners deal with this) primary_assembly– contains all toplevel sequenceregions excluding haplotypes and patches. This is best used for performingsequence similarity searches where patch and haplotype sequences would confuseanalysis.

根據README中的介紹,primary_assembly 和 toplevel相比不包含haplotype, 更適合用於比對,對於mask/un mask 通常選擇softmask或者unmasked, 一般不用rm的。這個有一個討論,幾個人的回答並不一致,我還是模模糊糊,並不很明白。

macaca的基因組版本沒有給出primary_assembly, 所以我下載了sm.toplevel和toplevel, 有時間去比較下會對下游分析有什麼影響。

wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna_sm.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cdna/Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/ncrna/Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cds/Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz

下載註釋資料:

註釋資料:https://asia.ensembl.org/info/data/ftp/index.html

wget ftp://ftp.ensembl.org/pub/release-91/gtf/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-91/gff3/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gff3.gz

參考資料:

SRA資料下載方法參考:https://www.ncbi.nlm.nih.gov/books/NBK158899/ SRA、SAM以及Fastq檔案高速下載方法: http://bioinfostar.com/2017/12/23/How-to-download-SRA-data-zh_CN/ SRA資料庫介紹:https://www.shengxin.ren/article/16