1. 程式人生 > >生物資訊學常見的資料下載,包括基因組,gtf,bed,註釋

生物資訊學常見的資料下載,包括基因組,gtf,bed,註釋

cd ~/reference
mkdir -p genome/hg19  && cd genome/hg19 
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa
 
 
cd ~/reference
mkdir -p genome/hg38  && cd genome/hg38 
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz  &
 
cd ~/reference
mkdir -p  genome/mm10  && cd genome/mm10 
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz  &
tar zvfx chromFa.tar.gz
cat *.fa > mm10.fa
rm chr*.fa
 
 
cd ~/biosoft/RNA-SeQC
wget http://www.broadinstitute.org/cancer/cga/sites/default/files/data/tools/rnaseqc/ThousandReads.bam
wget http://www.broadinstitute.org/cancer/cga/sites/default/files/data/tools/rnaseqc/gencode.v7.annotation_goodContig.gtf.gz
wget http://www.broadinstitute.org/cancer/cga/sites/default/files/data/tools/rnaseqc/Homo_sapiens_assembly19.fasta.gz
wget http://www.broadinstitute.org/cancer/cga/sites/default/files/data/tools/rnaseqc/Homo_sapiens_assembly19.other.tar.gz
wget http://www.broadinstitute.org/cancer/cga/sites/default/files/data/tools/rnaseqc/gencode.v7.gc.txt
wget http://www.broadinstitute.org/cancer/cga/sites/default/files/data/tools/rnaseqc/rRNA.tar.gz
 
cd ~/reference
mkdir -p index/bowtie && cd index/bowtie 
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/hg19/hg19.fa  ~/reference/index/bowtie/hg19 1>hg19.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/hg38/hg38.fa  ~/reference/index/bowtie/hg38 1>hg38.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/mm10/mm10.fa  ~/reference/index/bowtie/mm10 1>mm10.bowtie_index.log 2>&1 &
  
cd ~/reference
mkdir -p index/bwa && cd index/bwa 
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index   -a bwtsw   -p ~/reference/index/bwa/hg19  ~/reference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1   &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index   -a bwtsw   -p ~/reference/index/bwa/hg38  ~/reference/genome/hg38/hg38.fa 1>hg38.bwa_index.log 2>&1   &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index   -a bwtsw   -p ~/reference/index/bwa/mm10  ~/reference/genome/mm10/mm10.fa 1>mm10.bwa_index.log 2>&1   &
  
cd ~/reference
mkdir -p index/hisat && cd index/hisat 
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz  &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz  &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grcm38.tar.gz &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz  &
tar zxvf hg19.tar.gz
tar zxvf grcm38.tar.gz
tar zxvf hg38.tar.gz
tar zxvf mm10.tar.gz 
  
  
mkdir -p ~/annotation/variation/human/ExAC
cd ~/annotation/variation/human/ExAC
## http://exac.broadinstitute.org/
## ftp://ftp.broadinstitute.org/pub/ExAC_release/current
wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/ExAC.r0.3.1.sites.vep.vcf.gz.tbi 
nohup wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/ExAC.r0.3.1.sites.vep.vcf.gz &
wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/cnv/exac-final-cnv.gene.scores071316 
wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/cnv/exac-final.autosome-1pct-sq60-qc-prot-coding.cnv.bed
 
 
mkdir -p ~/annotation/variation/human/dbSNP
cd ~/annotation/variation/human/dbSNP
## https://www.ncbi.nlm.nih.gov/projects/SNP/
## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh38p2/
## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/
nohup wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz &
wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz.tbi 
 
 
mkdir -p ~/annotation/variation/human/1000genomes
cd ~/annotation/variation/human/1000genomes 
## ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ 
nohup wget  -c -r -nd -np -k -L -p  ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502 &
 
mkdir -p ~/annotation/variation/human/cosmic
cd ~/annotation/variation/human/cosmic
## we need to register before we can download this file. 
 
mkdir -p ~/annotation/variation/human/ESP6500
cd ~/annotation/variation/human/ESP6500
# http://evs.gs.washington.edu/EVS/
nohup wget http://evs.gs.washington.edu/evs_bulk_data/ESP6500SI-V2-SSA137.GRCh38-liftover.snps_indels.vcf.tar.gz & 
 
mkdir -p ~/annotation/variation/human/UK10K
cd ~/annotation/variation/human/UK10K
# http://www.uk10k.org/
nohup wget ftp://ngs.sanger.ac.uk/production/uk10k/UK10K_COHORT/REL-2012-06-02/UK10K_COHORT.20160215.sites.vcf.gz & 
 
mkdir -p ~/annotation/variation/human/gonl
cd ~/annotation/variation/human/gonl
## http://www.nlgenome.nl/search/
## https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release5/
nohup wget  -c -r -nd -np -k -L -p  https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release5  &
 
mkdir -p ~/annotation/variation/human/omin
cd ~/annotation/variation/human/omin
 
mkdir -p ~/annotation/variation/human/GWAS
cd ~/annotation/variation/human/GWAS
 
mkdir -p ~/annotation/variation/human/hapmap
cd ~/annotation/variation/human/hapmap
# ftp://ftp.ncbi.nlm.nih.gov/hapmap/
wget ftp://ftp.ncbi.nlm.nih.gov/hapmap/phase_3/relationships_w_pops_051208.txt 
nohup wget -c -r -np -k -L -p  -nd -A.gz ftp://ftp.ncbi.nlm.nih.gov/hapmap/phase_3/hapmap3_reformatted &
# ftp://ftp.hgsc.bcm.tmc.edu/pub/data/HapMap3-ENCODE/ENCODE3/ENCODE3v1/
wget ftp://ftp.hgsc.bcm.tmc.edu/pub/data/HapMap3-ENCODE/ENCODE3/ENCODE3v1/bcm-encode3-QC.txt 
wget ftp://ftp.hgsc.bcm.tmc.edu/pub/data/HapMap3-ENCODE/ENCODE3/ENCODE3v1/bcm-encode3-submission.txt.gz
 
 
 
 
## 1 million single nucleotide polymorphisms (SNPs) for DNA samples from each of the three ethnic groups in Singapore – Chinese, Malays and Indians.
## The Affymetrix Genome-Wide Human SNP Array 6.0   && The Illumina Human1M single BeadChip 
## http://www.statgen.nus.edu.sg/~SGVP/
## http://www.statgen.nus.edu.sg/~SGVP/singhap/files-website/samples-information.txt
# http://www.statgen.nus.edu.sg/~SGVP/singhap/files-website/genotypes/2009-01-30/QC/
 
## Singapore Sequencing Malay Project (SSMP) 
mkdir -p ~/annotation/variation/human/SSMP
cd ~/annotation/variation/human/SSMP
## http://www.statgen.nus.edu.sg/~SSMP/
## http://www.statgen.nus.edu.sg/~SSMP/download/vcf/2012_05 
 
 
## Singapore Sequencing Indian Project (SSIP) 
mkdir -p ~/annotation/variation/human/SSIP
cd ~/annotation/variation/human/SSIP
# http://www.statgen.nus.edu.sg/~SSIP/
## http://www.statgen.nus.edu.sg/~SSIP/download/vcf/dataFreeze_Feb2013
 
 
 
wget ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz 
wget ftp://ftp.ensembl.org/pub/release-86/gtf/homo_sapiens/Homo_sapiens.GRCh38.86.chr.gtf.gz 
 
mkdir -p ~/reference/gtf/gencode
cd  ~/reference/gtf/gencode
## https://www.gencodegenes.org/releases/current.html
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/gencode.v25.2wayconspseudos.gtf.gz
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/gencode.v25.long_noncoding_RNAs.gtf.gz 
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/gencode.v25.polyAs.gtf.gz 
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/gencode.v25.annotation.gtf.gz 
## https://www.gencodegenes.org/releases/25lift37.html 
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/GRCh37_mapping/gencode.v25lift37.annotation.gtf.gz 
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/GRCh37_mapping/gencode.v25lift37.metadata.HGNC.gz 
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/GRCh37_mapping/gencode.v25lift37.metadata.EntrezGene.gz 
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/GRCh37_mapping/gencode.v25lift37.metadata.RefSeq.gz 
 
 
mkdir -p ~/reference/gtf/ensembl/homo_sapiens_86
cd  ~/reference/gtf/ensembl/homo_sapiens_86
## http://asia.ensembl.org/info/data/ftp/index.html
 
 
 
cd ~/reference
mkdir -p  genome/human_g1k_v37  && cd genome/human_g1k_v37
# http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/ 
nohup wget http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.gz  &
gunzip human_g1k_v37.fasta.gz
wget http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.fai
wget http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/README.human_g1k_v37.fasta.txt
java -jar ~/biosoft/picardtools/picard-tools-1.119/CreateSequenceDictionary.jar R=human_g1k_v37.fasta O=human_g1k_v37.dict
 
## ftp://ftp.broadinstitute.org/bundle/b37/
mkdir -p ~/annotation/GATK
cd ~/annotation/variation/GATK
wget ftp://
[email protected]
/bundle/b37/1000G_phase1.snps.high_confidence.b37.vcf.gz wget ftp://[email protected]/bundle/b37/dbsnp_138.b37.vcf.gz wget ftp://[email protected]/bundle/b37/human_g1k_v37.fasta.gz wget ftp://[email protected]/bundle/b37/NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.gz wget ftp://
[email protected]
/bundle/b37/Mills_and_1000G_gold_standard.indels.b37.vcf.gz wget ftp://[email protected]/bundle/b37/hapmap_3.3.b37.vcf.gz wget ftp://[email protected]/bundle/b37/1000G_phase1.indels.b37.vcf.gz wget ftp://[email protected]/bundle/b37/1000G_phase1.indels.b37.vcf.idx.gz gunzip 1000G_phase1.indels.b37.vcf.idx.gz gunzip 1000G_phase1.indels.b37.vcf.gz       mkdir -p  ~/institute/ENSEMBL/gtf cd  ~/institute/ENSEMBL/gtf wget ftp://ftp.ensembl.org/pub/release-87/gtf/homo_sapiens/Homo_sapiens.GRCh38.87.chr.gtf.gz wget ftp://ftp.ensembl.org/pub/release-87/gtf/mus_musculus/Mus_musculus.GRCm38.87.chr.gtf.gz wget ftp://ftp.ensembl.org/pub/release-87/gtf/danio_rerio/Danio_rerio.GRCz10.87.chr.gtf.gz           cd ~/institute/TCGA/firehose ## https://gdac.broadinstitute.org/ wget http://gdac.broadinstitute.org/runs/stddata__2016_01_28/data/ACC/20160128/gdac.broadinstitute.org_ACC.Merge_snp__genome_wide_snp_6__broad_mit_edu__Level_3__segmented_scna_minus_germline_cnv_hg19__seg.Level_3.2016012800.0.0.tar.gz  -O ACC.gistic.seg.tar.gz wget http://gdac.broadinstitute.org/runs/stddata__2016_01_28/data/ACC/20160128/gdac.broadinstitute.org_ACC.Merge_snp__genome_wide_snp_6__broad_mit_edu__Level_3__segmented_scna_hg19__seg.Level_3.2016012800.0.0.tar.gz  -O ACC.raw.seg.tar.gz wget http://gdac.broadinstitute.org/runs/stddata__2016_01_28/data/ACC/20160128/gdac.broadinstitute.org_ACC.Mutation_Packager_Calls.Level_3.2016012800.0.0.tar.gz -O ACC.maf.tar.gz wget http://gdac.broadinstitute.org/runs/stddata__2016_01_28/data/ACC/20160128/gdac.broadinstitute.org_ACC.Mutation_Packager_Oncotated_Calls.Level_3.2016012800.0.0.tar.gz -O ACC.maf.anno.tar.gz

相關推薦

生物資訊常見資料下載包括基因組gtfbed註釋

cd ~/reference mkdir -p genome/hg19  && cd genome/hg19  nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa

《Python生物資訊資料管理》高清中文版PDF+英文版PDF+原始碼學習

資源連結:https://pan.baidu.com/s/15W1jfylzBaR9debSJns5UA《Python生物資訊學資料管理》中文版PDF,帶書籤,337頁。《Python生物資訊學資料管理》英文版PDF,帶書籤,556頁。兩版對比學習。配套原始碼。生物資訊學經典資料,解決生物學問題,通過“程式設

資料生物資訊特徵選擇方法:基於搜尋的視角

#引用 ##LaTex @article{WANG201621, title = “Feature selection methods for big data bioinformatics: A survey from the search perspecti

生物資訊入門 使用 GEO基因晶片資料進行差異表達分析(DEG)——Limma 演算法 資料 程式碼 結果解讀

       差異表達分析通常作為根據基因表達矩陣進行生物資訊學分析的第一步,有助於我們觀察基因在不同樣本中的表達差異,從而確定要研究的基因和表型之間的聯絡。常用的基因表達資料來自基因晶片或高通量測序。雖然矩陣看起來差不多,但是由於服從不同的分佈,因此在進行差異表達的時候需要

生物資訊相關網站和部落格資源

 biostars https://www.biostars.org/  生信技能樹 http://www.biotrainee.com/  生信人 https://shengxin.ren/ omicShare http://www.omicshare.com/forum/

電子科技大學生物資訊 重點

一: 簡答:研究內容: n  資料管理層面上:開發、設計一系列相關的工具,能夠方便有效的獲取、管理以及使用各種型別的資料和資訊。 n  演算法開發層面上:開發新的演算法及統計學的方法來揭示大規模資料之間的聯絡。 n  研究物件層面上:分析和解釋各種型別的生物學資料,包括核

生物資訊資料庫資源 {#database}

目錄   ##前言 參考基因組版本 {#genome-version} NCBI Ensembl UCSC ENCODE GENCODE TCGA 1000 GENOME ##前言 做資料分析常常會需要用到參考基因組和註釋檔案,還會需要分

生物資訊演算法筆記

入門生物資訊學,選了一條比較難的路,直接從底層演算法開始,這種做法其實不太明智。讀了"Algorithms on Strings, Trees and Sequences",一本厚厚的演算法書,後半部分其實讀得有些粗糙。今天讀完了第一遍,總的來說還是有些收穫,將筆記記錄於此。 全書總共分為四部分

生物資訊練習題-亞磊

ANNOROAD0922 生物資訊學練習題 一、data/newBGIseq500_1.fq和data/newBGIseq500_2.fq中是基於BGIseq500測序平臺的一種真核生物基因組DNA的PE101測序資料,插入片段長度為450 bp;已知該基因組大

【生信】“隨機森林”在生物資訊方面的應用

“隨機森林”在生物資訊學方面的應用 簡介 隨機森林是一種基於決策樹的機器學習演算法,可以用於樣本分類或迴歸任務,屬於非線性分類器。因此它可以挖掘變數之間複雜的非線性的相互依賴關係。通過隨機森林分析,可以找出區分兩組樣本間差異的關鍵成分。 基礎知識 1. 整合學習(ensemb

推薦給生物資訊初學者的網址

  下面是總結的一些網址,主要是針對生物資訊的初學者,畢竟自己也是初學者,在找方向上花了很大的精力,這麼網址可以讓你事半功倍,努力學是基本要求。 生信人的20個R語言習題                   http://www.bio-info-trainee.com/

生物資訊分析常用網站

1.  BLAST(核酸蛋白序列比對): https://blast.ncbi.nlm.nih.gov/Blast.cgi 2.  miRBase(miRNA資料庫網站): http://www.mirbase.org/ 3.  P

生物資訊資料庫大全

★Integrated Database Retrieval Systems ★Entrez  http://www.ncbi.nlm.nih.gov/Entrez/default.htm  ★Sequence Retrieval System

基因序列分析(生物資訊論壇)

          基因序列分析,其實說白了就是核酸和蛋白質的序列分析,分析上使用的主要是計算機的演算法理論和工具,但是也必須具有生物學的背景知識,在對序列進行分析時,首先應當明確序列的性質,是mRNA序列還是基因組序列?是計算機拼接得到還是經過PCR擴增測序得到?是原核生

生物資訊簡介 -整理綜合

生物資訊學是一門利用計算機技術研究生物系統之規律的學科。它建立在分子生物學的基礎之上,並以計算機為工具對生物資訊進行儲存、檢索和分析。其研究重點體現在基因組學和蛋白質組學兩個方面,具體來說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物資訊。生物資訊學是當今自然科

關於微信分享SDK接入包括其他App一些分享接入比如Zalo

1、背景 這次做了Zalo的SDK接入,可以分享到Zalo朋友,以及Zalo朋友圈   2、那麼對於具體的分享   3、接入SDK,其實等於接入了Zalo的許可權,以及Zalo在SDK中封裝的一個Acitivty   4、傳值過去,就是通

Git倉庫完全遷移包括所有的分支和標籤當然也包括日誌。

度娘了一堆git倉庫遷移的內容,一個個都比較麻煩,而且本地下了程式碼,還要刪去庫地址,再切換到新庫的地址上傳。一般這種操作都只是master分支,其他分支還要一個一個來,後來在51CTO上找了一個文章,簡單明瞭,一下就全搞定了。包括所有的分支、標籤、日誌,一個不少。當然賬號對

thymeleaf 會對 js 的字元轉義包括 for 迴圈裡的字元導致報錯。

發現 thymeleaf 檢查 html 語法也就算了,還會對 js 中的字元進行轉移,導致解析 js 報錯,連 js for 迴圈 都要報錯。 這樣的東西,也敢釋出啊?   = = 最後搜來搜去,找到了解決方法:在 js 里加上  /*<![CDATA[*/ 和

2000-2010年全球森林覆蓋向量資料30m內含各種福利資料下載全球土地利用自然保護區生物棲息地、人口密度等等

1.地址https://www.globalforestwatch.org/map 網站有森林變化資料,土地覆蓋資料,土地利用資料,人口密度等資料載入,並且富有下載地址 森林變化資料 點選每個資料按鈕,會有下拉選單,在每個選單列表裡,會看到會面有綠色的感嘆號,點選感嘆後會有資

武漢大學GNSS中心給IGS提供的資料產品下載地址包括精密GPS軌道鐘差EOP以及實時軌道和鐘差

中心對外提供資料服務 中心igs伺服器 地址:ftp://ics.gnsslab.cn PANDA軟體tables目錄,每天更新;  包含我們自己的精密軌道和衛星鐘差:whu目錄;  igs資料和產品;  IERS資料和產品。 IGS實時資料流 c