1. 程式人生 > >通過bed文件獲取fasta序列

通過bed文件獲取fasta序列

技術分享 定義 tps -- core 技術 lock 獲取 ref

一、BED 文件格式

BED 文件格式提供了一種靈活的方式來定義的數據行,以用來描述註釋的信息。BED行有3個必須的列和9個額外可選的列。 每行的數據格式要求一致。

必須包含的3列:

1.chrom, 染色體名字(e.g. chr3, chrY)

2.chromStart, 目標區段在染色體起始位置,染色體第一個堿基的位置是0

3.chromEnd, 目標區段在染色體結束位置,染色體的末端位置沒有包含到顯示信息裏面。例如,首先得100個堿基的染色體定義為chromStart =0 . chromEnd=100, 堿基的區段是0-99

技術分享圖片

9個可選列

4.name、5.score、6.strand、7.thickStart、8.thickEnd、9.itemRGB、10.blockCount、11.blockSize、12.blockStarts

二、基因組文件下載和seqFasta.py相關依賴包下載

1.基因組文件下載,如人hg38

$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz

2.seqFasta.py依賴包下載

$ pip install numpy pyfasta

三、運行腳本seqFasta.py得到結果

1.利用geneInfo.py得到bed文件

$ python geneInfo.py -i brca1 -d hg38 -o brca1.bed

2.運行seqFasta.py得到fasta序列

$ python seqFasta.py -g $HG38/hg38.fa -b brca1.bed

技術分享圖片

【參考列表】

UCSC BED format

通過bed文件獲取fasta序列