通過bed文件獲取fasta序列
阿新 • • 發佈:2018-07-18
技術分享 定義 tps -- core 技術 lock 獲取 ref
一、BED 文件格式
BED 文件格式提供了一種靈活的方式來定義的數據行,以用來描述註釋的信息。BED行有3個必須的列和9個額外可選的列。 每行的數據格式要求一致。
必須包含的3列:
1.chrom, 染色體名字(e.g. chr3, chrY)
2.chromStart, 目標區段在染色體起始位置,染色體第一個堿基的位置是0
3.chromEnd, 目標區段在染色體結束位置,染色體的末端位置沒有包含到顯示信息裏面。例如,首先得100個堿基的染色體定義為chromStart =0 . chromEnd=100, 堿基的區段是0-99
9個可選列
4.name、5.score、6.strand、7.thickStart、8.thickEnd、9.itemRGB、10.blockCount、11.blockSize、12.blockStarts
二、基因組文件下載和seqFasta.py相關依賴包下載
1.基因組文件下載,如人hg38
$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
2.seqFasta.py依賴包下載
$ pip install numpy pyfasta
三、運行腳本seqFasta.py得到結果
1.利用geneInfo.py得到bed文件
$ python geneInfo.py -i brca1 -d hg38 -o brca1.bed
2.運行seqFasta.py得到fasta序列
$ python seqFasta.py -g $HG38/hg38.fa -b brca1.bed
【參考列表】
UCSC BED format
通過bed文件獲取fasta序列