1. 程式人生 > 其它 >BGI-College生信入門2——什麼是資料?

BGI-College生信入門2——什麼是資料?

從直覺上看,資料貌似很好理解,但真正要說清楚資料這個詞卻有點困難。

想一想,資料到底是什麼呢?

資料的定義實際上包含兩方面內容,即資訊的符號設計

其中資訊的設計,也就是資料的格式,決定了讀者從中獲取有效資訊的難易程度。

人們經常忽略的一個事實——資料的格式和資料本身同等重要。

生物資訊學中的資料

傳統的生物學家可能會認為,生物資訊學是一種將資料轉換成結果的軟體。

實則不然,生物資訊學只是將一種格式的資料,轉換成另一種格式的資料。

這種格式轉換往往帶來資訊的綜合和優化。

資料格式

生物資訊學中幾種常見的資料格式:

  1. GenBank
  2. Fasta
  3. FastQ
  4. BED/GFF/GTF
  5. SAM/BAM

1.GenBank

檔案字尾為.gb/.genbank,GenBank 是一種符合人們閱讀習慣的資料格式。

GenBank示例檔案

資料來源:https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2/

LOCUS       NC_045512              29903 bp ss-RNA     linear   VRL 18-JUL-2020
DEFINITION  Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1,
            complete genome.
ACCESSION   NC_045512
VERSION     NC_045512.
2 GI:1798174254 DBLINK BioProject: PRJNA485481 KEYWORDS RefSeq. SOURCE Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) ORGANISM Severe acute respiratory syndrome coronavirus 2 Viruses; Riboviria; Orthornavirae; Pisuviricota; Pisoniviricetes; Nidovirales; Cornidovirineae; Coronaviridae; Orthocoronavirinae; Betacoronavirus; Sarbecovirus. REFERENCE
1 (bases 1 to 29903) AUTHORS Wu,F., Zhao,S., Yu,B., Chen,Y.M., Wang,W., Song,Z.G., Hu,Y., Tao,Z.W., Tian,J.H., Pei,Y.Y., Yuan,M.L., Zhang,Y.L., Dai,F.H., Liu,Y., Wang,Q.M., Zheng,J.J., Xu,L., Holmes,E.C. and Zhang,Y.Z. TITLE A new coronavirus associated with human respiratory disease in China JOURNAL Nature 579 (7798), 265-269 (2020) PUBMED 32015508 REMARK Erratum:[Nature. 2020 Apr;580(7803):E7. PMID: 32296181] ... gene 21563..25384 /gene="S" /locus_tag="GU280_gp02" /gene_synonym="spike glycoprotein" /db_xref="GeneID:43740568" CDS 21563..25384 /gene="S" /locus_tag="GU280_gp02" /gene_synonym="spike glycoprotein" /note="structural protein; spike protein" /codon_start=1 /product="surface glycoprotein" /protein_id="YP_009724390.1" /db_xref="GI:1796318598" /db_xref="GeneID:43740568" /translation="MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFR SSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIR GWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVY SSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPINLVRDLPQ GFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFL LKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITN LCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCF TNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSNNLDSKVGGNYN YLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPTNGVGYQPY RVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFLPFQQFG RDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAI HADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPR RARSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTM YICGDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFG GFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFN GLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIGVTQN VLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGA ISSVLNDILSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMS ECVLGQSKRVDFCGKGYHLMSFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAH FPREGVFVSNGTHWFVTQRNFYEPQIITTDNTFVSGNCDVVIGIVNNTVYDPLQPELD SFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELG KYEQYIKWPWYIWLGFIAGLIAIVMVTIMLCCMTSCCSCLKGCCSCGSCCKFDEDDSE PVLKGVKLHYT" ... #檔案第一行LOCUS包括了許多資料元素,如: #名稱(NC_045512) #序列長度(29903 bp) #分子型別(ss-RNA, single strand RNA) #分子形狀(linear) #genbank分類簡稱(VRL, viral sequences) #最近一次修改時間(18-JUL-2020) LOCUS NC_045512 29903 bp ss-RNA linear VRL 18-JUL-2020

GenBank分類簡稱

簡稱全稱簡稱全稱
PRI primate sequences ROD rodent sequences
MAM other mammalian sequences VRT other vertebrate sequences
INV invertebrate sequences PLN plant, fungal, and algal sequences
BCT bacterial sequences VRL viral sequences
PHG bacteriophage sequences SYN synthetic sequences
UNA unannotated sequences EST EST sequences (expressed sequence tags)
PAT patent sequences STS STS sequences (sequence tagged sites)
GSS GSS sequences (genome survey sequences) HTG HTG sequences (high-throughput genomic sequences)
HTC unfinished high-throughput cDNA sequencing ENV environmental sampling sequences

眼尖的朋友一眼就發現了,GenBank示例檔案展示的正是肆虐全球的新冠病毒(SARS-CoV-2)的基因組資訊

新冠病毒結構示意圖

圖片來源:Alissa Eckert, MS; Dan Higgins, MAM CDC

如果瞭解新冠亞單位疫苗研製原理的小夥伴,大概會知道上面展示的 S 蛋白(spike glycoprotein),其受體結合區(RBD)片段含有多個 B 細胞和 T 細胞的表位,屬於理想的靶標抗原。

然而重組得到的靶蛋白免疫原性較差,往往需要經過一定的優化才能刺激機體產生足夠的抗體。

高福院士團隊通過二聚化 RBD 片段及免疫佐劑的配合,彌補了重組蛋白免疫原性差的短板,併成功誘導小鼠產生大量中和抗體[1]。

另外,目前世界大流行的新冠病毒 Delta 變異株,正是 S 蛋白的氨基酸位點發生了突變導致的[2]。

可見 GenBank 是一種相當複雜的儲存格式,儲存了豐富的生物資訊。

2.Fasta

檔案字尾通常為.fa/.fasta/.fna/.seq,可以記錄類似於 GenBank 中的序列資訊。

Fasta 示例檔案——新冠病毒 M 蛋白的基因序列

>NC_045512.2:26523-27191 M [organism=Severe acute respiratory syndrome coronavirus 2] [GeneID=43740571] [chromosome=]
ATGGCAGATTCCAACGGTACTATTACCGTTGAAGAGCTTAAAAAGCTCCTTGAACAATGGAACCTAGTAA
TAGGTTTCCTATTCCTTACATGGATTTGTCTTCTACAATTTGCCTATGCCAACAGGAATAGGTTTTTGTA
TATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGTTTTGTGCTTGCTGCTGTT
TACAGAATAAATTGGATCACCGGTGGAATTGCTATCGCAATGGCTTGTCTTGTAGGCTTGATGTGGCTCA
GCTACTTCATTGCTTCTTTCAGACTGTTTGCGCGTACGCGTTCCATGTGGTCATTCAATCCAGAAACTAA
CATTCTTCTCAACGTGCCACTCCATGGCACTATTCTGACCAGACCGCTTCTAGAAAGTGAACTCGTAATC
GGAGCTGTGATCCTTCGTGGACATCTTCGTATTGCTGGACACCATCTAGGACGCTGTGACATCAAGGACC
TGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGT
AGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCAT
TCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAA

Fasta 檔案包含序列的註釋資訊行和鹼基序列行

# 序列的註釋資訊行,以大於號(>)開頭
>NC_045512.2:26523-27191 M [organism=Severe acute respiratory syndrome coronavirus 2] [GeneID=43740571] [chromosome=]
# 鹼基序列
ATGGCAGATTCCAACGGTACTATTACCGTTGAAGAGCTTAAAAAGCTCCTTGAACAATGGAACCTAGTAA
TAGGTTTCCTATTCCTTACATGGATTTGTCTTCTACAATTTGCCTATGCCAACAGGAATAGGTTTTTGTA
TATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGTTTTGTGCTTGCTGCTGTT
TACAGAATAAATTGGATCACCGGTGGAATTGCTATCGCAATGGCTTGTCTTGTAGGCTTGATGTGGCTCA
GCTACTTCATTGCTTCTTTCAGACTGTTTGCGCGTACGCGTTCCATGTGGTCATTCAATCCAGAAACTAA
CATTCTTCTCAACGTGCCACTCCATGGCACTATTCTGACCAGACCGCTTCTAGAAAGTGAACTCGTAATC
GGAGCTGTGATCCTTCGTGGACATCTTCGTATTGCTGGACACCATCTAGGACGCTGTGACATCAAGGACC
TGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGT
AGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCAT
TCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAA

3.FastQ

檔案字尾為.fq/.fastq,用於儲存測序儀經過測序實驗讀取到的鹼基資訊,可以看作是帶有鹼基質量評分的 Fasta 檔案。

Fastq 檔案中每 4 行為一條 read 的測序記錄

#第一行:@符號開頭的read id
#第二行:鹼基序列行
#第三行:加號(+)後面可跟read id資訊
#第四行:鹼基對應的質量值(Phred score)

FastQ 示例檔案

@SRR16911464.1 1 length=35
GGCTGCTTATGTAGACAATTTTAGTCTTACTATTA
+SRR16911464.1 1 length=35
BBBBBBFFFFFFGGGGGGGGGGHHHHGHGHHHHHH
@SRR16911464.2 2 length=36
GACAATGCTCAGGTGTTACTTTCCAAAGTGCAGTGA
+SRR16911464.2 2 length=36
AAABBFFFFFBBFGCGEGGGGGFFFFGFHHFHH5FG
@SRR16911464.3 3 length=37
CTATGTAATCATCAGATTCAACTTGCATGGCATTGTT
+SRR16911464.3 3 length=37
CCDEDFFFFFFFGGGGGGGGGGHHHHHHHHHHHHHHH

4.BED/GFF/GTF

這一類資料主要用於記錄基因組中特定區間的座標資訊,列之間以製表符(TAB)分隔,如基因(gene)、編碼區序列(CDS)和非編碼區(UTR)等。

BED

3 列的 BED 檔案包括染色體、起始和終止

chr7  127471196  127472363
chr7  127472363  127473530
chr7  127473530  127474697

6 列的 BED 檔案增加了名稱、值和鏈方向

chr7  127471196  127472363  Pos1  0  +
chr7  127472363  127473530  Pos2  0  +
chr7  127473530  127474697  Pos3  0  +

GFF/GTF

檔案通常包含 9 列,以製表符分隔。

P.S.BED檔案的座標有效起始值是0,GFF/GTF的有效起始座標是1

GFF 示例檔案

chr1  .  mRNA  1300  9000  .  +  .  ID=mrna0001;Name=sonichedgehog
chr1  .  exon  1300  1500  .  +  .  ID=exon00001;Parent=mrna0001
chr1  .  exon  1050  1500  .  +  .  ID=exon00002;Parent=mrna0001

GTF 與 GFF 檔案的差異在第 9 列,GTF 的第 9 列必須是包括 gene_id 和 transcript_id 才是有效的格式。

5.SAM/BAM

BAM 檔案是 SAM 檔案的二進位制格式,兩種檔案都包含了 reads(FastQ)比對到參考基因組(Fasta)的資訊。

一般包括下面11列資訊,詳見:https://samtools.github.io/hts-specs/SAMv1.pdf

ColFieldBrief description
1 QNAME Query template NAME
2 FLAG bitwise FLAG
3 RNAME Reference sequence NAME
4 POS 1-based leftmost mapping POSition
5 MAPQ MAPping Quality
6 CIGAR CIGAR string
7 RNEXT Reference name of the mate/next read
8 PNEXT Position of the mate/next read
9 TLEN observed Template LENgth
10 SEQ segment SEQuence
11 QUAL ASCII of Phred-scaled base QUALity+33(or 64)

Linux下安裝使用samtools檢視BAM檔案

samtools view -h demo.bam | less -S
@HD     VN:1.5  SO:coordinate
@SQ     SN:Chromosome1  LN:3942983
V300035025L4C001R0081179505     99      Chromosome1     1       30      150M    =       101     250     ATGGAGAATATATTGGATCTTTGGAATCAAGCCTTAGCTCAAATTGAGAAAAAGCTAAGCAAACCGAGCTTCGAAACTTGGATGAAGTCGACGAAAGCCCATTCGCTGCAAGGAGATACCTTAACCATCACCGCTCCCAATGAATTTGCC        eeedaZeeefeeeeecdeeeeeecZcefeZ_eefefedecdeefeededeee_eeeUceeeeeeeeeedeabYedeeeeeedfeeeedfde^e_e`de_eeeefeedeeeeeeeeee`fefceecee]eeeffeceefebeeY]fcfaedNM:i:0  MD:Z:150
V300035025L4C006R0370133480     99      Chromosome1     1       30      150M    =       238     387     ATGGAGAATATATTGGATCTTTGGAATCAAGCCTTAGCTCAAATTGAGAAAAAGCTAAGCAAACCGAGCTTCGAAACTTGGATGAAGTCGACGAAAGCCCATTCGCTGCAAGGAGATACCTTAACCATCACCGCTCCCAATGAATTTGCC        eeXdeedeeeeeeeebceeeee_Ucee_deZeeeeeeddeeeXedabedeecdaeeeaWeeeedeeaeeeeeecbeee]eed^YeeeceQae`ae]eebeeeeeY`e^edbeNcceeeeeceeee]e\eedebaWc_fe_dbeeeed]beNM:i:0  MD:Z:150

若是SAM檔案可先用samtools view進行轉換

$samtools view

Usage: samtools view [options] <in.bam>|<in.sam>|<in.cram> [region ...]

Options:
  -b       output BAM
  -o FILE  output file name [stdout]

有時候需要用到BAM的索引檔案,需要先用samtools sort命令排序,再呼叫samtools index為BAM檔案建立索引。


參考文獻
[1] Dai L, Zheng T, Xu K, et al. A Universal Design of Betacoronavirus Vaccines against COVID-19, MERS, and SARS.Cell. 2020;182(3):722-733.e11. doi:10.1016/j.cell.2020.06.035
[2] Korber B, Fischer WM, Gnanakaran S, et al. Tracking Changes in SARS-CoV-2 Spike: Evidence that D614G Increases Infectivity of the COVID-19 Virus.Cell. 2020;182(4):812-827.e19. doi:10.1016/j.cell.2020.06.043