1. 程式人生 > >啟動子的分析和預測

啟動子的分析和預測

啟動子的分析和預測

一、摘要

  1. 加深對基因啟動子的理解和認知;
  2. 學會如何獲取已知基因的啟動子序列資料;
  3. 熟悉不同啟動子分析軟體的使用及其適用範圍;
  4. 學會設計啟動子克隆引物。
  5. 熟悉EPD和TransFac資料庫的使用;
  6. 學會使用已知的啟動子和轉錄因子TransFac的HMM模型,並能夠獨立程式設計,利用該HMM模型來計算鑑別未知啟動子

二、材料和方法

1、硬體平臺

處理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz
安裝記憶體(RAM):16.0GB

2、系統平臺

Windows 8.1、Ubuntu

3、軟體平臺

【1】Primer-BLAST
【2】Softberry系列工具
【3】Promoter 2.0
【4】BDGP
【5】Cister
【6】NEBcutter

4、資料庫資源

NCBI資料庫:https://www.ncbi.nlm.nih.gov/
UCSC資料庫:http://genome.ucsc.edu/

5、研究物件

人類谷胱甘肽硫轉移酶M1的promoter區域

三、結果

基因啟動子序列的獲取

選擇基因:谷胱甘肽硫轉移酶M1(GSTM1)
概況:當攜帶風險基因型時,對環境毒素和致癌物質的敏感性提高,易發生DNA突變和染色體畸變,患白血病的風險因而顯著增加。
首先進入UCSC genome browser 檢視GSTM1上游5kb範圍內有無其他基因。發現該基因的上游存在同一家族的GSTM2,所以promoter大概只有3kb。
UCSC genome browser


圖表 1UCSC genome browser
接下來進入Genbank,搜尋GSTM1,檢視該基因在基因組中的定位和基因結構。
檢視基因定位和結構
圖表 2檢視基因定位和結構
開啟該基因的序列資訊,獲取該基因的啟動子序列(包含exon1)
檢視基因定位和結構
檢視基因定位和結構

Neural Network Promoter Prediction

進入BDGP: Neural Network Promoter Prediction網站http://www.fruitfly.org/seq_tools/promoter.html,進行啟動子預測
BDGP
圖表 3 BDGP: Neural Network Promoter Prediction網站
一共預測出來3個啟動子(這個網站預測出來的promoter都是50bp)
BDGP預測結果


圖表 4 BDGP預測結果

Promoter 2.0 Prediction

使用Promoter 2.0 Prediction Server http://www.cbs.dtu.dk/services/Promoter/
進行啟動子預測,也是一共預測出來3個啟動子
Promoter 2.0預測結果
圖表 5Promoter 2.0預測結果

Softberry預測

TSSW、TSSP、TSSG、FPROM都是softberry提供的啟動子預測工具,進入
官網(http://www.softberry.com/),然後點選service即可,啟動子預測工具網址:
http://www.softberry.com/berry.phtml?topic=index&group=programs&subgroup=promoter

TSSW

TSSW具體網址如下(http://www.softberry.com/berry.phtml?topic=tssw&group=programs&subgroup=promoter),輸入序列進行預測即可。TSSW並沒有預測出來promoter區域。
TSSW預測結果
圖表 6TSSW預測結果

TSSP

TSSP具體網址如下(http://www.softberry.com/berry.phtml?topic=tssp&group=programs&subgroup=promoter),輸入序列進行預測即可。共計預測出來一個promoter區域。
TSSW預測結果
圖表 7 TSSW預測結果

TSSG

TSSG具體網址如下(http://www.softberry.com/berry.phtml?topic=tssg&group=programs&subgroup=promoter),輸入序列進行預測即可。TSSG並沒有預測出來promoter區域。
TSSG預測結果
圖表 8TSSG預測結果

FPROM

FPROM具體網址如下(http://www.softberry.com/berry.phtml?topic=fprom&group=programs&subgroup=promoter),輸入序列進行預測即可。FPROM並沒有預測出來promoter區域。
FPROM預測結果
圖表 9FPROM預測結果

Cister

Transcription Elements預測平臺:Cis-element Cluster Finder
https://zlab.bu.edu/~mfrith/cister.shtml
由於序列只有3kb,預設引數預測出來的轉錄元件太少,將average distance between clusters引數由預設的3w修改為3k,最有可能的結果還是NF-1
Cister預測結果
圖表 10Cister預測結果

Match

轉錄因子預測集合網站http://gene-regulation.com/pub/programs.html (需要註冊)
具體網址http://gene-regulation.com/cgi-bin/pub/programs/match/bin/match.cgi
Match預測結果
圖表 11Match預測結果

AliBaba 2.1

轉錄因子預測集合網站http://gene-regulation.com/pub/programs.html (需要註冊)
具體網址http://gene-regulation.com/pub/programs/alibaba2/index.html
預測出來一大堆,下面僅擷取其中一部分。
AliBaba預測結果
圖表 12AliBaba預測結果

基因結構繪圖

雖然使用了6個promoter預測線上平臺,但是隻有3個平臺預測出promoter。
利用線上平臺processon繪製基因結構圖
基因結構圖
圖表 13基因結構圖
接下來大致將預測結果分為4個區域,將引物設計的範圍同時繪製出來(箭頭為引物)

PrimerBlast引物設計

引物結構
圖表 14引物結構
先使用預設引數進行嘗試,設定好Forward primer和Reverse primer的Range,再將PCR product size最大值調成整段序列的長度3005,同時# of primers to return引數調整為1,以方便截圖。
引物位置引物位置引物位置引物位置
圖表 15引物位置
初步設定引數
圖表 16初步設定引數
然而由於有重複序列,經過repeat filtering,不會跑出來引物,只能將引數調寬鬆。
預設引數結果
圖表 17預設引數結果
在Advanced parameters的Primer Parameters欄目,將Repeat filter關掉,同樣可以看出來GC含量和TM值也篩選掉很多引物,在Internal hybridization oligo parameters欄目,將引物內雜交的引數調整寬鬆。
高階引數調整
圖表 18高階引數調整

引物設計結果:

第一段
圖表 19第一段
第二段
圖表 20第二段
第三段
圖表 21第三段
第四段
圖表 22第四段
第一段:

· Sequence (5’->3’) Template strand Length Start Stop Tm GC% Self complementarity Self 3’ complementarity
Forward primer TCGTACCTACCCTCTGTTCGT Plus 21 164 184 60 52.38 4 0
Reverse primer GGGCTGCACTCAGTAAGACT Minus 20 2918 2899 59.39 55 5 3

第二段:

· Sequence (5’->3’) Template strand Length Start Stop Tm GC% Self complementarity Self 3’ complementarity
Forward primer CCAAGTGCCCCAACTTAGCA Plus 20 849 868 60.54 55 4 0
Reverse primer GGGCTGCACTCAGTAAGACT Minus 20 2918 2899 59.39 55 5 3

第三段:

· Sequence (5’->3’) Template strand Length Start Stop Tm GC% Self complementarity Self 3’ complementarity
Forward primer CCAGGCGTCACTAACACAGG Plus 20 1522 1541 60.67 60 3 1
Reverse primer GTTCCGGGAGCGAAGTCAG Minus 19 2874 2856 60.45 63.16 5 1

第四段:

· Sequence (5’->3’) Template strand Length Start Stop Tm GC% Self complementarity Self 3’ complementarity
Forward primer CGAGGGCCCCTAACAGAAAA Plus 20 2405 2424 59.67 55 7 0
Reverse primer CTGGGGCTGCACTCAGTAAG Minus 20 2921 2902 60.39 60 5 3

NEBcutter酶切位點分析

使用NEBcutter分析該啟動子序列,為了更加全面,查詢全部的特異性位點Enzymes to use: All specificities
http://nc2.neb.com/NEBcutter2/
儲存沒有酶切位點“0 cutters”的核酸內切酶資料,見附錄。
NEBcutter結果
圖表 23NEBcutter結果

pGL4.17載體

查詢pGL4.17的載體資料,獲得酶切資訊。查詢關鍵詞:promega pGL4.17。
pGL4.17載體資訊
圖表 24pGL4.17載體資訊
其中SfiI、Acc65I、KpnI、SacI、NheI、XhoI、EcoRV、BglII、HindIII這九個酶都屬於在promoter內部沒有酶切位點的,這些都可以選用。

引物設計

從上面九個酶中隨便選兩個(真實情況要考慮到切割率等問題)
選擇KpnI和SacI,下面是酶切位點和保護鹼基對應表,KpnI選兩個保護鹼基。
引物設計
可以看出來酶切位點序列在反向互補以後和原序列相同,直接把這段序列加在引物前面就成。
最後按照“保護鹼基+酶切序列+PCR引物”的順序,設計用於可以轉到pGL4.17載體的引物。

· 164..184–2918..2899 849..868–2918..2899 1522..1541–2874..2856 2405..2424–2921..2902
Forward Primer CGAGCTCTCGTACCTACCCTCTGTTCGT CGAGCTCCCAAGTGCCCCAACTTAGCA CGAGCTCCCAGGCGTCACTAACACAGG CGAGCTCCGAGGGCCCCTAACAGAAAA
Reverse Primer GGGGTACCGGGCTGCACTCAGTAAGACT GGGGTACCGGGCTGCACTCAGTAAGACT GGGGTACCGTTCCGGGAGCGAAGTCAG GGGGTACCCTGGGGCTGCACTCAGTAAG

後續實驗流程

接下來,用這四組引物,把四個promoter區域PCR出來,順帶PCR出來的還有保護鹼基和酶切序列,匯入pGL4.17,用雙熒光素酶報告系統看看哪兒個promoter活性最高,大概會出來下面這種圖,後面那張圖明顯說明promoter3活性最高。
後續實驗流程後續實驗流程
再接下來,還可以用TFSEARCH,TFBSs,TRED這樣的轉錄因子預測軟體(上面也做了幾個預測),看看活性最高的那段區域和哪兒些轉錄因子相關,或者用pubmed查檢視文獻,ENCODE,TRANSFAC等資料庫,查詢這個基因啟動子區域的轉錄因子資訊。

接下來是程式設計練習部分

HMM模型

TransFac是轉錄因子資料庫,但是好像需要註冊才能下載模型的矩陣。
從EPD真核生物啟動子資料庫下載脊椎動物TATA-box的矩陣(共計12位鹼基)。
網址http://epd.vital-it.ch/promoter_elements.php
利用該矩陣建立打分模型,對上面谷胱甘肽硫轉移酶M1(GSTM1)的啟動子序列進行分析,具體程式碼見附錄。
打分值:每次取出12bp序列計算,依次計算每位鹼基所佔比例,再累乘得到分值(由於數值太小,分值皆除以最大分值)
打分值統計圖
圖表 25打分值統計圖
P值計算:使用bootstrap方法,將12bp序列打亂1000次,再按照上述方法計算分值,如果1000次內有n次分值高於“打亂之前的分值”,則p值為n/1000
p值統計圖
圖表 26 p值統計圖
看的出來,整段promoter區域大部分分值都為0,p值為1。之前線上預測軟體中的200,400,1200,2570這四個位置,此處也能預測出來,效果還可以。

附錄

”0 cutters”核酸內切酶

Col1 Col2 Col3
1 AatII GACGTC
2 AbaCIII CTATCAV
3 AbsI CCTCGAGG
4 Acc65I GGTACC
5 Acc65V GACGCA
6 AclI AACGTT
7 AfeI AGCGCT
8 AflII CTTAAG
9 AflIII ACRYGT
10 AhyRBAHI GCYYGAC
11 AjuI (N)5(N)7GAA(N)7TTGG(N)6(N)5
12 AleI CACNNNNGTG
13 AloI (N)5(N)7GAAC(N)6TCC(N)7(N)5
14 AlwFI GAAAY(N)5RTG
15 ApyPI ATCGAC(N)18NN
16 AscI GGCGCGCC
17 AseI ATTAAT
18 AsiSI GCGATCGC
19 AspDUT2V GNGCAAC
20 Asu14238IV CGTRAC
21 BaeI (N)5(N)10ACNNNNGTAYC(N)7(N)5
22 BamHI GGATCC
23 BarI (N)5(N)7GAAG(N)6TAC(N)7(N)5
24 Bce3081I TAGGAG
25 BceAI ACGGC(N)12NN
26 BcgI NN(N)10CGA(N)6TGC(N)10NN
27 BclI TGATCA
28 BdaI NN(N)10TGA(N)6TCA(N)10NN
29 BglII AGATCT
30 BlpI GCTNAGC
31 BmgBI CACGTC
32 BmtI GCTAGC
33 BpuJI CCCGT
34 BsaAI YACGTR
35 BsbI CAACAC(N)19NN
36 BsiEI CGRYCG
37 BsiWI CGTACG
38 Bsp24I (N)5(N)8GAC(N)6TGG(N)7(N)5
39 Bsp3004IV CCGCAT
40 Bsp460III CGCGCAG
41 BspDI ATCGAT
42 BsrBI CCGCTC
43 BsrGI TGTACA
44 BssHII GCGCGC
45 BstAPI GCANNNNNTGC
46 BstBI TTCGAA
47 BstEII GGTNACC
48 BstZ17I GTATAC
49 Bsu3610I GACGAG
50 BtgZI GCGATG(N)10NNNN
51 Cal14237I GGTTAG
52 CcrNAIII CGACCAG
53 Cdi11397I GCGCAG
54 Cdi81III GCMGAAG
55 CdiI CATCG
56 Cgl13032I GGCGCA
57 Cgl13032II ACGABGG
58 ClaI ATCGAT
59 Cma23826I CGGAAG
60 CstMI AAGGAG(N)18NN
61 DrdI GACNNNNNNGTC
62 EagI CGGCCG
63 EciI GGCGGA(N)9NN
64 Eco53kI GAGCTC
65 EcoRV GATATC
66 Exi27195I GCCGAC
67 FseI GGCCGGCC
68 FspAI RTGCGCAY
69 FspI TGCGCA
70 GauT27I CGCGCAGG
71 GdiII CGGCCR
72 HindIII AAGCTT
73 HpaI GTTAAC
74 Hpy99I CGWCG
75 HpyAXIV GCGTA
76 Jma19592I GTATNAC
77 Jma19592II GRGCRAC
78 Kor51II RTCGAG
79 KpnI GGTACC
80 Lmo370I AGCGCCG
81 Lsp6406VI CRAGCAC
82 Maf25II CACGCAG
83 MaqI CRTTGAC(N)19NN
84 MauBI CGCGCGCG
85 MkaDII GAGAYGT
86 MluI ACGCGT
87 MreI CGCCGGCG
88 MslI CAYNNNNRTG
89 MteI GCGCNGCGC
90 NaeI GCCGGC
91 Nbr128II ACCGAC
92 NgoMIV GCCGGC
93 NhaXI CAAGRAG
94 NheI GCTAGC
95 NotI GCGGCCGC
96 NpeUS61II GATCGAC
97 NruI TCGCGA
98 PacI TTAATTAA
99 PaeR7I CTCGAG
100 Pal408I CCRTGAG
101 PciI ACATGT
102 PcsI WCGNNNNNNNCGW
103 Pfl1108I TCGTAG
104 PflFI GACNNNGTC
105 PflMI CCANNNNNTGG
106 PlaDI CATCAG(N)19NN
107 PliMI CGCCGAC
108 PmeI GTTTAAAC
109 PmlI CACGTG
110 PpiI (N)5(N)7GAAC(N)5CTC(N)8(N)5
111 PshAI GACNNNNGTC
112 PsiI TTATAA
113 PspXI VCTCGAGB
114 PsrI (N)5(N)7GAAC(N)6TAC(N)7(N)5
115 Pst273I GATCGAG
116 PvuI CGATCG
117 RceI CATCGAC(N)18NN
118 RdeGBI CCGCAG
119 RpaB5I CGRGGAC(N)18NN
120 RpaBI CCCGCAG(N)18NN
121 RpaI GTYGGAG(N)9NN
122 RpaTI GRTGGAG
123 Rsp008IV ACGCAG
124 RspPBTS2III CTTCGAG
125 RsrII CGGWCCG
126 SacI GAGCTC
127 Saf8902III CAATNAG
128 SalI GTCGAC
129 SbfI CCTGCAGG
130 SexAI ACCWGGT
131 SfiI GGCCNNNNNGGCC
132 SgrAI CRCCGGYG
133 SgrDI CGTCGACG
134 SnaBI TACGTA
135 SpeI ACTAGT
136 SphI GCATGC
137 SpnRII TCGAG
138 SrfI GCCCGGGC
139 SsmI CTGATG
140 Ssp714II CGCAGCG
141 SstE37I CGAAGAC(N)18NN
142 Sth20745III GGACGAC
143 SwaI ATTTAAAT
144 TaqIII CACCCA(N)9NN
145 TspARh3I GRACGAC
146 TssI GAGNNNCTC
147 Tth111I GACNNNGTC
148 UbaF12I CTACNNNGTC
149 UbaF13I GAG(N)6CTGG
150 UbaF14I CCA(N)5TCG
151 UbaF9I TAC(N)5RTGT
152 UbaPI CGAACG
153 Xca85IV TACGAG
154 XhoI CTCGAG
155 ZraI GACGTC

模型矩陣

從EPD下載,儲存為data.txt
http://epd.vital-it.ch/promoter_elements.php

Position 1 2 3 4 5 6 7 8 9 10 11 12
A 17.7 19.3 6.6 83.4 0 95 72.3 94.2 53.3 29.3 17.7 22.7
C 21.1 36.1 14.8 0 0 0 0 0 0 9 32.5 33
G 29 36.4 6.8 0 0 0 0 5.8 20.1 51.2 37.7 33.2
T 32.2 8.2 71.8 16.6 100 5 27.7 0 26.6 10.5 12.1 11.1

R程式碼

setwd("G:/AllShare/genomicsHomework/HMMmodel")
hmmmodel<- read.table("data.txt",header = TRUE)
rownames(hmmmodel) <- hmmmodel$Position
hmmmodel <- hmmmodel[,-1]
hmmmodel <- hmmmodel/100
hmmmodel <- t(hmmmodel)
library(seqinr)
promoter<- read.fasta(file = "promoter.fa")
seqmatrix<- as.matrix(promoter$`NC_000001.11:109684796-109687800`)
# 轉成大寫字母
seqmatrix<- toupper(seqmatrix)
maxseq<- strsplit("TGTATAAAAGGG",split = "")[[1]]
# 計算打分值
computeScore <- function(seq){
  score <- 1
  for(i in 1:length(seq)){
    score <- score*hmmmodel[i,seq[i]]
  }
  return(score)
}
# 使用bootstrap方法,計算p值
bootstrap<- function(seq){
  flag <- 0
  for(i in 1:1000){
    tmp <- sample(seq)
    score<- computeScore(tmp)
    if(score>=computeScore(seq)){
      flag <- flag+1
    }
  }
  return(flag/1000)
}
maxscore<- computeScore(maxseq)
bootstrap(maxseq)
scorevector <- c()
pvaluevector <- c()
for(i in 1:(length(seqmatrix)-11)){
  tmp<- seqmatrix[i:(i+11)]
  score <- computeScore(tmp)
  pvalue <- bootstrap(tmp)
  scorevector <- c(scorevector,score)
  pvaluevector <- c(pvaluevector,pvalue)
}
result <- data.frame(scorevector,pvaluevector)
result$position <- 1:(length(promoter$`NC_000001.11:109684796-109687800`)-11)
colnames(result) <- c("score","pvalue","position")
result$score <- result$score/maxscore
library(ggplot2)
ggplot(result, aes(x=position, y=score)) + 
  geom_line() + 
  geom_point(size=4, shape=20) +
  labs(title="score by HMM model")+
  theme(plot.title = element_text(hjust = 0.5))
ggsave("HMM模型打分圖.pdf")

ggplot(result, aes(x=position, y=pvalue)) + 
  geom_line() + 
  geom_point(size=4, shape=20) +
  geom_hline(aes(yintercept = 0.05),colour="red",linetype="dashed")+
  labs(title="p value by HMM model")+
  scale_x_continuous(breaks = c(0,200,400,1030,1200,1632,2570,2700))+
  theme(plot.title = element_text(hjust = 0.5))
ggsave("HMM模型p值圖.pdf")

序列

Promoter序列
>NC_000001.11:109684796-109687800 Homo sapiens chromosome 1, GRCh38.p7 Primary Assembly
TCTGCTCTTGAACCCTGTGTTCTGTTGTTTAAGATGTTTATCAAGACAATATGTGCACCACTGAACATAG
ACCCTTATCAGGAGTTCTACTTTTGCCTTTGTCCTGTTTCCTCAGAAGCATGTGATCTTTGTTCTGCTTT
TTGCCCTTTAAAGCATGTGATCTTCGTACCTACCCTCTGTTCGTACACCACCACCCCTTTTGCAATCCTT
AATAAAAACTTGCTGGTTTTGAGGCTCGGGCAGGCATCATGGTCCTACCGATATGTGATGTCACCCCTGG
CGGCCCAGCTGTAAAATTCTTCTCTTTGTACTCTTTCTCTTTATTTCTCAGCTGGCTGACACTTATGGAA
AATAGAAAGAACCTACGTTGAAATATTGGGGGCAGGTTCCCCAATAGCCTTGCTGAGGAAATTAAATTTA
TGTTCAAGTGCTATTTCTTTATGGCACCAAGGAACAAGTATTTCAAACAATACTAATGTAACAGTACTGG
TTCTATGTGTTTCAAAATTATTATTCTCATGAGTGTTAGCTTTCTTAAAAAATCGTTTTTTTTTTCAATT
GGATCTAGACATCTTATCTTTCACAGCTCAAGACGGATTAACTCAGAATCATAAACTCTTAATGCATAAT
GAGAAATATAATGTTTCCTAGGGCCAGGCACTTGTGTCTGTGCTGGTGCTATTGCCTCAATGCAGGAAAA
TCTATGTAAGAGTTCACTGTGAGGCCAAAACTGCTTCCTAAACATGGATACCTGCCAGGTATCTGAGCTG
GGAGTACTGCCCAGGTCTGGATGGGCGGGGAGTGTTTGCAACAAGGACTGTGCCTTGCCAGCCTCAGTGA
CACAGTGTCCAAGTGCCCCAACTTAGCAGCCACCTGCTGACCACCTGATTTCTGTGGCCTAATAGGGATG
TGATGAAGTCTACCTGTTTACTCAACCCCAAACCACACATTATCCAGGTGGTTTGAAACTTTTTTGATAT
ACTGGGTTCATCCTCTGGAGTCCTAACAATGTTTTAGCTAATTTACAAAAAACAAAACAAAACAAAACAA
AACAAAACAAAACAAAAAAACTACTTTTTTTGCAGCACAACAGCCTGGTTTACATTGCAAAATGATTTCT
CATTAAAGGTCTATCATCTATTTCCATATGTCCATTATTATTTGCAATATCCTTTAAAGCAGTCAACCCC
AGGCTAATCCATTGCACAACTCTTTTGAAAGTCTTCCTTCTACCTTGAAAGAAGAAAGTTGGCAGGTTGG
ACATTGTTCTCGTGGAGGTTGTACCATGGGTCACATATCACGGTGTGACTTCAAAGGCCACTGGAGCCAC
CGTCTCATACTGAAGAACACACATGGGTCAGGAGCCAGGTCCAGGTCCGGAATGGTGGATCTGGAGAGGG
GAGGGTCCCTGCCTGTGGTCCTGTGGGGAGCCCTCAGGCTCCTCTCTGGCCACCATCCTCTGACCTCCCT
CCTCAGCAGGACAGGGTTCTGGCTTCTCTGAGGGACAGGTTCTGTGGCAGGCCAGGCGTCACTAACACAG
GCCTCCATAACAACTGTTTCAGTACTGACTGAGTGGTGAAGTTAAATATTAAAAGCTGAAAAAAGCCAGT
ACCTTTATACAGAGGCTGGATGTAACAAAAGCCCACCAAGAGTTTTGCTTAGGCCTTTCCTGGGCCTTAA
AGCATGACAAAACAATGAAGGAATTCTTAACAGGACCTATTTAGAATTAAACAAGTTTTATTGTGAGTCT
GAAGAAACTCCCCAGGCCTCCACAAACAAGTTTATTGGGCGTCTGAAGGAACTCCCCAAACCTCCGTGAT
TTAGCAGGAGACAAGATAAGGGTAATCATCCCCCGCACCTGGACCCATTTAGATTAAATAAATAGACTGA
GGCTCCAGAATAAGGTCCTCAGGACCCAGACCTCAGTTACAGATTAAAGAAGTTAATCACTTATGTCTTT
AGATGAATGCACACTTACTTGTAGACATATACCTTAGAAGGTATATATGCTCTGGAAAACTTTGTAATAT
TGAGTTGGTCTGGTGGTAATTTCTAGGCCTTCTCCCTGTTACCGGTTGCAGAAATAAAACCTCTCTTCCT
CCCCATTTGATCTGCATCTCGTTATTGGGCCTAGAGAAATAGCAGCCGGACCCTCAGTTTGGTCCGGGAA
GTTCTTCCATCCTCCCTCGCCTGCTCTCTGTGGCCACTGCACTCACTGTTGCTGTTGCTGTTCCGGTCTC
TGTGAGGTTCACCTAGTGGACTGGCTGGACATTTCTAGGGGGCACCTCAGATACCTCACCAACTTGCTGG
ATCTGATCCTTGGATTTCGATTCATAAATTGTGCCAAAATACGAAGTGGCTAATTTACACAGTACTTAGC
CAGATGACCGAAGGACTCAGTACCCGAGGGCCCCTAACAGAAAACACAGACCACATTTCCTTTACTCTGG
CCCTTTTCCTGGGGGTCCTTCCTATACCACTGACACTGTTCCTGTGTAGGCGGGGCTAGAGGGGAGACTA
AGCCCTGGGAGTAGCTTTCGGATCAGAGGAAGTCCTGCTCTTACAGTGACAGGGGCTGAATTAAATTCCC
AGGTTGGGGCCACCACTTTTTAGTCTGACCCCTGCAGCCGGAGTCTCCCAGAGCCCTTGGGAACTCGGCA
GCGGAGAGAAGGCTGAGGGACACCGCGGGCAGGGAGGAGAAGGGAGAAGAGCTTTGCTCCGTTAGGATCT
GGCTGGTGTCTCAAGCGCACAGCCAAGTCGCTGTGGACCTAGCAAGGGCTGGATGGACTCGTGGAGCCTC
AGGGCTGGGTAGGGAAGCTGGCGAGGCCGAGCCCCGCCTTGGGCTTCTGGGCGCCCTGACTTCGCTCCCG
GAACCCTCGGGCCTGGGAGGCGGGAGGAAGTCTTACTGAGTGCAGCCCCAGGCGCCCTCTCCCGGGCCTC
CAGAATGGCGCCTTTCGGGTTGTGGCGGGCCGAGGGGCGGGGTCGCAGCAAGGCCCCGCCTGTCC