啟動子的分析和預測
啟動子的分析和預測
一、摘要
- 加深對基因啟動子的理解和認知;
- 學會如何獲取已知基因的啟動子序列資料;
- 熟悉不同啟動子分析軟體的使用及其適用範圍;
- 學會設計啟動子克隆引物。
- 熟悉EPD和TransFac資料庫的使用;
- 學會使用已知的啟動子和轉錄因子TransFac的HMM模型,並能夠獨立程式設計,利用該HMM模型來計算鑑別未知啟動子
二、材料和方法
1、硬體平臺
處理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz
安裝記憶體(RAM):16.0GB
2、系統平臺
Windows 8.1、Ubuntu
3、軟體平臺
【1】Primer-BLAST
【2】Softberry系列工具
【3】Promoter 2.0
【4】BDGP
【5】Cister
【6】NEBcutter
4、資料庫資源
NCBI資料庫:https://www.ncbi.nlm.nih.gov/
UCSC資料庫:http://genome.ucsc.edu/
5、研究物件
人類谷胱甘肽硫轉移酶M1的promoter區域
三、結果
基因啟動子序列的獲取
選擇基因:谷胱甘肽硫轉移酶M1(GSTM1)
概況:當攜帶風險基因型時,對環境毒素和致癌物質的敏感性提高,易發生DNA突變和染色體畸變,患白血病的風險因而顯著增加。
首先進入UCSC genome browser 檢視GSTM1上游5kb範圍內有無其他基因。發現該基因的上游存在同一家族的GSTM2,所以promoter大概只有3kb。
圖表 1UCSC genome browser
接下來進入Genbank,搜尋GSTM1,檢視該基因在基因組中的定位和基因結構。
圖表 2檢視基因定位和結構
開啟該基因的序列資訊,獲取該基因的啟動子序列(包含exon1)
Neural Network Promoter Prediction
進入BDGP: Neural Network Promoter Prediction網站http://www.fruitfly.org/seq_tools/promoter.html,進行啟動子預測
圖表 3 BDGP: Neural Network Promoter Prediction網站
一共預測出來3個啟動子(這個網站預測出來的promoter都是50bp)
圖表 4 BDGP預測結果
Promoter 2.0 Prediction
使用Promoter 2.0 Prediction Server http://www.cbs.dtu.dk/services/Promoter/
進行啟動子預測,也是一共預測出來3個啟動子
圖表 5Promoter 2.0預測結果
Softberry預測
TSSW、TSSP、TSSG、FPROM都是softberry提供的啟動子預測工具,進入
官網(http://www.softberry.com/),然後點選service即可,啟動子預測工具網址:
http://www.softberry.com/berry.phtml?topic=index&group=programs&subgroup=promoter
TSSW
TSSW具體網址如下(http://www.softberry.com/berry.phtml?topic=tssw&group=programs&subgroup=promoter),輸入序列進行預測即可。TSSW並沒有預測出來promoter區域。
圖表 6TSSW預測結果
TSSP
TSSP具體網址如下(http://www.softberry.com/berry.phtml?topic=tssp&group=programs&subgroup=promoter),輸入序列進行預測即可。共計預測出來一個promoter區域。
圖表 7 TSSW預測結果
TSSG
TSSG具體網址如下(http://www.softberry.com/berry.phtml?topic=tssg&group=programs&subgroup=promoter),輸入序列進行預測即可。TSSG並沒有預測出來promoter區域。
圖表 8TSSG預測結果
FPROM
FPROM具體網址如下(http://www.softberry.com/berry.phtml?topic=fprom&group=programs&subgroup=promoter),輸入序列進行預測即可。FPROM並沒有預測出來promoter區域。
圖表 9FPROM預測結果
Cister
Transcription Elements預測平臺:Cis-element Cluster Finder
https://zlab.bu.edu/~mfrith/cister.shtml
由於序列只有3kb,預設引數預測出來的轉錄元件太少,將average distance between clusters引數由預設的3w修改為3k,最有可能的結果還是NF-1
圖表 10Cister預測結果
Match
轉錄因子預測集合網站http://gene-regulation.com/pub/programs.html (需要註冊)
具體網址http://gene-regulation.com/cgi-bin/pub/programs/match/bin/match.cgi
圖表 11Match預測結果
AliBaba 2.1
轉錄因子預測集合網站http://gene-regulation.com/pub/programs.html (需要註冊)
具體網址http://gene-regulation.com/pub/programs/alibaba2/index.html
預測出來一大堆,下面僅擷取其中一部分。
圖表 12AliBaba預測結果
基因結構繪圖
雖然使用了6個promoter預測線上平臺,但是隻有3個平臺預測出promoter。
利用線上平臺processon繪製基因結構圖
圖表 13基因結構圖
接下來大致將預測結果分為4個區域,將引物設計的範圍同時繪製出來(箭頭為引物)
PrimerBlast引物設計
圖表 14引物結構
先使用預設引數進行嘗試,設定好Forward primer和Reverse primer的Range,再將PCR product size最大值調成整段序列的長度3005,同時# of primers to return引數調整為1,以方便截圖。
圖表 15引物位置
圖表 16初步設定引數
然而由於有重複序列,經過repeat filtering,不會跑出來引物,只能將引數調寬鬆。
圖表 17預設引數結果
在Advanced parameters的Primer Parameters欄目,將Repeat filter關掉,同樣可以看出來GC含量和TM值也篩選掉很多引物,在Internal hybridization oligo parameters欄目,將引物內雜交的引數調整寬鬆。
圖表 18高階引數調整
引物設計結果:
圖表 19第一段
圖表 20第二段
圖表 21第三段
圖表 22第四段
第一段:
· | Sequence (5’->3’) | Template strand | Length | Start | Stop | Tm | GC% | Self complementarity | Self 3’ complementarity |
---|---|---|---|---|---|---|---|---|---|
Forward primer | TCGTACCTACCCTCTGTTCGT | Plus | 21 | 164 | 184 | 60 | 52.38 | 4 | 0 |
Reverse primer | GGGCTGCACTCAGTAAGACT | Minus | 20 | 2918 | 2899 | 59.39 | 55 | 5 | 3 |
第二段:
· | Sequence (5’->3’) | Template strand | Length | Start | Stop | Tm | GC% | Self complementarity | Self 3’ complementarity |
---|---|---|---|---|---|---|---|---|---|
Forward primer | CCAAGTGCCCCAACTTAGCA | Plus | 20 | 849 | 868 | 60.54 | 55 | 4 | 0 |
Reverse primer | GGGCTGCACTCAGTAAGACT | Minus | 20 | 2918 | 2899 | 59.39 | 55 | 5 | 3 |
第三段:
· | Sequence (5’->3’) | Template strand | Length | Start | Stop | Tm | GC% | Self complementarity | Self 3’ complementarity |
---|---|---|---|---|---|---|---|---|---|
Forward primer | CCAGGCGTCACTAACACAGG | Plus | 20 | 1522 | 1541 | 60.67 | 60 | 3 | 1 |
Reverse primer | GTTCCGGGAGCGAAGTCAG | Minus | 19 | 2874 | 2856 | 60.45 | 63.16 | 5 | 1 |
第四段:
· | Sequence (5’->3’) | Template strand | Length | Start | Stop | Tm | GC% | Self complementarity | Self 3’ complementarity |
---|---|---|---|---|---|---|---|---|---|
Forward primer | CGAGGGCCCCTAACAGAAAA | Plus | 20 | 2405 | 2424 | 59.67 | 55 | 7 | 0 |
Reverse primer | CTGGGGCTGCACTCAGTAAG | Minus | 20 | 2921 | 2902 | 60.39 | 60 | 5 | 3 |
NEBcutter酶切位點分析
使用NEBcutter分析該啟動子序列,為了更加全面,查詢全部的特異性位點Enzymes to use: All specificities
http://nc2.neb.com/NEBcutter2/
儲存沒有酶切位點“0 cutters”的核酸內切酶資料,見附錄。
圖表 23NEBcutter結果
pGL4.17載體
查詢pGL4.17的載體資料,獲得酶切資訊。查詢關鍵詞:promega pGL4.17。
圖表 24pGL4.17載體資訊
其中SfiI、Acc65I、KpnI、SacI、NheI、XhoI、EcoRV、BglII、HindIII這九個酶都屬於在promoter內部沒有酶切位點的,這些都可以選用。
引物設計
從上面九個酶中隨便選兩個(真實情況要考慮到切割率等問題)
選擇KpnI和SacI,下面是酶切位點和保護鹼基對應表,KpnI選兩個保護鹼基。
可以看出來酶切位點序列在反向互補以後和原序列相同,直接把這段序列加在引物前面就成。
最後按照“保護鹼基+酶切序列+PCR引物”的順序,設計用於可以轉到pGL4.17載體的引物。
· | 164..184–2918..2899 | 849..868–2918..2899 | 1522..1541–2874..2856 | 2405..2424–2921..2902 |
---|---|---|---|---|
Forward Primer | CGAGCTCTCGTACCTACCCTCTGTTCGT | CGAGCTCCCAAGTGCCCCAACTTAGCA | CGAGCTCCCAGGCGTCACTAACACAGG | CGAGCTCCGAGGGCCCCTAACAGAAAA |
Reverse Primer | GGGGTACCGGGCTGCACTCAGTAAGACT | GGGGTACCGGGCTGCACTCAGTAAGACT | GGGGTACCGTTCCGGGAGCGAAGTCAG | GGGGTACCCTGGGGCTGCACTCAGTAAG |
後續實驗流程
接下來,用這四組引物,把四個promoter區域PCR出來,順帶PCR出來的還有保護鹼基和酶切序列,匯入pGL4.17,用雙熒光素酶報告系統看看哪兒個promoter活性最高,大概會出來下面這種圖,後面那張圖明顯說明promoter3活性最高。
再接下來,還可以用TFSEARCH,TFBSs,TRED這樣的轉錄因子預測軟體(上面也做了幾個預測),看看活性最高的那段區域和哪兒些轉錄因子相關,或者用pubmed查檢視文獻,ENCODE,TRANSFAC等資料庫,查詢這個基因啟動子區域的轉錄因子資訊。
接下來是程式設計練習部分
HMM模型
TransFac是轉錄因子資料庫,但是好像需要註冊才能下載模型的矩陣。
從EPD真核生物啟動子資料庫下載脊椎動物TATA-box的矩陣(共計12位鹼基)。
網址http://epd.vital-it.ch/promoter_elements.php
利用該矩陣建立打分模型,對上面谷胱甘肽硫轉移酶M1(GSTM1)的啟動子序列進行分析,具體程式碼見附錄。
打分值:每次取出12bp序列計算,依次計算每位鹼基所佔比例,再累乘得到分值(由於數值太小,分值皆除以最大分值)
圖表 25打分值統計圖
P值計算:使用bootstrap方法,將12bp序列打亂1000次,再按照上述方法計算分值,如果1000次內有n次分值高於“打亂之前的分值”,則p值為n/1000
圖表 26 p值統計圖
看的出來,整段promoter區域大部分分值都為0,p值為1。之前線上預測軟體中的200,400,1200,2570這四個位置,此處也能預測出來,效果還可以。
附錄
”0 cutters”核酸內切酶
Col1 | Col2 | Col3 |
---|---|---|
1 | AatII | GACGTC |
2 | AbaCIII | CTATCAV |
3 | AbsI | CCTCGAGG |
4 | Acc65I | GGTACC |
5 | Acc65V | GACGCA |
6 | AclI | AACGTT |
7 | AfeI | AGCGCT |
8 | AflII | CTTAAG |
9 | AflIII | ACRYGT |
10 | AhyRBAHI | GCYYGAC |
11 | AjuI | (N)5(N)7GAA(N)7TTGG(N)6(N)5 |
12 | AleI | CACNNNNGTG |
13 | AloI | (N)5(N)7GAAC(N)6TCC(N)7(N)5 |
14 | AlwFI | GAAAY(N)5RTG |
15 | ApyPI | ATCGAC(N)18NN |
16 | AscI | GGCGCGCC |
17 | AseI | ATTAAT |
18 | AsiSI | GCGATCGC |
19 | AspDUT2V | GNGCAAC |
20 | Asu14238IV | CGTRAC |
21 | BaeI | (N)5(N)10ACNNNNGTAYC(N)7(N)5 |
22 | BamHI | GGATCC |
23 | BarI | (N)5(N)7GAAG(N)6TAC(N)7(N)5 |
24 | Bce3081I | TAGGAG |
25 | BceAI | ACGGC(N)12NN |
26 | BcgI | NN(N)10CGA(N)6TGC(N)10NN |
27 | BclI | TGATCA |
28 | BdaI | NN(N)10TGA(N)6TCA(N)10NN |
29 | BglII | AGATCT |
30 | BlpI | GCTNAGC |
31 | BmgBI | CACGTC |
32 | BmtI | GCTAGC |
33 | BpuJI | CCCGT |
34 | BsaAI | YACGTR |
35 | BsbI | CAACAC(N)19NN |
36 | BsiEI | CGRYCG |
37 | BsiWI | CGTACG |
38 | Bsp24I | (N)5(N)8GAC(N)6TGG(N)7(N)5 |
39 | Bsp3004IV | CCGCAT |
40 | Bsp460III | CGCGCAG |
41 | BspDI | ATCGAT |
42 | BsrBI | CCGCTC |
43 | BsrGI | TGTACA |
44 | BssHII | GCGCGC |
45 | BstAPI | GCANNNNNTGC |
46 | BstBI | TTCGAA |
47 | BstEII | GGTNACC |
48 | BstZ17I | GTATAC |
49 | Bsu3610I | GACGAG |
50 | BtgZI | GCGATG(N)10NNNN |
51 | Cal14237I | GGTTAG |
52 | CcrNAIII | CGACCAG |
53 | Cdi11397I | GCGCAG |
54 | Cdi81III | GCMGAAG |
55 | CdiI | CATCG |
56 | Cgl13032I | GGCGCA |
57 | Cgl13032II | ACGABGG |
58 | ClaI | ATCGAT |
59 | Cma23826I | CGGAAG |
60 | CstMI | AAGGAG(N)18NN |
61 | DrdI | GACNNNNNNGTC |
62 | EagI | CGGCCG |
63 | EciI | GGCGGA(N)9NN |
64 | Eco53kI | GAGCTC |
65 | EcoRV | GATATC |
66 | Exi27195I | GCCGAC |
67 | FseI | GGCCGGCC |
68 | FspAI | RTGCGCAY |
69 | FspI | TGCGCA |
70 | GauT27I | CGCGCAGG |
71 | GdiII | CGGCCR |
72 | HindIII | AAGCTT |
73 | HpaI | GTTAAC |
74 | Hpy99I | CGWCG |
75 | HpyAXIV | GCGTA |
76 | Jma19592I | GTATNAC |
77 | Jma19592II | GRGCRAC |
78 | Kor51II | RTCGAG |
79 | KpnI | GGTACC |
80 | Lmo370I | AGCGCCG |
81 | Lsp6406VI | CRAGCAC |
82 | Maf25II | CACGCAG |
83 | MaqI | CRTTGAC(N)19NN |
84 | MauBI | CGCGCGCG |
85 | MkaDII | GAGAYGT |
86 | MluI | ACGCGT |
87 | MreI | CGCCGGCG |
88 | MslI | CAYNNNNRTG |
89 | MteI | GCGCNGCGC |
90 | NaeI | GCCGGC |
91 | Nbr128II | ACCGAC |
92 | NgoMIV | GCCGGC |
93 | NhaXI | CAAGRAG |
94 | NheI | GCTAGC |
95 | NotI | GCGGCCGC |
96 | NpeUS61II | GATCGAC |
97 | NruI | TCGCGA |
98 | PacI | TTAATTAA |
99 | PaeR7I | CTCGAG |
100 | Pal408I | CCRTGAG |
101 | PciI | ACATGT |
102 | PcsI | WCGNNNNNNNCGW |
103 | Pfl1108I | TCGTAG |
104 | PflFI | GACNNNGTC |
105 | PflMI | CCANNNNNTGG |
106 | PlaDI | CATCAG(N)19NN |
107 | PliMI | CGCCGAC |
108 | PmeI | GTTTAAAC |
109 | PmlI | CACGTG |
110 | PpiI | (N)5(N)7GAAC(N)5CTC(N)8(N)5 |
111 | PshAI | GACNNNNGTC |
112 | PsiI | TTATAA |
113 | PspXI | VCTCGAGB |
114 | PsrI | (N)5(N)7GAAC(N)6TAC(N)7(N)5 |
115 | Pst273I | GATCGAG |
116 | PvuI | CGATCG |
117 | RceI | CATCGAC(N)18NN |
118 | RdeGBI | CCGCAG |
119 | RpaB5I | CGRGGAC(N)18NN |
120 | RpaBI | CCCGCAG(N)18NN |
121 | RpaI | GTYGGAG(N)9NN |
122 | RpaTI | GRTGGAG |
123 | Rsp008IV | ACGCAG |
124 | RspPBTS2III | CTTCGAG |
125 | RsrII | CGGWCCG |
126 | SacI | GAGCTC |
127 | Saf8902III | CAATNAG |
128 | SalI | GTCGAC |
129 | SbfI | CCTGCAGG |
130 | SexAI | ACCWGGT |
131 | SfiI | GGCCNNNNNGGCC |
132 | SgrAI | CRCCGGYG |
133 | SgrDI | CGTCGACG |
134 | SnaBI | TACGTA |
135 | SpeI | ACTAGT |
136 | SphI | GCATGC |
137 | SpnRII | TCGAG |
138 | SrfI | GCCCGGGC |
139 | SsmI | CTGATG |
140 | Ssp714II | CGCAGCG |
141 | SstE37I | CGAAGAC(N)18NN |
142 | Sth20745III | GGACGAC |
143 | SwaI | ATTTAAAT |
144 | TaqIII | CACCCA(N)9NN |
145 | TspARh3I | GRACGAC |
146 | TssI | GAGNNNCTC |
147 | Tth111I | GACNNNGTC |
148 | UbaF12I | CTACNNNGTC |
149 | UbaF13I | GAG(N)6CTGG |
150 | UbaF14I | CCA(N)5TCG |
151 | UbaF9I | TAC(N)5RTGT |
152 | UbaPI | CGAACG |
153 | Xca85IV | TACGAG |
154 | XhoI | CTCGAG |
155 | ZraI | GACGTC |
模型矩陣
從EPD下載,儲存為data.txt
http://epd.vital-it.ch/promoter_elements.php
Position | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 17.7 | 19.3 | 6.6 | 83.4 | 0 | 95 | 72.3 | 94.2 | 53.3 | 29.3 | 17.7 | 22.7 |
C | 21.1 | 36.1 | 14.8 | 0 | 0 | 0 | 0 | 0 | 0 | 9 | 32.5 | 33 |
G | 29 | 36.4 | 6.8 | 0 | 0 | 0 | 0 | 5.8 | 20.1 | 51.2 | 37.7 | 33.2 |
T | 32.2 | 8.2 | 71.8 | 16.6 | 100 | 5 | 27.7 | 0 | 26.6 | 10.5 | 12.1 | 11.1 |
R程式碼
setwd("G:/AllShare/genomicsHomework/HMMmodel")
hmmmodel<- read.table("data.txt",header = TRUE)
rownames(hmmmodel) <- hmmmodel$Position
hmmmodel <- hmmmodel[,-1]
hmmmodel <- hmmmodel/100
hmmmodel <- t(hmmmodel)
library(seqinr)
promoter<- read.fasta(file = "promoter.fa")
seqmatrix<- as.matrix(promoter$`NC_000001.11:109684796-109687800`)
# 轉成大寫字母
seqmatrix<- toupper(seqmatrix)
maxseq<- strsplit("TGTATAAAAGGG",split = "")[[1]]
# 計算打分值
computeScore <- function(seq){
score <- 1
for(i in 1:length(seq)){
score <- score*hmmmodel[i,seq[i]]
}
return(score)
}
# 使用bootstrap方法,計算p值
bootstrap<- function(seq){
flag <- 0
for(i in 1:1000){
tmp <- sample(seq)
score<- computeScore(tmp)
if(score>=computeScore(seq)){
flag <- flag+1
}
}
return(flag/1000)
}
maxscore<- computeScore(maxseq)
bootstrap(maxseq)
scorevector <- c()
pvaluevector <- c()
for(i in 1:(length(seqmatrix)-11)){
tmp<- seqmatrix[i:(i+11)]
score <- computeScore(tmp)
pvalue <- bootstrap(tmp)
scorevector <- c(scorevector,score)
pvaluevector <- c(pvaluevector,pvalue)
}
result <- data.frame(scorevector,pvaluevector)
result$position <- 1:(length(promoter$`NC_000001.11:109684796-109687800`)-11)
colnames(result) <- c("score","pvalue","position")
result$score <- result$score/maxscore
library(ggplot2)
ggplot(result, aes(x=position, y=score)) +
geom_line() +
geom_point(size=4, shape=20) +
labs(title="score by HMM model")+
theme(plot.title = element_text(hjust = 0.5))
ggsave("HMM模型打分圖.pdf")
ggplot(result, aes(x=position, y=pvalue)) +
geom_line() +
geom_point(size=4, shape=20) +
geom_hline(aes(yintercept = 0.05),colour="red",linetype="dashed")+
labs(title="p value by HMM model")+
scale_x_continuous(breaks = c(0,200,400,1030,1200,1632,2570,2700))+
theme(plot.title = element_text(hjust = 0.5))
ggsave("HMM模型p值圖.pdf")
序列
Promoter序列
>NC_000001.11:109684796-109687800 Homo sapiens chromosome 1, GRCh38.p7 Primary Assembly
TCTGCTCTTGAACCCTGTGTTCTGTTGTTTAAGATGTTTATCAAGACAATATGTGCACCACTGAACATAG
ACCCTTATCAGGAGTTCTACTTTTGCCTTTGTCCTGTTTCCTCAGAAGCATGTGATCTTTGTTCTGCTTT
TTGCCCTTTAAAGCATGTGATCTTCGTACCTACCCTCTGTTCGTACACCACCACCCCTTTTGCAATCCTT
AATAAAAACTTGCTGGTTTTGAGGCTCGGGCAGGCATCATGGTCCTACCGATATGTGATGTCACCCCTGG
CGGCCCAGCTGTAAAATTCTTCTCTTTGTACTCTTTCTCTTTATTTCTCAGCTGGCTGACACTTATGGAA
AATAGAAAGAACCTACGTTGAAATATTGGGGGCAGGTTCCCCAATAGCCTTGCTGAGGAAATTAAATTTA
TGTTCAAGTGCTATTTCTTTATGGCACCAAGGAACAAGTATTTCAAACAATACTAATGTAACAGTACTGG
TTCTATGTGTTTCAAAATTATTATTCTCATGAGTGTTAGCTTTCTTAAAAAATCGTTTTTTTTTTCAATT
GGATCTAGACATCTTATCTTTCACAGCTCAAGACGGATTAACTCAGAATCATAAACTCTTAATGCATAAT
GAGAAATATAATGTTTCCTAGGGCCAGGCACTTGTGTCTGTGCTGGTGCTATTGCCTCAATGCAGGAAAA
TCTATGTAAGAGTTCACTGTGAGGCCAAAACTGCTTCCTAAACATGGATACCTGCCAGGTATCTGAGCTG
GGAGTACTGCCCAGGTCTGGATGGGCGGGGAGTGTTTGCAACAAGGACTGTGCCTTGCCAGCCTCAGTGA
CACAGTGTCCAAGTGCCCCAACTTAGCAGCCACCTGCTGACCACCTGATTTCTGTGGCCTAATAGGGATG
TGATGAAGTCTACCTGTTTACTCAACCCCAAACCACACATTATCCAGGTGGTTTGAAACTTTTTTGATAT
ACTGGGTTCATCCTCTGGAGTCCTAACAATGTTTTAGCTAATTTACAAAAAACAAAACAAAACAAAACAA
AACAAAACAAAACAAAAAAACTACTTTTTTTGCAGCACAACAGCCTGGTTTACATTGCAAAATGATTTCT
CATTAAAGGTCTATCATCTATTTCCATATGTCCATTATTATTTGCAATATCCTTTAAAGCAGTCAACCCC
AGGCTAATCCATTGCACAACTCTTTTGAAAGTCTTCCTTCTACCTTGAAAGAAGAAAGTTGGCAGGTTGG
ACATTGTTCTCGTGGAGGTTGTACCATGGGTCACATATCACGGTGTGACTTCAAAGGCCACTGGAGCCAC
CGTCTCATACTGAAGAACACACATGGGTCAGGAGCCAGGTCCAGGTCCGGAATGGTGGATCTGGAGAGGG
GAGGGTCCCTGCCTGTGGTCCTGTGGGGAGCCCTCAGGCTCCTCTCTGGCCACCATCCTCTGACCTCCCT
CCTCAGCAGGACAGGGTTCTGGCTTCTCTGAGGGACAGGTTCTGTGGCAGGCCAGGCGTCACTAACACAG
GCCTCCATAACAACTGTTTCAGTACTGACTGAGTGGTGAAGTTAAATATTAAAAGCTGAAAAAAGCCAGT
ACCTTTATACAGAGGCTGGATGTAACAAAAGCCCACCAAGAGTTTTGCTTAGGCCTTTCCTGGGCCTTAA
AGCATGACAAAACAATGAAGGAATTCTTAACAGGACCTATTTAGAATTAAACAAGTTTTATTGTGAGTCT
GAAGAAACTCCCCAGGCCTCCACAAACAAGTTTATTGGGCGTCTGAAGGAACTCCCCAAACCTCCGTGAT
TTAGCAGGAGACAAGATAAGGGTAATCATCCCCCGCACCTGGACCCATTTAGATTAAATAAATAGACTGA
GGCTCCAGAATAAGGTCCTCAGGACCCAGACCTCAGTTACAGATTAAAGAAGTTAATCACTTATGTCTTT
AGATGAATGCACACTTACTTGTAGACATATACCTTAGAAGGTATATATGCTCTGGAAAACTTTGTAATAT
TGAGTTGGTCTGGTGGTAATTTCTAGGCCTTCTCCCTGTTACCGGTTGCAGAAATAAAACCTCTCTTCCT
CCCCATTTGATCTGCATCTCGTTATTGGGCCTAGAGAAATAGCAGCCGGACCCTCAGTTTGGTCCGGGAA
GTTCTTCCATCCTCCCTCGCCTGCTCTCTGTGGCCACTGCACTCACTGTTGCTGTTGCTGTTCCGGTCTC
TGTGAGGTTCACCTAGTGGACTGGCTGGACATTTCTAGGGGGCACCTCAGATACCTCACCAACTTGCTGG
ATCTGATCCTTGGATTTCGATTCATAAATTGTGCCAAAATACGAAGTGGCTAATTTACACAGTACTTAGC
CAGATGACCGAAGGACTCAGTACCCGAGGGCCCCTAACAGAAAACACAGACCACATTTCCTTTACTCTGG
CCCTTTTCCTGGGGGTCCTTCCTATACCACTGACACTGTTCCTGTGTAGGCGGGGCTAGAGGGGAGACTA
AGCCCTGGGAGTAGCTTTCGGATCAGAGGAAGTCCTGCTCTTACAGTGACAGGGGCTGAATTAAATTCCC
AGGTTGGGGCCACCACTTTTTAGTCTGACCCCTGCAGCCGGAGTCTCCCAGAGCCCTTGGGAACTCGGCA
GCGGAGAGAAGGCTGAGGGACACCGCGGGCAGGGAGGAGAAGGGAGAAGAGCTTTGCTCCGTTAGGATCT
GGCTGGTGTCTCAAGCGCACAGCCAAGTCGCTGTGGACCTAGCAAGGGCTGGATGGACTCGTGGAGCCTC
AGGGCTGGGTAGGGAAGCTGGCGAGGCCGAGCCCCGCCTTGGGCTTCTGGGCGCCCTGACTTCGCTCCCG
GAACCCTCGGGCCTGGGAGGCGGGAGGAAGTCTTACTGAGTGCAGCCCCAGGCGCCCTCTCCCGGGCCTC
CAGAATGGCGCCTTTCGGGTTGTGGCGGGCCGAGGGGCGGGGTCGCAGCAAGGCCCCGCCTGTCC