1. 程式人生 > >基因序列分析(生物資訊學論壇)

基因序列分析(生物資訊學論壇)

          基因序列分析,其實說白了就是核酸和蛋白質的序列分析,分析上使用的主要是計算機的演算法理論和工具,但是也必須具有生物學的背景知識,在對序列進行分析時,首先應當明確序列的性質,mRNA序列還是基因組序列?是計算機拼接得到還是經過PCR擴增測序得到?是原核生物還是真核生物?這些決定了分析方法的選擇和分析結果的解釋。

(一)核酸序列分析 

          1
、雙序列比對(pairwise alignment雙序列比對是指比較兩條序列的相似性和尋找相似鹼基及氨基酸的對應位置,它是用計算機進行序列分析的強大工具,分為全域性比對(代表演算法:Needleman-Wunsch演算法

)和區域性比對(代表演算法:Smith-Waterman演算法)兩類。由於這些演算法都是啟發式(heuristic)的演算法,因此並沒有最優值。根據比對的需要,選用適當的比對工具,在比對時適當調整空格罰分(gap penalty)和空格延伸罰分(gap extension penalty),以獲得更優的比對。除了利用BLASTFASTA等區域性比對工具進行序列對資料庫的搜尋外,我們還推薦使用EMBOSS軟體包中的Needle軟體(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST http://www.ncbi.nlm.nih.gov/BLAST/
)。以上介紹的這些雙序列比對工具的使用都比較簡單,一般輸入所比較的序列即可。1BLASTFASTA 

            FASTA
http://www.ebi.ac.uk/fasta33/BLASThttp://www.ncbi.nlm.nih.gov/BLAST/是目前運用較為廣泛的相似性搜尋工具。這兩個工具都採用區域性比對的方法,選擇計分矩陣對序列計分,通過分值的大小和統計學顯著性分析確定有意義的區域性比對。使用FASTABLAST,進行資料庫搜尋,找到與查詢序列有一定相似性的序列。一般認為,如果蛋白的序列一致性為25-30%,則可認為序列同源。BLAST根據搜尋序列和資料庫的不同型別分為
5種(表2),另外PSI-BLAST通過迭代搜尋,可以搜尋到與查詢序列相似性較低的序列。其中BLASTNBLASTP在實踐中最為常用,TBLASTN在搜尋相似序列進行新基因預測時特別有用。使用BLAST時,先選擇需要使用的BLAST程式,然後提供相應的查詢序列,選擇所比對的資料庫即可。


            (2) NeedlePairwise BLAST:其中Needle適用於蛋白質和DNA序列,而Pairwise BLAST僅適用於DNA序列

3)相似性和同源性:必須指出,相似性(similarity)和同源性( homology)是兩個完全不同的概念。同源序列是指從某一共同祖先經過趨異進化而形成的不同序列。相似性是指序列比對過程中檢測序列和目標序列之間相同鹼基或氨基酸殘基序列所佔比例的大小。經過比對,當相似性高於一定程度,可以推測序列可能是同源序列,具有一定同源性。

 2、多序列比對和進化樹研究生物問題時,常常需要同時對兩個以上的序列進行比對,這就是多序列比對。多序列比對可用於研究一組相關基因或蛋白,推斷基因的進化關係,還可用於發現一組功能或結構相關基因之間的共有模式(pattern)。最常用的多序列比對工具為ClustalWhttp://www.ebi.ac.uk/clustalw/),多用於比較蛋白序列。 

             ClustalW
用法:
1)輸入:序列以FastA格式輸入。2)輸出:除了以文字形式外,還可以通過JalView顯示和編輯結果。此外,還可以另外使用GeneDoc(常見於文獻)及DNAStar軟體等顯示結果。多序列比對的結果還用於進一步繪製進化樹。

        3、基因結構分析根據基因的mRNA序列及基因組序列,可以進行基因結構的分析。推薦使用BLASTBLAT(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start)進行分析。由於真核生物轉錄後內含子將被剪下,因此將mRNA和基因組進行比對以後,會發現mRNA的每個外顯子與基因組序列片斷匹配,根據這些片段可以判斷外顯子的數目和大小。外顯子和內含子具體邊界的確定,可以參考GT/AG一致性規則。BLAT的結果直接顯示外顯子數目、大小及邊界。

(二)蛋白質序列分析 

             1
、跨膜區預測
各個物種的膜蛋白的比例差別不大,約四分之一的人類已知蛋白為膜蛋白。由於膜蛋白不溶於水,分離純化困難,不容易生長晶體,很難確定其結構。因此,對膜蛋白的跨膜螺旋進行預測是生物資訊學的重要應用

推薦使用TMHMM軟體(http://www.cbs.dtu.dk/services/TMHMM/)對蛋白進行跨膜預測。TMHMM綜合了跨膜區疏水性、電荷偏倚、螺旋長度和膜蛋白拓撲學限制等性質,採用隱馬氏模型(Hidden Markov Models),對跨膜區及膜內外區進行整體的預測。TMHMM是目前最好的進行跨膜區預測的軟體,它尤其長於區分可溶性蛋白和膜蛋白,因此首選它來判定一個蛋白是否為膜蛋白。所有跨膜區預測軟體的準確性都不超過52%,但86%的跨膜區可以通過不同的軟體進行正確預測。因此,綜合分析不同的軟體預測結果和疏水性圖以獲得更好的預測結果。方法:輸入待分析的蛋白序列即可。 

            2
、訊號肽預測
訊號肽位於分泌蛋白的N端,當蛋白跨膜轉移位置時被切掉。訊號肽的特徵是包括一個正電荷區域、一個疏水性區域和不帶電荷但具有極性的區域。訊號肽切割位點的-3-1位為小而中性氨基酸。推薦使用SignalP軟體2.0版(http://www.cbs.dtu.dk/services/SignalP-2.0/)對PDCD5N端序列進行訊號肽分析。SignalP2.0根據訊號肽序列特徵,採用神經網路方法或隱馬氏模型方法,根據物種的不同,分別選擇用真核和原核序列進行訓練,對訊號肽位置及切割位點進行預測。訊號肽切割位點預測用Y-score maximum來判斷,對是否分泌蛋白用mean S-score來判斷:如果mean S-score大於0.5,則預測為分泌蛋白,存在訊號肽,但II型跨膜蛋白的N端序列可能被錯誤預測為分泌蛋白的訊號肽。

方法:輸入待分析的蛋白序列,如為原核基因選擇原核訓練集,否則選擇真核訓練集。 

             3
、亞細胞定位預測
亞細胞定位與蛋白質的功能存在著非常重要的聯絡。亞細胞定位預測基於如下原理:(1)不同的細胞器往往具有不同的理化環境,它根據蛋白質的結構及表面理化特徵,選擇性容納蛋白。(2)蛋白質表面直接暴露於細胞器環境中,它由序列摺疊過程決定,而後者取決於氨基酸組成。因此可以通過氨基酸組成進行亞細胞定位的預測。推薦使用PSORThttp://psort.nibb.ac.jp/II軟體對PDCD5蛋白的細胞內定位進行預測。PSORT將動物蛋白質定位於10個細胞器:(1)細胞漿,(2)細胞骨架,(3)內質網,(4)胞外,(5)高爾基體,(6)溶酶體,(7)線粒體,(8)胞核,(9)過氧化物酶體(peroxisome)和(10)細胞膜。