1. 程式人生 > >生物資訊學簡介 -整理綜合

生物資訊學簡介 -整理綜合

生物資訊學是一門利用計算機技術研究生物系統之規律的學科。它建立在分子生物學的基礎之上,並以計算機為工具對生物資訊進行儲存、檢索和分析。其研究重點體現在基因組學和蛋白質組學兩個方面,具體來說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物資訊。生物資訊學是當今自然科學與生命科學的重大前沿科學之一。

一、 發展歷程

1866年孟德爾從實驗上提出了基因是以生物成分存在的假設,5年以後Miescher從死亡的白細胞核中分離出DNA,1944年Avery和McCarty證明了DNA是生命器官的遺傳物質,同年Chargaff發現DNA中鳥嘌呤的量與胞嘧啶的總量總是相等,腺嘌呤與胸腺嘧啶的量相等。同時,Wilkins與Franklin用

X射線衍射技術測定了DNA纖維的結構。1953年James Watson和FrancisCrick推測出DNA的雙螺旋結構,DNA是以磷酸糖鍊形成的雙股螺旋結構,脫氧核糖上的鹼基按Chargaff規律構成的雙股磷酸糖鏈之間的鹼基對。這個模型表示DNA具有自身的互補結構,根據鹼基對原則,DNA中貯存的遺傳資訊可以精確地進行復制。1954年Crick提出了中心法則(Central dogma),揭示了遺傳資訊的傳遞規律,即DNA是合成RNA的模板,RNA又是合成蛋白質的模板,其對分子生物學和生物資訊學的法則都起到了極其重要的指導作用。分子生物學揭示了生命科學中的微觀世界,對生命科學的發展起了巨大的推動作用。在分子生物學的研究過程中,產生了大量的生物資訊資料,對大量生物資訊資料的儲存檢索和分析可以藉助計算機,因此分子生物學與電腦科學、數學、資訊科技等學科交叉形成的生物資訊學成了一種必然的趨勢。

隨著人類基因組工程測序的完成,生物資訊學的研究又走向了一個高潮,在DNA自動測序技術的快速發展的推動下,DNA資料庫中的核酸序列公共資料量飛速增長迅速膨脹。這使得我們面臨著大量資料的組織和儲存、檢索的困難,而在巨大的資料量往往蘊含著潛在突破性發現的可能。在這種背景下就產生了生物資訊學這一交叉學科。簡單地說,該領域的核心內容是研究如何通過對DNA序列的統計計算分析,更加深入地理解DNA序列、結構、演化及其與生物功能之間的關係,其研究設計到分子生物學、分子演化及結構生物學,統計學及電腦科學與技術等諸多領域。

二、 研究現狀簡介

生物資訊學作為一門新興的交叉學科領域,在短短的二十年的發展過程中,形成了如序列對比、蛋白質結構對比和預測、序列重疊群裝配、代謝網路分析等多個研究方向。

1. 序列對比

序列對比(Sequence Alignment)的基本問題是比較兩個或者兩個以上符號的相似性或者不相似性。序列對比考慮了DNA序列的生物學特性,如局部發生的插入、刪除和替代,序列的目標函式獲得序列之間突變集最小距離加權和或最大相似性和,對齊方法包括全域性對齊,區域性對齊,代溝懲罰等。通常採用的演算法有動態規劃演算法,在序列長度較小的時候動態規劃演算法適用。然而當基因序列的資料量非常大的時候,這一方法就不太適用,甚至採用線性複雜度的演算法也難以湊效。因此在序列對比中引入了啟發式演算法,如著名的BALST和FASTA演算法。

2. 蛋白質結構對比和預測

蛋白質結構對比和預測是比較兩個或者兩個以上蛋白質分子空間結構的相似性或不相似性。一般認為,具有相似功能的蛋白質結構一般相似。蛋白質是由氨基酸組成的長鏈,具有多種功能,如酶,物質的存貯和運輸,訊號傳遞,抗體等等。我們可以通過研究蛋白質結構對比和預測:在醫藥上可以理解生物的功能,尋找docking drugs的目標,在農業上可獲得更好的農作物的基因,工業上有利於酶的合成。因為蛋白質的3維結構比其一級結構在進化中更穩定的保留,所以直接對蛋白質結構進行比對。蛋白質3維結構研究的有著如下一個假設,既內在的氨基酸序列與3維結構一一對應。

蛋白質結構的預測指的是從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構,其本質是一個組合優化問題。同源建模(homology modeling)用於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),指認(Threading)則用於比較進化族中不同的蛋白質結構。然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要。

3. 序列重疊群裝配

受到現行的測序技術的限制,每次反應只能測出500 或更多一些鹼基對的序列,如在人類基因的測量過程中就採用了短槍(shortgun)方法,這就要求把大量的較短的序列全體構成了重疊群(Contigs)。逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配。這個過程從演算法層次來看,序列的重疊群是一個NP-完全問題。

4. 代謝網路分析(Metabolic network)

  代謝網路是將細胞內所有生化反應表示為一個網路,反映了所有參與代謝過程的化合物之間以及所有催化酶之間的相互作用,是對細胞代謝過程的抽象表達。由於在生命過程中代謝活動在是不斷髮生的,代謝網路隨時變化。由於大量反應的動力學引數都是未知的,使得其動力學研究受到限制,而基於網路拓撲結構的靜態分析得到了廣泛的應用。靜態的代謝網路分析主要有三類研究方法:流平衡分析;基元模式分析和極端途徑分析;圖論方法。

5. 基於結構的藥物設計

人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構、功能、相互作用以及與各種人類疾病之間的關係,尋求各種治療和預防方法,包括藥物治療。基於生物大分子結構及小分子結構的藥物設計是生物資訊學中的極為重要的研究領域。為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選藥物。這一領域目的是發現新的基因藥物,有著巨大的經濟效益。

6. 生物資訊學技術方法

生物資訊學中產生的海量資料和複雜的背景導致機器學習、統計資料分析和系統描述等方法需要在生物資訊學所面臨的背景之中迅速發展。巨大的計算量、複雜的噪聲模式、海量的時變資料給傳統的統計分析帶來了巨大的困難, 因此提出了非引數統計、聚類分析等更加靈活的資料分析技術。在高維資料的分析中引入了偏最小二乘(partial least squares,PLS)等特徵空間的壓縮技術。在計算機演算法的設計時,需要充分考慮演算法的時間和空間複雜度,使用分散式平行計算、網格計算等技術來實現高效的演算法。

三、 前景展望

生物資訊學是一門利用計算機技術研究生物系統之規律的學科。自從人類基因組計劃開展後, 大量的生物基因序列被測定, 如何從這些海量的資料中發現其生物學意義, 就需要藉助計算機資料庫和計算機演算法分析預測的手段。生物資訊學的發展在國內外基本上都處在起步階段, 所擁有的條件也大體相同。那麼誰能夠更充分更高效更快捷地利用資訊科學、控制科學、電腦科學等高技術手段來分析和理解資料, 誰就能最先發現新線索、新現象和新規律, 也是其在生物資訊學研究領域取得領先地位的先決條件。生物資訊學是一門非常有發展遠景的科學, 現代資訊科技則是它不可或缺的研究手段。