1. 程式人生 > >生物資訊(bioinformation)學名詞解釋

生物資訊(bioinformation)學名詞解釋

什麼是高通量測序?

高通量測序技術(High-throughput sequencing,HTS)是對傳統Sanger測序(稱為一代測序技術)革命性的改變, 一次對幾十萬到幾百萬條核酸分子進行序列測定, 因此在有些文獻中稱其為下一代測序技術(next generation sequencing,NGS )足見其劃時代的改變, 同時高通量測序使得對一個物種的轉錄組和基因組進行細緻全貌的分析成為可能, 所以又被稱為深度測序(Deep sequencing)。

什麼是Sanger法測序(一代測序)

Sanger法測序利用一種DNA聚合酶來延伸結合在待定序列模板上的引物。直到摻入一種鏈終止核苷酸為止。每一次序列測定由一套四個單獨的反應構成,每個反應含有所有四種脫氧核苷酸三磷酸(dNTP),並混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由於ddNTP缺乏延伸所需要的3-OH基團,使延長的寡聚核苷酸選擇性地在G、A、T或C處終止。終止點由反應中相應的雙脫氧而定。每一種dNTPs和ddNTPs的相對濃度可以調整,使反應得到一組長几百至幾千鹼基的鏈終止產物。它們具有共同的起始點,但終止在不同的的核苷酸上,可通過高解析度變性凝膠電泳分離大小不同的片段,凝膠處理後可用X-光膠片放射自顯影或非同位素標記進行檢測。

什麼是基因組重測序(Genome Re-sequencing)

全基因組重測序是對基因組序列已知的個體進行基因組測序,並在個體或群體水平上進行差異性分析的方法。隨著基因組測序成本的不斷降低,人類疾病的致病突變研究由外顯子區域擴大到全基因組範圍。通過構建不同長度的插入片段文庫和短序列、雙末端測序相結合的策略進行高通量測序,實現在全基因組水平上檢測疾病關聯的常見、低頻、甚至是罕見的突變位點,以及結構變異等,具有重大的科研和產業價值。

什麼是de novo測序

de novo測序也稱為從頭測序:其不需要任何現有的序列資料就可以對某個物種進行測序,利用生物資訊(bioinformation)學分析手段對序列進行拼接,組裝,從而獲得該物種的基因組圖譜。獲得一個物種的全基因組序列是加快對此物種瞭解的重要捷徑。隨著新一代測序技術的飛速發展,基因組測序所需的成本和時間較傳統技術都大大降低,大規模基因組測序漸入佳境,基因組學研究也迎來新的發展契機和革命性突破。利用新一代高通量、高效率測序技術以及強大的生物資訊(bioinformation)分析能力,可以高效、低成本地測定並分析所有生物的基因組序列。

什麼是外顯子測序(whole exon sequencing)

外顯子組測序是指利用序列捕獲技術將全基因組外顯子區域DNA捕捉並富集後進行高通量測序的基因組分析方法。外顯子測序相對於基因組重測序成本較低,對研究已知基因的SNP、Indel等具有較大的優勢,但無法研究基因組結構變異如染色體斷裂重組等。

什麼是mRNA測序 (RNA-seq)

轉錄組學(transcriptomics)是在基因組學後新興的一門學科,即研究特定細胞在某一功能狀態下所能轉錄出來的所有RNA(包括mRNA和非編碼RNA)的型別與拷貝數。Illumina提供的mRNA測序技術可在整個mRNA領域進行各種相關研究和新的發現。mRNA測序不對引物或探針進行設計,可自由提供關於轉錄的客觀和權威資訊。研究人員僅需要一次試驗即可快速生成完整的poly-A尾的RNA完整序列資訊,並分析基因表達、cSNP、全新的轉錄、全新異構體、剪接位點、等位基因特異性表達和罕見轉錄等最全面的轉錄組資訊。簡單的樣品製備和資料分析軟體支援在所有物種中的mRNA測序研究。

什麼是small RNA測序

Small RNA(micro RNAs、siRNAs和 pi RNAs)是生命活動重要的調控因子,在基因表達調控、生物個體發育、代謝及疾病的發生等生理過程中起著重要的作用。Illumina能夠對細胞或者組織中的全部Small RNA進行深度測序及定量分析等研究。實驗時首先將18-30 nt範圍的Small RNA從總RNA中分離出來,兩端分別加上特定接頭後體外反轉錄做成cDNA再做進一步處理後,利用測序儀對DNA片段進行單向末端直接測序。通過Illumina對Small RNA大規模測序(Large-scale sequencing)分析,可以從中獲得物種全基因組水平的miRNA圖譜,實現包括新miRNA分子的挖掘,其作用靶基因的預測和鑑定、樣品間差異表達分析、miRNAs聚類和表達譜分析等科學應用。

什麼是miRNA測序

成熟的microRNA(miRNA)是17~24nt的單鏈非編碼RNA分子,通過與mRNA相互作用影響目標mRNA的穩定性及翻譯,最終誘導基因沉默,調控著基因表達、細胞生長、發育等生物學過程。基於第二代測序技術的microRNA測序,可以一次性獲得數百萬條microRNA序列,能夠快速鑑定出不同組織、不同發育階段、不同疾病狀態下已知和未知的microRNA及其表達差異,為研究microRNA對細胞程序的作用及其生物學影響提供了有力工具。

什麼是Chip-seq

染色質免疫共沉澱技術(ChromatinImmunoprecipitation,ChIP)也稱結合位點分析法,是研究體內蛋白質與DNA相互作用的有力工具,通常用於轉錄因子結合位點或組蛋白特異性修飾位點的研究。將ChIP與第二代測序技術相結合的ChIP-Seq技術,能夠高效地在全基因組範圍內檢測與組蛋白、轉錄因子等互作的DNA區段。

ChIP-Seq的原理是:首先通過染色質免疫共沉澱技術(ChIP)特異性地富集目的蛋白結合的DNA片段,並對其進行純化與文庫構建;然後對富集得到的DNA片段進行高通量測序。研究人員通過將獲得的數百萬條序列標籤精確定位到基因組上,從而獲得全基因組範圍內與組蛋白、轉錄因子等互作的DNA區段資訊。

什麼是CHIRP-Seq

CHIRP-Seq( Chromatin Isolation by RNA Purification )是一種檢測與RNA繫結的DNA和蛋白的高通量測序方法。方法是通過設計生物素或鏈黴親和素探針,把目標RNA拉下來以後,與其共同作用的DNA染色體片段就會附在到磁珠上,最後把染色體片段做高通量測序,這樣會得到該RNA能夠結合到在基因組的哪些區域,但由於蛋白測序技術不夠成熟,無法知道與該RNA結合的蛋白。

什麼是RIP-seq

RNA Immunoprecipitation是研究細胞內RNA與蛋白結合情況的技術,是瞭解轉錄後調控網路動態過程的有力工具,能幫助我們發現miRNA的調節靶點。這種技術運用針對目標蛋白的抗體把相應的RNA-蛋白複合物沉澱下來,然後經過分離純化就可以對結合在複合物上的RNA進行測序分析。

RIP可以看成是普遍使用的染色質免疫沉澱ChIP技術的類似應用,但由於研究物件是RNA-蛋白複合物而不是DNA-蛋白複合物,RIP實驗的優化條件與ChIP實驗不太相同(如複合物不需要固定,RIP反應體系中的試劑和抗體絕對不能含有RNA酶,抗體需經RIP實驗驗證等等)。RIP技術下游結合microarray技術被稱為RIP-Chip,幫助我們更高通量地瞭解癌症(cancer)以及其它疾病整體水平的RNA變化。

什麼是CLIP-seq

CLIP-seq,又稱為HITS-CLIP,即紫外交聯免疫沉澱結合高通量測序(crosslinking-immunprecipitation and high-throughput sequencing), 是一項在全基因組水平揭示RNA分子與RNA結合蛋白相互作用的革命性技術。其主要原理是基於RNA分子與RNA結合蛋白在紫外照射下發生耦聯,以RNA結合蛋白的特異性抗體將RNA-蛋白質複合體沉澱之後,回收其中的RNA片段,經新增接頭、RT-PCR等步驟,對這些分子進行高通量測序,再經生物資訊(bioinformation)學的分析和處理、總結,挖掘出其特定規律,從而深入揭示RNA結合蛋白與RNA分子的調控作用及其對生命的意義。

什麼是metagenomic(巨集基因組)

Magenomics研究的物件是整個微生物群落。相對於傳統單個細菌研究來說,它具有眾多優勢,其中很重要的兩點:(1) 微網路常是以群落方式共生於某一小生境中,它們的很多特性是基於整個群落環境及個體間的相互影響的,因此做Metagenomics研究比做單個個體的研究更能發現其特性;(2) Metagenomics研究無需分離單個細菌,可以研究那些不能被實驗室分離培養的微生物。

巨集基因組是基因組學一個新興的科學研究方向。巨集基因組學(又稱元基因組學,環境基因組學,生態基因組學等),是研究直接從環境樣本中提取的基因組遺傳物質的學科。傳統的微生物研究依賴於實驗室培養,元基因組的興起填補了無法在傳統實驗室中培養的微生物研究的空白。過去幾年中,DNA測序技術的進步以及測序通量和分析方法的改進使得人們得以一窺這一未知的基因組科學領域。

什麼是SNP、SNV(單核苷酸位點變異)

單核苷酸多型性singlenucleotide polymorphism,SNP 或單核苷酸位點變異SNV。個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多型性。不同物種、個體基因組DNA序列同一位置上的單個核苷酸存在差別的現象。有這種差別的基因座、DNA序列等可作為基因組作圖的標誌。人基因組上平均約每1000個核苷酸即可能出現1個單核苷酸多型性的變化,其中有些單核苷酸多型性可能與疾病有關,但可能大多數與疾病無關。單核苷酸多型性是研究人類家族和動植物品系遺傳變異的重要依據。在研究癌症(cancer)基因組變異時,相對於正常組織,癌症(cancer)中特異的單核苷酸變異是一種體細胞突變(somatic mutation),稱做SNV。

什麼是INDEL (基因組小片段插入)

基因組上小片段(>50bp)的插入或缺失,形同SNP/SNV。

什麼是copy number variation (CNV):基因組拷貝數變異

基因組拷貝數變異是基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數量。例如人類正常染色體拷貝數是2,有些染色體區域拷貝數變成1或3,這樣,該區域發生拷貝數缺失或增加,位於該區域內的基因表達量也會受到影響。如果把一條染色體分成A-B-C-D四個區域,則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發生了C區域的擴增及缺失,擴增的位置可以是連續擴增如A-B-C-C-D也可以是在其他位置的擴增,如A-C-B-C-D。

什麼是structure variation (SV):基因組結構變異

染色體結構變異是指在染色體上發生了大片段的變異。主要包括染色體大片段的插入和缺失(引起CNV的變化),染色體內部的某塊區域發生翻轉顛換,兩條染色體之間發生重組(inter-chromosome trans-location)等。一般SV的展示利用Circos 軟體。

什麼是Segment duplication

一般稱為SD區域,串聯重複是由序列相近的一些DNA片段串聯組成。串聯重複在人類基因多樣性的靈長類基因中發揮重要作用。在人類染色體Y和22號染色體上,有很大的SD序列。

什麼是genotype and phenotype

既基因型與表型;一般指某些單核苷酸位點變異與表現形式間的關係。

什麼 Read Contig Unigene

高通量測序時,在晶片上的每個反應,會讀出一條序列,是比較短的,叫read,它們是原始資料;
有很多reads通過片段重疊,能夠組裝成一個更大的片段,稱為contig;
多個contigs通過片段重疊,組成一個更長的scaffold;
一個contig被組成出來之後,鑑定發現它是編碼蛋白質的基因,就叫singleton;
多個contigs組裝成scaffold之後,鑑定發現它編碼蛋白質的基因,叫unigene。

一個UniGene不一定代表一個contig,一個UniGene可有多個contig。

UniGene (Unique Gene Sequence Collection)

UniGene是以自動化的方式,對於每一個新進入到GeneBank的序列,進行序列相似性分析,如果可以找到可能是來自於同一個基因的基因組(cluster),則將次序列歸入到這一個基因組,如果找不到,則成立一個新的基因組。據估計,人類的基因約有八萬到十萬個左右,而在UniGenes中的所有人類序列中,經過上述方式加以分組之後,在1998您6月,已得到的超過四萬三千個獨特的基因組(unique gene clusters),其中大約六千餘個具有已知的基因。

什麼是soft-clipped reads

當基因組發生某一段的缺失,或轉錄組的剪接,在測序過程中,橫跨缺失位點及剪接位點的reads回帖到基因組時,一條reads被切成兩段,匹配到不同的區域,這樣的reads叫做soft-clipped reads,這些reads對於鑑定染色體結構變異及外源序列整合具有重要作用。

什麼是multi-hits reads

由於大部分測序得到的reads較短,一個reads能夠匹配到基因組多個位置,無法區分其真實來源的位置。一些工具根據統計模型,如將這類reads分配給reads較多的區域。

 

 

什麼是Scaffold

基因組de novo測序,通過reads拼接獲得Contigs後,往往還需要構建454 Paired-end庫或Illumina Mate-pair庫,以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列。基於這些序列,可以確定一些Contig之間的順序關係,這些先後順序已知的Contigs組成Scaffold。

什麼是Contig N50

Reads拼接後會獲得一些不同長度的Contigs。將所有的Contig長度相加,能獲得一個Contig總長度。然後將所有的Contigs按照從長到短進行排序,如獲得Contig 1,Contig 2,Contig 3...………Contig 25。將Contig按照這個順序依次相加,當相加的長度達到Contig總長度的一半時,最後一個加上的Contig長度即為Contig N50。舉例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig總長度*1/2時,Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結果好壞的一個判斷標準。

什麼是Scaffold N50

Scaffold N50與Contig N50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加,能獲得一個Scaffold總長度。然後將所有的Scaffolds按照從長到短進行排序,如獲得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。將Scaffold按照這個順序依次相加,當相加的長度達到Scaffold總長度的一半時,最後一個加上的Scaffold長度即為Scaffold N50。舉例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時,Scaffold 5的長度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結果好壞的一個判斷標準。

什麼是測序深度和覆蓋度

測序深度(Sequencing Depth):測序得到的鹼基總量(bp)與基因組大小(Genome)的比值,它是評價測序量的指標之一。測序深度與基因組覆蓋度之間是一個正相關的關係,測序帶來的錯誤率或假陽性結果會隨著測序深度的提升而下降。重測序的個體,如果採用的是雙末端或Mate-Pair方案,當測序深度在10~15X以上時,基因組覆蓋度和測序錯誤率控制均得以保證。

假設一個基因大小為2M,測序深度為10X,那麼獲得的總資料量為20M。覆蓋度是指測序獲得的序列佔整個基因組的比例。由於基因組中的高GC、重複序列等複雜結構的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區域,這部分沒有獲得的區域就稱為Gap。例如一個細菌基因組測序,覆蓋度是98%,那麼還有2%的序列區域是沒有通過測序獲得的。

denovo字面意思是全新,專業一點就是從頭測序。詳細點就是對未知基因組序列進行測序,利用生物資訊(bioinformation)學分析手段,對序列進行拼接、組裝,從而獲得其基因組的圖譜。

測序的覆蓋度(coverage)和測序的深度(depth)。對於coverage,由於大片段拼接的gap(空白或者缺口)、測序讀長有限、重複序列等問題的存在,測序分析後組裝得到的基因組序列通常無法完全覆蓋所有區域,覆蓋度就是最終得到的結果佔整個基因組的比例。例如一個人的基因組測序,覆蓋度為98.5%,那麼說明該基因組還有1.5%的區域通過我們的組裝和分析無法得到;對於depth,就是被測基因組上單個鹼基被測序的平均次數,比如某樣本的測序深度為30X,那麼就是說該樣本的基因組上每一個單鹼基平均被測序(或者說讀取)了30次,注意,是平均。當然了,depth也有最大和最小值,這個都可以由資訊分析得到。其實也就是為了提高準確率什麼的,一般15X就差不多了。

什麼是DeBruijn圖

Kautz和DeBruijn圖由於其在大型計算機網際網路上的應用而被人們廣泛的研究,網際網路的一個重要的引數是它的等週數.Deplormc和TiⅡich運用特徵值技術發現了Kautz和De-Bruijn圖等週數的一個上界.Buherman給出了一個構造性的方法改進了DeBruijn圖等週數的上).我們運用該構造方法得到了Kautz圖的一個新的上界.

什麼是RPKM、FPKM

RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:

每1百萬個map上的reads中map到外顯子的每1K個鹼基上的reads個數。是將map到基因的read數除以map到genome的所有read數(以million為單位)與RNA的長度(以KB為單位)。

RNA-seq是透過次世代定序的技術來偵測基因表現量的方法,在衡量基因表現量時,若是單純以map到的read數來計算基因的表現量,在統計上是一件相當不合理事,因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認為表現量較高,而錯估基因真正的表現量,所以Ali Mortazavi等人在2008年提出以RPKM在估計基因的表現量

舉例:比如對應到該基因的read有1000個,總reads個數有100萬,而該基因的外顯子總長為5kb,那麼它的RPKM為:10^9*1000(reads個數)/10^6(總reads個數)*5000(外顯子長度)=200或者:1000(reads個數)/1(百萬)*5(K)=200這個值反映基因的表達水平。

FPKM(fragments per kilobase of exon per million fragments mapped).每1百萬個map上j的reads中map到外顯子的每1K個鹼基上的reads個數。FPKM與RPKM計算方法基本一致。不同點就是FPKM計算的是fragments,而RPKM計算的是reads。Fragment比read的含義更廣,因此FPKM包含的意義也更廣,可以是pair-end的一個fragment,也可以是一個read。

什麼是轉錄本重構

用測序的資料組裝成轉錄本。有兩種組裝方式:1,de-novo構建; 2,有參考基因組重構。其中de-novo組裝是指在不依賴參考基因組的情況下,將有overlap的reads連線成一個更長的序列,經過不斷的延伸,拼成一個個的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有參考基因組重構,是指先將read貼回到基因組上,然後在基因組通過reads覆蓋度,junction位點的資訊等得到轉錄本,常用工具包括scripture、cufflinks。

什麼是genefusion

將基因組位置不同的兩個基因中的一部分或全部整合到一起,形成新的基因,稱作融合基因,或嵌合體基因。該基因有可能翻譯出融合或嵌合體蛋白。

什麼是表達譜

基因表達譜(geneexpression profile):指通過構建處於某一特定狀態下的細胞或組織的非偏性cDNA文庫,大規模cDNA測序,收集cDNA序列片段、定性、定量分析其mRNA群體組成,從而描繪該特定細胞或組織在特定狀態下的基因表達種類和豐度資訊,這樣編製成的資料表就稱為基因表達譜

什麼是功能基因組學(functional genomics)

功能基因組學(functional genomics)(Functuionalgenomics)又往往被稱為後基因組學(Postgenomics),它利用結構基因組所提供的資訊和產物,發展和應用新的實驗手段,通過在基因組或系統水平上全面分析基因的功能,使得生物學研究從對單一基因或蛋白質得研究轉向多個基因或蛋白質同時進行系統的研究。這是在基因組靜態的鹼基序列弄清楚之後轉入對基因組動態的生物學功能學研究。研究內容包括基因功能發現、基因表達分析及突變檢測。基因的功能包括:生物學功能,如作為蛋白質激酶對特異蛋白質進行磷酸化修飾;細胞學功能,如參與細胞間和細胞內訊號傳遞途徑;發育上功能,如參與形態建成等。採用的手段包括經典的減法雜交,差示篩選,cDNA代表差異分析以及mRNA差異顯示等,但這些技術不能對基因進行全面系統的分析,新的技術應運而生,包括基因表達的系統分析(serial analysis of gene expression,SAGE),cDNA微陣列(cDNA microarray),DNA 晶片(DNA chip)和序列標誌片段顯示(sequence tagged fragmentsdisplay。

什麼是比較基因組學(comparative genomics)

比較基因組學(comparative genomics)(ComparativeGenomics)是基於基因組圖譜和測序基礎上,對已知的基因和基因組結構進行比較,來了解基因的功能、表達機理和物種進化的學科。利用模式生物(model organism)基因組與人類基因組之間編碼順序上和結構上的同源性,克隆人類疾病基因,揭示基因功能和疾病分子機制(Molecular Mechanisms),闡明物種進化關係,及基因組的內在結構。

什麼是表觀遺傳學

表觀遺傳學是研究基因的核苷酸序列不發生改變的情況下,基因表達了可遺傳的變化的一門遺傳學分支學科。表觀遺傳的現象很多,已知的有DNA甲基化(DNAmethylation),基因組印記(genomicimpriting),母體效應(maternaleffects),基因沉默(genesilencing),核仁顯性,休眠轉座子啟用和RNA編輯(RNA editing)等。

什麼是計算生物學

計算生物學是指開發和應用資料分析及理論的方法、數學建模、計算機模擬技術等。當前,生物學資料量和複雜性不斷增長,每14個月基因研究產生的資料就會翻一番,單單依靠觀察和實驗已難以應付。因此,必須依靠大規模計算模擬技術,從海量資訊中提取最有用的資料。

什麼是基因組印記

基因組印記(又稱遺傳印記)是指基因根據親代的不同而有不同的表達。印記基因的存在能導致細胞中兩個等位基因的一個表達而另一個不表達。基因組印記是一正常過程,此現象在一些低等動物和植物中已發現多年。印記的基因只佔人類基因組中的少數,可能不超過5%,但在胎兒的生長和行為發育中起著至關重要的作用。基因組印記病主要表現為過度生長、生長遲緩、智力障礙、行為異常。目前在腫瘤的研究中認為印記缺失是引起腫瘤最常見的遺傳學因素之一。

什麼是基因組學

基因組學(英文genomics),研究生物基因組和如何利用基因的一門學問。用於概括涉及基因作圖、測序和整個基因組功能分析的遺傳學分支。該學科提供基因組資訊以及相關資料系統利用,試圖解決生物,醫學,和工業領域的重大問題。

什麼是DNA甲基化

CpG島,英文名稱:CpG island

定義:位於多種脊椎動物(vertebrates)已知基因轉錄起始位點周圍、由胞嘧啶(C)和鳥嘧啶(G)組成的串聯重複序列。

CpG島(CpG island):CpG雙核苷酸在人類基因組中的分佈很不均一,而在基因組的某些區段,CpG保持或高於正常概率,這些區段被稱作CpG島

DNA甲基化是指在DNA甲基化轉移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5"碳位共價鍵結合一個甲基基團。正常情況下,人類基因組“垃圾”序列的CpG二核苷酸相對稀少,並且總是處於甲基化狀態,與之相反,人類基因組中大小為100—1000 bp左右且富含CpG二核苷酸的CpG島則總是處於未甲基化狀態,並且與56%的人類基因組編碼基因相關。人類基因組序列草圖分析結果表明,人類基因組CpG島約為28890個,大部分染色體每1 Mb就有5—15個CpG島,平均值為每Mb含10.5個CpG島,CpG島的數目與基因密度有良好的對應關係[9]。由於DNA甲基化與人類發育和腫瘤疾病的密切關係,特別是CpG島甲基化所致抑癌基因轉錄失活問題,DNA甲基化已經成為表觀遺傳學和表觀基因組學的重要研究內容。

什麼是基因組註釋

基因組註釋(Genomeannotation) 是利用生物資訊(bioinformation)學方法和工具,對基因組所有基因的生物學功能進行高通量註釋,是當前功能基因組學(functional genomics)研究的一個熱點。基因組註釋的研究內容包括基因識別和基因功能註釋兩個方面。基因識別的核心是確定全基因組序列中所有基因的確切位置。

以上轉自http://www.plob.org/2012/11/21/4810.html,稍加修改。

no-redudant protein(非冗餘蛋白質)

像ncbi裡邊,因為採取的原則是100%identical的才merge到一起去,所以它的database裡邊那種nr nucleotide/protein,其實有很多都是REDUNDANT的,需要你自己manually curate.http://arep.med.harvard.edu/seqanal/db.html

E-value

EXPECT

E期望值(E-value)這個數值表示你僅僅因為隨機性造成獲得這一alignment結果的可能次數。這一數值越接近零,發生這一事件的可能性越小。從搜尋的角度看,E值越小,alignment結果越顯著。你可能會想為搜尋設定一個期望值閥值(EXPECT),例如Defaults值設為10。這一設定則表示聯配結果中將有10個匹配序列是由隨機產生,如果聯配的統計顯著性值(E值)小於該值(10),則該alignment將被檢出,換句話說,比較低的閥值將使搜尋的匹配要求更嚴格,結果報告中隨機產生的匹配序列減少。

E=kmne^(-λs)

RNA Integrity Number (RIN)

The RNA integrity number (RIN) is a software tool designed to help scientists estimate the integrity of total RNA samples

 

TRS、DRS、SSR

根據重複序列在基因組中的分佈形式可將其分為串聯重複序列(Tandem Repeats Sequence,TRS)和散佈重複序列(Dispersed Repeats Sequence,DRS)。其中,串聯重複序列是由相關的重複單位首尾相連、成串排列而成的。發現的串聯重複序列主要有兩類:一類是由功能基因組成的(如rRNA和組蛋白基因);另一類是由無功能的序列組成的。

根據重複序列的重複單位的長度,可將串聯重複序列分為衛星DNA、微衛星DNA、小衛星 DNA等。微衛星DNA又叫簡單重複序列(Simple Sequence Repeat,SSR),指的是基因組中由1-6個核苷酸組成的基本單位重複多次構成的一段DNA,廣泛分佈於基因組的不同位置,長度一般在200 bp以下。

簡單重複序(SSR)也稱微衛星DNA,其串聯重複的核心序列為1一6 bp,其中最常見是雙核苷酸重複,即(CA) n和(TG) n每個微衛星DNA的核心序列結構相同,重複單位數目10一60個,其高度多型性主要來源於串聯數目的不同。

根據SSR核心序列排列方式的不同,可分為3種類型:

完全型(perfect)。指核心序列以不間斷的重複方式首尾相連構成的DNA。如: ATATATATATATATATATATATATATATATATAT

不完全型(imperfect)。指在SSR的核心序列之間有3個以下的非重複鹼基,但兩端的連續重複核心序列重複數大於3。如:ATATATATGGATATATATATCGATATATATATATATATGGATATATATAT

複合型(compound)。指2個或2個以上的串聯核心序列由3個或3個以上的連續的非重複鹼基分隔開,但這種連續性的核心序列重複數不少於5。如:ATATATATATATATGGGATATATATATATA

3種類型中完全型是SSR標記中應用較多的一種型別。

Domain保守域

Conserved structural entities with distinctive secondary structure content and an hydrophobic core. In small disulphide-rich and Zn2+-binding or Ca2+- binding domains the hydrophobic core may be provided by cystines and metal ions, respectively. Homologous domains with common functions usually show sequence similarities.

結構域(structure domain)是在蛋白質三級結構中介於二級和三級結構之間的可以明顯區分但又相對獨立的摺疊單元,每個結構域自身形成緊實的三維結構,可以獨立存在或摺疊,但結構域與結構域之間關係較為鬆散。

結構功能域通常由25~300個氨基酸殘基組成,不同蛋白質分子中結構域的數目不同,同一個蛋白質分子中的幾個結構域彼此相似或者不盡相同。結構域是蛋白質的功能、結構和進化單位,結構功能域分析對於蛋白質結構的分類和預測有著重要的作用。

Bits scores

Alignment scores are reported by HMMer and BLAST as bits scores. The likelihood that the query sequence is a bona fide homologue of the database sequence is compared to the likelihood that the sequence was instead generated by a “random” model. Taking the logarithm (to base 2) of this likelihood ratio gives the bits score.

P-value

This represents a probability that, given a database of a particular size, random sequences score higher than a value X. P-values are generated by the BLAST algorithm that has been integrated into SMART.

E-value

This represents the number of sequences with a score greater-than, or equal to, X, expected absolutely by chance. The E-value connects the score (“X”) of an alignment between a user-supplied sequence and a database sequence, generated by any algorithm, with how many alignments with similar or greater scores that would be expected from a search of a random sequence database of equivalent size. Since version 2.0 E-values are calculated using Hidden Markov Models, leading to more accurate estimates than before.

Motif模體

Sequence motifs are short conserved regions of polypeptides. Sets of sequence motifs need not necessarily represent homologues.

motif又稱模體,是序列中區域性的保守區域,或者是一組序列中共有的一小段序列模式。一般指構成任何一種特徵序列的基本結構,但是多數情況下是指可能具有分子功能、結構性質或家族成員相關的任何序列模式。

motif作為結構域中的亞單位,表現結構域的各種生物學功能。常見的蛋白質結構motif,種類超過28類。常見的motif搜尋方法主要基於兩種,一種是序列模式(Pattern),另外一種是序列特徵譜(Profile)。

Pattern

序列模式方法直接搜尋關鍵的幾個保守殘基,忽略其他位置的氨基酸多型性。例如,“L-x(6)-L-x(6)-L-x(6)-L”(x表示任意氨基酸)為亮氨酸拉鍊結構的序列模式,這樣一段序列多處於蛋白質的活性區域或重要結構區,較為保守,是motif搜尋的目標之一。由於序列模式方法搜尋的不是完整的結構域或整個蛋白的特徵,故其適用於識別保守的功能區域,對於序列變異大的功能區域,則無法準確識別。此外,隨機的氨基酸序列也可能出現短小的序列模式,故易產生假陽性,對於此類搜尋需要搜尋多個不同的資料庫,得到儘可能多得同源序列,從而才能更好的說明序列中包含的資訊。

Profile

A profile is a table of position-specific scores and gap penalties, representing an homologous family, that may be used to search sequence databases (Ref.:[1],[2],[3]).
In CLUSTAL-W-derived profiles those sequences that are more distantly related are assigned higher weights ([4],[5],[6]). Issues in profile-based database searching are discussed in Bork & Gibson (1996)[7].

序列特徵譜搜尋是基於蛋白質序列多重比對結果中的保守序列區域進行搜尋,由於考慮了不同保守度的氨基酸在相應位置的權重,可以更為敏感的檢測到進化距離較遠的蛋白質相關性,得到比序列模式方法更為靈敏的結果,但可靠的序列特徵譜數目往往有限,因此該方法在進行新基因功能預測時受到了較大的障礙。

Alignment 多重比對,序列比較

Representation of a prediction of the amino acids in tertiary structures of homologues that overlay in three dimensions.