1. 程式人生 > >GO富集分析

GO富集分析

  GO的主要用途之一是對基因組進行富集分析。例如,給定一組在特定條件下上調的基因,富集分析將使用該基因組的註釋發現哪些GO術語被過度表示(或未充分表示)。

  富集分析工具             

     使用者可以直接從GOC網站的主頁進行濃縮分析。此服務連線到PANTHER分類系統的分析工具,該分類系統使用GO註釋進行最新維護。PANTHER分類系統在Mi H等人,PMID:23868073中有詳細說明。支援基因ID的列表可以從PANTHER網站獲得。             

   使用GO富集分析工具            

   1.貼上或鍵入要分析的基因的名稱,每行一個或用逗號分隔。該工具可以處理MOD特異性基因名稱和UniProt ID(例如,Rad54或P38086)。             

   2.選擇GO方面(分子功能,生物過程,細胞成分)進行分析(生物過程是預設的)。             

   3.選擇你的基因來自的物種(預設為智人)。             

   4.按提交按鈕。注意,在後面的步驟中,您將能夠上傳REFERENCE(又稱“背景”)列表。             

   5.您將被重定向到PANTHER網站上的結果。這些結果是根據你在步驟3中選擇的基因組中所有蛋白質編碼基因的集合的富集度得出的。             

  6.(可選但強烈推薦)新增自定義引用列表並重新執行分析。在結果頁面頂部的PANTHER分析摘要的“引用列表”行上按“更改”按鈕,上傳引用列表檔案,然後按“啟動分析”按鈕重新執行分析。參考列表應該是選擇較小分析列表的所有基因的列表。例如,在差異表達基因的列表中,參考列表應該只包含在實驗中完全

  解釋結果表
  結果頁面顯示一個表,該表列出了重要的共享GO術語(或GO術語的父母),用於描述使用者在前一頁上輸入的一組基因、背景頻率、樣本頻率、預期p值、每個術語過度/低表示的指示以及p值。此外,結果頁面顯示分析中使用的所有條件。任何未解決的基因名稱都將列在表格的頂部。
  背景頻率和取樣頻率
  背景頻率是在整個背景集中註釋到GO術語的基因數量,而樣本頻率是在輸入列表中註釋到GO術語的基因數量。例如,如果輸入列表包含10個基因,並且富集了背景集包含6442個基因的釀酒酵母的生物過程,那麼如果10個輸入基因中有5個被註釋為GO術語:DNA修復,那麼DNA修復的樣本頻率將是5/10。然而,如果在所有的釀酒酵母基因組中有100個基因被註釋為DNA修復,那麼背景頻率將是100/6442。
  被高估或被低估
符號+和-表示一個術語的過度或低度表示。
  P值
  P值是指在註釋到特定GO術語的列表中的總n個基因中,考慮到註釋到該GO術語的基因在整個基因組中的比例,至少看到x個基因的概率或機會。也就是說,將使用者列表中的基因共享的GO術語與註釋的背景分佈進行比較。p值越接近零,與基因組相關聯的特定GO術語就越顯著(即,觀察到的特定GO術語對一組基因的註釋偶然發生的可能性越小)。
  換言之,當搜尋過程本體時,如果一個組中的所有基因都與“DNA修復”相關,這個術語將是有意義的。然而,由於基因組中的所有基因(帶有GO註釋)都間接地與頂級術語“bio._process”相關聯,所以如果一個組中的所有基因都與這個非常高水平的術語相關聯,那麼這並不顯著。

 

  外部工具             

   有許多不同的工具可以提供豐富功能。其中一些是基於網路的,另一些可能需要使用者下載應用程式或安裝本地環境。工具使用的演算法不同,執行的統計測試也不同。           

        濃縮工具的一些其他示例包括:

  富集分析小軟體---BiNGO。它是Cytoscape軟體中很出色的一個外掛。它提供的結果中除了文字格式的富集分析結果外,還會將結果以網路圖的形式展現,非常美觀。

  

  4.1 GO富集分析的結果為“.bgo”結尾的檔案,可在設定的輸出結果資料夾內用txt開啟檢視。

 

  x:所分析的基因富集到該GO term中的數量;

  n:基因組中富集到該GO term中的數量;

  X:所分析基因的總數

  N:基因組中基因的總數

  4.2 GO富集分析的層級網路圖。每一個圈代表了一個GOterm;顏色是根據富集度即”corrp-value”進行著色的,顏色越深表示富集度越顯著;箭頭的方向則表示層級關係。