GO富集分析
GO的主要用途之一是對基因組進行富集分析。例如,給定一組在特定條件下上調的基因,富集分析將使用該基因組的註釋發現哪些GO術語被過度表示(或未充分表示)。
富集分析工具
使用者可以直接從GOC網站的主頁進行濃縮分析。此服務連線到PANTHER分類系統的分析工具,該分類系統使用GO註釋進行最新維護。PANTHER分類系統在Mi H等人,PMID:23868073中有詳細說明。支援基因ID的列表可以從PANTHER網站獲得。
使用GO富集分析工具
1.貼上或鍵入要分析的基因的名稱,每行一個或用逗號分隔。該工具可以處理MOD特異性基因名稱和UniProt ID(例如,Rad54或P38086)。
2.選擇GO方面(分子功能,生物過程,細胞成分)進行分析(生物過程是預設的)。
3.選擇你的基因來自的物種(預設為智人)。
4.按提交按鈕。注意,在後面的步驟中,您將能夠上傳REFERENCE(又稱“背景”)列表。
5.您將被重定向到PANTHER網站上的結果。這些結果是根據你在步驟3中選擇的基因組中所有蛋白質編碼基因的集合的富集度得出的。
6.(可選但強烈推薦)新增自定義引用列表並重新執行分析。在結果頁面頂部的PANTHER分析摘要的“引用列表”行上按“更改”按鈕,上傳引用列表檔案,然後按“啟動分析”按鈕重新執行分析。參考列表應該是選擇較小分析列表的所有基因的列表。例如,在差異表達基因的列表中,參考列表應該只包含在實驗中完全
解釋結果表
結果頁面顯示一個表,該表列出了重要的共享GO術語(或GO術語的父母),用於描述使用者在前一頁上輸入的一組基因、背景頻率、樣本頻率、預期p值、每個術語過度/低表示的指示以及p值。此外,結果頁面顯示分析中使用的所有條件。任何未解決的基因名稱都將列在表格的頂部。
背景頻率和取樣頻率
背景頻率是在整個背景集中註釋到GO術語的基因數量,而樣本頻率是在輸入列表中註釋到GO術語的基因數量。例如,如果輸入列表包含10個基因,並且富集了背景集包含6442個基因的釀酒酵母的生物過程,那麼如果10個輸入基因中有5個被註釋為GO術語:DNA修復,那麼DNA修復的樣本頻率將是5/10。然而,如果在所有的釀酒酵母基因組中有100個基因被註釋為DNA修復,那麼背景頻率將是100/6442。
被高估或被低估
符號+和-表示一個術語的過度或低度表示。
P值
P值是指在註釋到特定GO術語的列表中的總n個基因中,考慮到註釋到該GO術語的基因在整個基因組中的比例,至少看到x個基因的概率或機會。也就是說,將使用者列表中的基因共享的GO術語與註釋的背景分佈進行比較。p值越接近零,與基因組相關聯的特定GO術語就越顯著(即,觀察到的特定GO術語對一組基因的註釋偶然發生的可能性越小)。
換言之,當搜尋過程本體時,如果一個組中的所有基因都與“DNA修復”相關,這個術語將是有意義的。然而,由於基因組中的所有基因(帶有GO註釋)都間接地與頂級術語“bio._process”相關聯,所以如果一個組中的所有基因都與這個非常高水平的術語相關聯,那麼這並不顯著。
外部工具
有許多不同的工具可以提供豐富功能。其中一些是基於網路的,另一些可能需要使用者下載應用程式或安裝本地環境。工具使用的演算法不同,執行的統計測試也不同。
濃縮工具的一些其他示例包括:
富集分析小軟體---BiNGO。它是Cytoscape軟體中很出色的一個外掛。它提供的結果中除了文字格式的富集分析結果外,還會將結果以網路圖的形式展現,非常美觀。
4.1 GO富集分析的結果為“.bgo”結尾的檔案,可在設定的輸出結果資料夾內用txt開啟檢視。
x:所分析的基因富集到該GO term中的數量;
n:基因組中富集到該GO term中的數量;
X:所分析基因的總數
N:基因組中基因的總數
4.2 GO富集分析的層級網路圖。每一個圈代表了一個GOterm;顏色是根據富集度即”corrp-value”進行著色的,顏色越深表示富集度越顯著;箭頭的方向則表示層級關係。