1. 程式人生 > >Nature綜述|整合組學分析護航健康,推動精準醫學時代的到來!

Nature綜述|整合組學分析護航健康,推動精準醫學時代的到來!

表1: 整合組學的資料型別

CPTAC, Clinical Proteomic TumourAnalysis Consortium; EDRN, Early Detection Research Network; ENCODE,Encyclopedia of DNA Elements; GEUVADIS, Genetic European Variation in Healthand Disease; gnomAD, Genome Aggregation Database; GTEx, Genotype–TissueExpression; GWAS, genome-wide association study.

理想情況下,不同的組學技術可以結合起來,用以輔助疾病診斷並全面瞭解人類的表型和疾病。然而多組學資料的分析引入了新的資訊和解讀上的挑戰。尤其需要新穎的分析和統計方法來將不同型別的資料集整合和質量控制指標的標準化。此外該領域必須重視分子事件的解讀、基礎發現的可操作性以及是否可以用於指導治療和臨床護理。

下面將介紹整合組學如何通過幫助健康管理及疾病的診斷治療來影響醫學。我們討論了罕見的孟德爾遺傳病如肌營養不良症和更為常見的疾病如自閉症和阿爾茨海默病的臨床前和臨床應用。此外,我們還研究了多層次組學技術在癌症診斷和治療中的應用。我們始終都在討論綜合多個數據集的優勢,例如多種技術優勢互補,有助於深入瞭解疾病的機制。此外,還討論了目前的技術方法和將多個來源的資料進行最優組合和解讀的挑戰,以及將其成功應用於闡明人類疾病機制的一些令人鼓舞的例子。

1. Dissecting Mendelian disease

解析孟德爾遺傳病

在北美,大約10%的住院兒童和20%的嬰兒的死亡可歸因於孟德爾遺傳病。多數情況下,臨床醫生和病人家屬會藉助外顯子組及基因組測序技術找到孟德爾遺傳病的相關致病突變。但是由於疾病型別和實驗設計等因素,這一新技術在靶向測序未能找到致病機理的病例中只有25-50%獲得了成功。對於主要由隱性變異導致的疾病,只有當此致病變異已被收錄在疾病變異資料庫(如Clinvar)中或者在一個已知疾病基因上發生了蛋白質截斷變異(如提前終止,移碼或關鍵剪接位點變異)時,這種檢測技術才最為有效。然而,有時變異的影響可能比較微弱(例如可誘發新的隱性剪接位點的內含子變異),或由於體細胞嵌合導致突變難以被檢測到,或多個候選變異都可能是驅動變異,這些都會使導致疾病發生的真正變異變得難以被檢測到。此外,不瞭解遺傳病因或對候選變異基因研究較少時,這種診斷會格外複雜。綜合其它資訊如RNA測序(RNA-seq)或網路分析,有利於檢測可能的驅動變異中更重要的分子事件,或提供更多的證據來表明某個候選突變是導致疾病發生的原因。例如在對非典型範可尼貧血症的患者進行多組學分析時,DNA測序和基因組雜交微陣列晶片(aCGH)在識別最終被鑑定為驅動突變的位點是有效的,而RNA-seq可為一些最初不認為有致病性的變異提供致病證據,包括影響剪接模式的內含子變異和同義突變,以及導致轉錄本被削弱表達的非編碼外顯子及其上游區域的缺失。

最近,對大約50名患者的兩項系統性研究均使用了RNA-seq和其它技術(圖1),使得診斷率提高了約10%到35%。其中一項研究表明,全外顯子組測序(whole-exome sequencing, WES)並沒有為被診斷為肌營養不良症的(muscular dystrophy, MD)患者找到驅動變異,但RNA-seq資料卻鑑定出導致剪接異常的隱性剪接突變事件。特別的,即使對這些患者進行了全基因組測序(WGS)鑑定出這些變異,但由於它們多位於內含子區域或被預測為不會影響剪接,也可能不會被視為可誘發疾病的變異。由於測序成本快速降低以及可獲得的資訊量增加,RNA-seq可能會成為在臨床實踐中鑑定疾病病理與生理學的有力工具。同樣地,隨著蛋白質組學技術的成本越來越低和更容易獲取,使其可用於鑑定諸如通過影響蛋白質穩定性或翻譯後修飾的錯義突變而引起的蛋白水平變化。蛋白質組學研究概述

圖1 鑑定可用於診斷罕見病的驅動變異。在Kremer和Cummings等人的工作中,採用了多組學方法助力於診斷尚未診斷的疾病。儘管現在外顯子組和基因組測序能夠在20%至50%的案例中有效地識別驅動變異(取決於不同的遺傳和表型),但單一組學技術並不能診斷大多數的病例。(a,b)用來自患者組織的RNA-seq資料可以進行分子診斷,鑑定出異常表達、剪下或者是具有等位基因特異性表達的基因,從而幫助揭示疾病進展的分子機制。(c)在某些情況下,功能驗證如蛋白質組可以更進一步助力疾病診斷。(生物AI插圖素材獲取和拼裝指導高顏值可定製線上繪圖工具-第三版

2. Genetic architecture of common disease

常見疾病的遺傳結構

很多常見病比如糖尿病、肥胖症、精神分裂症和自閉症等發病機制複雜,是多種遺傳和環境因素共同作用的結果。目前已發現數千個基因組位點與人類疾病密切相關。然而一旦確立了這種相關性,難點則是在特定疾病的分子生理病理背景下研究該基因的特徵以及與其影響的基因和通路。為此更多多組學資料集的分析方法被開發出來,其中包括網路分析和富集分析。GO、GSEA富集分析一網打進

2.1 Network analyses

網路分析

多種正交型別資料的整合可用於縮小疾病相關基因的搜尋範圍並鑑定致病機制。特別是一些網路模型,包括蛋白質-蛋白質相互作用生信寶典之傻瓜式(四)蛋白蛋白互作網路線上搜尋、調控和共表達網路,已被證明是鑑定疾病基因和通路的寶貴資源。這些網路可以與任何全基因組範圍的資料集(包括單核苷酸多型性(SNP)或基因表達資料)相結合,用於考察在某項研究中與疾病顯著相關基因網路的拓撲學性質,這對那些在全基因組統計分析不顯著的基因更為適用 (因為可以考慮其加性效應,GSEA富集分析 - 介面操作)。對於遺傳變異資料,挑戰在於將SNP位點對映到受影響的基因:在某些情況下這種變異的作用比較明確,比如克羅恩氏病的免疫應答相關基因NOD2的移碼突變,但更多的情況是變異影響的基因並不明確。此外,多個SNPs可以組團增強調控能力,這時就需要考慮連鎖不平衡模式的影響。

儘管存在這些挑戰,網路法已經成功地幫助理解了一些人類疾病。例如,在自閉症類群(ASD)患者中具有新的錯義或無義突變的基因,往往富集於蛋白-蛋白相互作用網路中與其它基因(為了速成生物學,一位程式設計師探索了"爆款"基因背後的祕密)尤其是先前認為參與ASD的基因有高度連結的基因中。這種方式提供了一種在候選疾病基因中進行優選的機制,要麼是表示這些基因由於是網路的中樞基因而具有更重要的影響,或因為與已知的疾病基因有關而被推定為疾病相關基因。生信寶典之傻瓜式 (四) 蛋白蛋白互作網路線上搜尋

此外,我們實驗室最近的兩項工作將基因組學、RNA-seq和蛋白質組學資料整合在一起,鑑定出與自閉症有關的新基因和複合物,並對其功能特點進行了描述。特別是對蛋白-蛋白相互作用網路的分析揭示了一個模組(或稱為互作基因群),此模組富集了已知的參與自閉症的基因,以及在自閉症病例中攜帶拷貝數突變和罕見突變的基因。該模組富集了參與突觸傳導的基因,並且RNA-seq資料顯示其中一個子模組中的許多基因在ASD患者的胼胝體具有差異表達(DESeq2差異基因分析和批次效應移除),這為許多ASD患者相比於正常人有更小胼胝體的現象提供了一個假定的分子解釋。同樣,通過將自閉症患者的罕見變異比對到蛋白質複合體上揭示了參與自閉症的新蛋白質和複合體,包括組蛋白去乙醯化酶(HDAC)、染色質重塑複合體和其它蛋白質複合體。因此,全基因組測序資料和全外顯子測序資料與蛋白質互作資料的整合可以為重要疾病(如包括自閉症、II型糖尿病和心臟病)提供新的機制解釋。來一場蛋白和小分子的風花雪月

2.2 Enrichment analyses

富集分析

為了理解從DNA到生理機能的遺傳資訊流整體的調控機制,最近已經進行了許多大規模的富集分析。蛋白質的編碼變異是許多生物性狀的基礎,比如來自GWAS的許多與性狀相關的基因位點富集了蛋白質序列的中斷變異(非同義變異)。然而只有一小部分的疾病屬於這一類,因此將非編碼調控註釋資訊與疾病相關的其它資料整合起來,對於鑑定疾病基因和查明病因非常有價值。特別是,用於測量基因表達(RNA-seq,轉錄組分析工具哪家強?)以及用於測量基因表達調控區活性的方法(如用於檢測轉錄因子結合位點的染色質免疫沉澱測序(ChIP-seq)或用於檢測染色質開放區域的DNA酶高敏感位點測序(DNase-seq)),在鑑定基因組調控的組織特異性研究上具有重要價值。因此,如果疾病相關變異富集在表達數量性狀基因位點(eQTL)以及轉錄因子結合位點,那麼許多疾病的病因可能是對應的調控機制異常。最近一項對108個精神分裂症相關位點的研究證實,其中20個位點的基因表達有變化,這可以至少部分解釋他們之間的部分關聯。ChIP-seq基本分析流程

最近使用GWAS總結統計和功能註釋資料的分割槽遺傳法(partitioning heritability methods),闡明瞭編碼區和調控區變異的相對貢獻,結果表明許多常見性狀的大部分遺傳特徵來源自於調控區的變異(DNA酶超敏感的開放染色質區域),以及許多細胞型別特異的增強子區域 (從Richard Young教授的系列研究看超級增強子發現背後的故事 (附超級增強子鑑定程式碼))。

此外,這種富集資訊可用於辨別驅動變異以及通過增加對每種性狀特異性註釋的權重來鑑定與疾病和性狀有關的新基因。在撰寫本文時,這些方法尚未進入臨床實踐,但在揭示許多常見疾病的病因方面具有非常重要的價值。

3 Narrowing causal mechanisms in common disease

聚焦常見疾病的驅動機制

如前所述,GWAS已成功識別出與疾病在統計學上有相關性的基因位點,但卻很少發現驅動變異。整合多種資料型別如功能註釋資料,也可以加深對特定疾病相關變異潛在功能的理解。

3.1 Indirect integration across individuals

個體間的間接整合

目前,確定與某一性狀相關的驅動變異的低成本方法是使用多個獨立的資料集,從一組具有生物學證據的候選位點中確定疾病形成的機制。此過程可以從GWAS開始,然後對一組基因組範圍的統計顯著相關位點做後續的功能驗證,具體的實驗可能取決於所鑑定的基因位點的型別或疾病的遺傳結構。對於編碼變異,後續確定變異對蛋白質結構或功能影響的實驗可以很好地解釋疾病的起因。對於非編碼區的變異,結果通常更難以解讀,但最近的大規模表觀遺傳學研究如DNA元件百科全書計劃(ENCODE)和表觀基因組路線圖專案(Roadmap Epigenomics projects),可以提示可能的調節機制以及後續實驗需要關注的轉錄因子。例如,對系統性紅斑狼瘡(SLE)相關變異的詳細研究表明,變異不僅影響核轉錄因子-κB(NF-κB)的結合,並且與腫瘤壞死因子-α誘導蛋白3(TNFAIP3)在mRNA和蛋白質水平上均相關。

Manolis Kellis和其同事最近兩項綜合多種資料型別的研究,極大地加深了對阿爾茨海默病和肥胖症分子病理學的理解。首先,該研究組結合基因表達和表觀組學資料,發現在阿爾茨海默病小鼠模型中上調的基因具有免疫細胞增強子的特徵。重要的是,雖然免疫系統基因與阿爾茨海默病之間的聯絡早已確立,但在此情形下多組學資料型別被證實可用於建立一個效應(所施加)的方向,即阿爾茨海默病人免疫系統基因的表達和調節活性均有協調性地增加。同樣地,整合表觀基因組和染色體構象資料,以及攜帶FTO肥胖等位基因的患者的基因表達資訊和許多其它資料型別,為風險等位基因的機制提供瞭解釋(圖2)。使用CRISPR-Cas9(CRISPR-CAS9發展歷程小記)對風險等位基因進行基因組編輯可以修復其異常表達和熱量生成,這提供了一種對於肥胖症的潛在治療方式。

圖2 從全基因組關聯研究到機制解釋。在最近的一項研究中,Claussnitzer和其同事提出了鑑定FTO基因中的一個與肥胖相關變異位點的疾病驅動機制的綜合方法。(熱圖、箱線圖線上繪製教師節獻禮 - 文章用圖的修改和排版

圖a展示了肥胖相關生物機制的整體研究策略,並對每一步進行了順序編號。最開始的全基因組關聯研究(GWAS)中曼哈頓圖展示了FTO基因區與肥胖顯著相關(圖b)。首先,研究人員確定了相關的組織或細胞型別(步驟1)以及下游靶基因。這主要通過調控組學包括染色質狀態資訊和染色體構象捕獲(Hi-C)資料來分析實現的。同時他們確立了該變異為發育基因IRX3和IRX5(步驟2)的表達數量性狀基因位點(eQTL)。這是因為在有風險突變的個體中這些基因的表達增加而相鄰其它基因的表達則沒有改變(圖C)。進一步發現IRX3和IRX5的表達與參與線粒體功能的基因表達負相關,與參與脂肪細胞大小調控的基因表達正相關(圖d)。然後使用CRISPR-Cas9編輯實驗揭示核苷酸驅動變異在ARID5B的富含AT的結合基序中(步驟3,4),並驗證了其其分子效應,包括表達特徵的改變和調節能量平衡的表型效應對(步驟5)。最後,使用小鼠模型在生物體水平上確立了驅動變異(步驟6)。AKTIP, AKT interacting protein; CEU, Utah residents (CEPH) with northern and western European ancestry; CHD9, chromodomain helicase DNA binding protein 9; CRNDE, colorectal neoplasia differentially expressed; FXR, farnesoid X-activated receptor; LD, linkage disequilibrium; PGC1α, peroxisome proliferatoractivated receptor-γco-activator 1-α; PRDM16, PR domain zinc-finger protein 16; RBL2, RB transcriptional co-repressor like 2; RXR, retinoid X receptor; SNPs, single-nucleotide polymorphisms; TF, transcription factor; TSS, transcription start site; UCP1, mitochondrial brown fat uncoupling protein 1.

3.2 Direct integration within an individual

個體內的直接整合

多組學技術資料的整合可以在生物調控的多個層次之間建立聯絡。繪製單個個體的多組學特徵圖譜將會是全面揭示導致特定生理表型的分子機制的有力工具。然而這些方法需要對同一個體實施多次干預及技術處理,所以比較昂貴,限制了其應用於大量樣本。我們實驗室第一次進行了這個實驗,隨訪了一個人7年多,而另一個類似的研究隨訪了另一個人1年。在Chen等的文章中,基因組分析預測到升高的II型糖尿病風險,隨後通過詳盡的組學分析,包括轉錄組學、蛋白質組學、代謝組學和其它測量技術等進行了深入驗證。特殊地,在呼吸道合胞病毒感染期間,RNA-seq和液相色譜-串聯質譜(LC-MS/MS)的蛋白質組學發現參與胰島素訊號傳遞和響應的基因下調,同時血糖濃度上升至糖尿病患者的水平。多組學技術的優勢在於可以在共不變的遺傳和個體背景下追蹤分子機制的聯絡,因為可以跟蹤分子事件的連續進展,如GWAS鑑定的疾病相關基因的差異表達導致了RNA和蛋白質水平及其相應代謝物的差異。

然而,由於組學分析實驗有很高的多重假設檢驗負擔(如基因組中所有的基因或成千上萬的代謝物),更大的樣本量將有助於確定這種相關性的普遍性。最近一項研究監測了23個個體的不同組學特徵,確定了體重增加時的炎症特徵,並發現某些代謝途徑在體重減輕後沒有恢復到正常水平。該分析強調了個體縱向組學特徵的相似性,以及在穩態和實驗干擾下的個體特異性特徵。為了進一步明確這些差異,將這些分析擴充套件到數千個個體的研究已在早產、炎症性腸病和II型糖尿病中展開。同樣地,最近兩個獨立的研究組分別對遺傳和代謝組學資料進行了分析:其中一個計算了100多個個體的多基因風險評分,並與代謝產物的測量值相關聯;另一個則是在健康志願者中鑑定了與個體代謝產物和代謝通路異常相關的罕見有害變異。此外,隨著健康個體的組學參考資料庫的建立(比如已經可用的有:外顯子組資料、基因組資料(如Genome Aggregation Database (gnom AD)和RNA-seq資料),在這些對照組背景下解讀個體水平的資料將變得更加容易。

其它工作包括弗雷明漢心臟研究(Framingham Heart Study)和基因組表徵研究,如基因型-組織表達(GTEx)專案,以及被提議的enhanced GTEx(eGTEx)專案中擴充套件到基因表達之外的分析 (癌症組織特異性基因怎麼找?這是個不錯的開始)。這些專案採用了廣度優先的組學分析策略,其中大量的個體是通過一組數量有限的只測定一組分子標記(例如全基因組DNA甲基化分析)的技術來繪製圖譜。

4. Cancer

癌症

多組學分析已經並將繼續產生巨大影響的領域是對於癌症圖譜分析、診斷和治療的領域。實際上,許多之前討論的策略(如網路法)在識別癌症的遺傳機制上將會是有效的。然而,癌症中不同突變型別 (conceptual differences in cancers)使分析變得複雜化並需要特殊處理。除了識別體細胞變異的技術挑戰外,癌症病例中大多數明顯的遺傳改變是良性的,並不會促進癌細胞生長。因此,確定哪個突變是驅動突變或哪種通路參與其中仍是一個嚴峻挑戰。此外,儘管一些癌症在個體間具有相同的遺傳特徵,但驅動突變的種類仍然高度多樣化,這可能會導致預後和治療的差異。腫瘤化療無效是對預先存在的突變的選擇還是誘發新突變,Cell給你答案

4.1 Identifying driver mutations

鑑定驅動突變

一個典型的識別驅動突變的過程包含對多個腫瘤進行全基因組測序(WGS)來識別共有的突變基因。新增功能資料有助於對這些基因的驅動基因的可能性進行排序,因為驅動突變更可能出現在特定癌症表達的基因中。例如,在使用全外顯子測序(WES)結合拷貝數變異(CNV)微陣列資料鑑定驅動突變的分析中,RNA-seq資料支援融合基因EGFR-SEPT14的表達,後續功能驗證表明該突變確實可影響神經膠質瘤的生長。在另一項使用類似技術的不同分析中,個體內多個轉移灶的驅動突變和演化程序在轉移灶之間基本相似,表明單個轉移灶足以進行下游分析。通過這種方式,使用額外多組學資料與遺傳資料共同分析,提供了一種機制來過濾大量的遺傳變異,最終獲得與功能相關的驅動變異。

4.2 Molecular signatures of cancer

癌症的分子標記

除了識別驅動突變之外,多組學資料還可以揭示在癌症中活躍的生化途徑並將其分類為各種亞型。因此,這是確定患者體內靶向哪種通路的一個有用工具,即使在這些通路中未檢測到強候選突變(如難以表徵的非編碼突變或間接效應)。例如,轉錄組學和DNA甲基化模式分析已被用於識別與預後相關的癌症亞型。最近,臨床蛋白質組學腫瘤分析聯盟(CPTAC)的三項研究使用基於蛋白質表達特徵的蛋白質組學方法鑑定了結腸直腸癌、卵巢癌和乳腺癌的亞型。重要的是,蛋白質組學資料顯示出與轉錄組和遺傳資料重疊但不完全相同的相關性,表明不同的資料型別揭示不同的資訊。這些研究展示了的不同遺傳和轉錄過程通過蛋白質組學變化發揮作用。最後,影像學資訊與多組學資訊的整合有望在癌症診斷和預後中發揮重要作用。

最近,調節基因表達的非編碼區域的研究對於理解癌症的調控模式變得越來越有價值。將調控資訊的資料集與來自癌症基因組圖譜(TCGA,UCSC XENA - 集大成者(TCGA, ICGC)TCGA資料庫線上使用)的WGS資料整合的一項研究,揭示了一些調控區域富含癌症患者的攜帶突變。在此情況下,這些非編碼區域中哪些突變是驅動變異仍然難以確定,表明還需要相關研究繼續對這些變異做進一步篩選;儘管如此,具有相同癌症的個體之間共有的網路拓撲結構可以指示癌症亞型,這些亞型可能有不同的預後和治療策略。最後,鑑於癌症生長對代謝變化的強烈依賴性,代謝組學很可能在未來的癌症診斷或預後中發揮重要作用。代謝與腫瘤,超強綜述

5. Challenges

挑戰

到目前為止,大多數整合模型已在科研領域被報道和發表。從首次成功診斷到多機構和國際採納,臨床基因組學的應用在過去幾年中迅速擴大。同樣,隨著縱向多組學分析,最近有了第一個研究例項,在以後也會類似地成為一種臨床工具。

然而,對於臨床採用的任何技術,在檢測和解讀中都需要高特異性和靈敏度。目前,除了在特殊情況下使用WES或WGS,這些技術在臨床實踐中並不經常使用,因為對許多疾病來說它們並未被證明優於當前的檢測。未來,必須建立臨床指南以確保準確性和有效性,並且必須進行測試以展現其非劣效性和成本優勢。

儘管存在以上挑戰,組學分析仍是檢測大規模變化或通路水平變化的有效方法,比進行數千個獨立測試更便宜且通常更全面,並且縱向分析可以顯示患者特異的趨勢,並可通過重複測量增加統計支援。雖然建立臨床指南仍面臨挑戰,但隨著我們對生物的理解和參考資料庫的成熟,解釋遺傳變異(尤其是罕見或新變異)的許多概念可應用於常見分子事件如差異表達基因、新蛋白磷酸化或獨特代謝組標記。

5.1 Analytical challenges

分析挑戰

在臨床實踐中廣泛採用綜合組學,必須解決各種分析挑戰,尤其是用於資料的聚合、可擴充套件性和整合到電子健康記錄(EHR)的統計方法。最重要的是,由於每個資料集都有自己的方差和偏差,因此需要一個穩定且可重複的統計框架來正確分析多個統計上不相干的資料集。多組學資料可以在多個階段或多維度巨集方式 (meta-dimensional)進行分析。簡單地說,從這些資料中得出推論的一個方法就是對資料集進行成對分析,增加證據來支援某個結論。然而,同時分析三個或更多個數據集需要更復雜的多維方法,如貝葉斯模型 (貝葉斯學習記錄)、神經網路或降維一文看懂PCA分析還在用PCA降維?快學學大牛最愛的t-SNE演算法吧(附Python/R程式碼)。多組學資料型別本質上的不同使得問題進一步複雜化:例如遺傳變異資料是離散和靜態的,而RNA-seq資料是連續的並且可以提供縱向資訊 (WGCNA分析,簡單全面的最新教程)。

儘管上述資料分析方法對於理解生物學和疾病是有效的,但它們可能不一定適用於臨床上個體水平的資料分析。在基因組學領域,通過個體的基因型和GWAS資料庫,可以計算多基因風險值來評估個體的患病風險。構建這樣的多組學分析框架仍然面臨一個主要障礙,即可能會面臨一些比如難以將一個群體的結果應用於另一個群體的個體中類似的挑戰。

除了分析方法的挑戰之外,這些分析和所有相關資料的儲存還需要巨大的計算資源:儘管個人的多組學資料量是可控的(例如,太位元組數量級(1TB, 10^12 bytes))。但是這些資料需要放入更大的背景集中以理解與背景分佈的偏差,這需要來自數千個樣本(艾位元組數量級(1EB , 10^18 bytes))的資料。幸運的是,雲端計算慢慢可以緩解這些問題,根據每個醫院或醫療保健服務系統的特定需求提供彈性的計算和儲存裝置,同時提高計算過程的可重複性。可重複性程式設計bookdownPython文學化程式設計 - Jupyter notebook使用和外掛拓展

目前,這種綜合資料集通常沒有可用於研究的標準格式,更不用說用於結構化的臨床系統;因此,需要建立基礎設施結構來管理這些資料,而這會帶來財務和行政負擔。特別是,衛生資訊學家的任務是建立一個在電子健康記錄(HER)中儲存遺傳和轉錄組學資料的強大基礎設施。此外,需要臨床醫生和研究人員的共同努力來決定將哪些資訊報告給患者並納入EHR。

5.2 Accuracy and validation

準確性和驗證

個體水平上,全基因組資料集存在固有錯誤率,結構變異也仍然難以檢測和識別(因此也很少被提及)。更連續和縱向的資料如mRNA表達和蛋白質組資料,根據所測定的組織特徵其準確性可能更難以評估,但是這些方法有較高技術重複和生物學重複性。在某些情況下,這些技術獨立地識別同一生物學過程的不同方面,因此可以相互驗證:例如RNA-seq可以重現由WES或WGS鑑定的外顯子變異,而蛋白質組表達可以驗證RNA-seq的表達。然而,在需要高可信度的臨床環境中,這些測試目前由其它獨立的技術驗證,可能包括現有的臨床測試如酶法或低通量測定試驗。

對於癌症基因組學,解讀異質性資料是一項重大挑戰。由於每個腫瘤是由具有不同程度體細胞突變的細胞組成的嵌合體,即使不區分伴隨突變和驅動突變,變異的檢測也很困難。特別是癌症中的體細胞突變是純系突變還是僅在組織中的一部分細胞中出現,使得變異的發現複雜化,因此需要高覆蓋度和高質量資料將其與測序錯誤區分開來。利用細胞遊離DNA(cell-free DNA)的超深度測序追蹤血液中痕量癌症突變的存在以及利用單細胞測序檢測癌症的異質性正成為強有力的方法。然而,用於檢測早期癌症的細胞遊離DNA方法需要穩健的方法來區分真正的低頻(變異)事件與測序錯誤,並且單細胞測序仍然很昂貴。儘管如此,這些方法已經被用於解析腫瘤異質性並在產前檢測中識別出癌症的一個附帶突變。隨著其它組學資料集與超深度測序結合,我們期望這些方法能夠優勢互補,為臨床分子諮詢提供獨特而且強大的方法。

5.3 Interpretation

解讀

即使擁有高度精確的資料,另一個困難在於對基因組規模結果的解讀,特別是罕見的和新的分子事件,它們通常遠遠超過可以合理地進行功能驗證的(分子)事件的數量。個體基因組中的許多變異,特別是以前沒有見過且沒有明確功能效應的,被稱為“不確定意義的變異(VUS)”,該問題對於其它資料型別(例如轉錄組或蛋白質組資料)也存在。另外,判斷臨床上重要的分子事件如RNA表達閾值在不同的資料型別中很難確定。幸運的是,可用於外顯子組、基因組測序(gnom AD)和基因表達的大型群體參考資料集已可用。它們通過提供群體中的實際(變異)頻率來幫助解釋罕見事件。特別是,驅動變異在受影響的個體中應該比在更多的無症狀群體中有更高的變異頻率,這可以支援或否定先前的致病機制。此外,醫生可能會發現不相關條件下的其它致病性分子事件,也稱偶發性發現,對於哪些結果反饋給患者到什麼程度的資訊仍存在相當大的爭議。

當結合多組學技術時,這些問題有時會得到改善,尤其是對於那些難以進行統計分析的、罕見的及新的分子事件。特別是,顯示為正交資訊的多組學技術的直接整合可以為某個分子事件提供額外的證據:例如,如果RNA-seq顯示VUS(不確定意義的變異)影響關鍵疾病基因的剪接,則可以證實其潛在的致病機制。通過這種方法,多技術整合可以建立起單一技術無法實現的因果關係鏈。

5.4 Finding the relevant tissue

尋找相關組織

為了維持樣品間的一致性,許多大規模研究對已經得到的樣品進行了分析,例如血液或細胞系,包括轉化的淋巴母細胞樣細胞系( 被高中生物騙了這麼多年,原來人體內細胞的DNA是有不同的?)。然而,對於臨床應用,理想情況是研究與特定疾病相關的組織,因為基因表達在不同組織中顯著變化(圖3)。GTEx、表觀組學路線圖和哺乳動物基因組的功能註釋5(FANTOM5)專案為多組織基因表達和表觀基因組資料提供了參考資料集。多數情況下,疾病相關組織可能已有記錄,例如MD(肌營養不良)的肌肉組織。然而,如果疾病定義不太明確或組織不可用,則可以通過對疾病的網路分析來鑑定組織。事實上,已證明使用疾病相關組織對MD患者的診斷是有益的。對肌肉組織的轉錄組分析得到的診斷結果不同通過儲蓄替代組織(例如血液或成纖維細胞)來獲得,因為疾病相關基因在這些裡面表達低。

在將此類資料用於臨床應用時,應注意確保來自患者樣本的資料與參考資料集具有可比性,這對於整合其它組學資料(例如代謝組學和蛋白質組學)將是至關重要的。當然,在組織(例如大腦)中存在大量細胞異質性的情況下,這種分析更加複雜:在此情況下,具有單細胞解析度的技術將為解析每種單獨的細胞型別提供有價值的見解。在原代組織難以獲得或難以維持培養的情況下,使用CRISPR系統將突變引入誘導多能幹細胞(iPS,周琪院士正面迴應:60萬一針有用嗎?(幹細胞治療))可以為分子驗證提供一個強有力的方法。

圖3 尋找相關組織。由於其可用性和易於採集(a部分),血液通常是最方便的實驗組織,但它通常不是觀察特定疾病如主要影響腦或肺的疾病的分子表型的理想組織。特殊地,相比於疾病近端組織(例如肌營養不良的肌肉組織),血液的轉錄圖譜(包括表達水平、剪接模式和增強子的使用)可能不適於檢測這些疾病。

5.4 Actionability and therapeutics

可操作性和治療

在討論臨床中使用的任何技術時,可能最重要的是其可操作性。實際上,一部分資訊不足以說明其有意性:掌握診斷知識並結束診斷過程對患者和家屬來說是很有幫助的。 然而,在一個被稱為“精準醫學”或“個性化醫療”的體系中,可以指導干預的資料將十分有用。尤其是,對患者的疾病亞型進行分類以推薦特定的藥物,在組學分析(BOX 2)的基礎上來確定潛在移植是否匹配良好,或確定新疾病的驅動機制(並開發可以靶向直接分子產物的治療方案),可以改善治療結果並延長患者的生命。然而,即使是與治療結果在統計學上存在相關性的非驅動性分子事件也有可操作性,特別是以改變生活方式的建議形式,包括飲食、監測和預防性治療;事實上,具有高遺傳性冠心病風險的個體從他汀類藥物治療中獲益更大。

Box 2

方框2 . 移植供體和受體的多組學分析 每年有數千名患者接受器官和造血幹細胞移植,但移植患者的死亡率仍然很高。檢測供體與受體匹配的慣例做法涉及人白細胞抗原(HLA)分型,最近已使用高通量測序技術開發了這種方法。然而,越來越清楚的是,非HLA因子可以顯著影響移植物抗宿主反應(GVHD)的預後和發展,因為HLA匹配的同胞供體移植比HLA匹配但卻無關的供體移植具有更低的GVHD風險,且常見的非HLA多型性與GVHD有關。

因此,多組學可用於確定最佳供體-受體匹配,以及監測排斥標記物。例如,對細胞遊離DNA進行測序可以檢測迴圈的供體DNA,其水平與器官排斥的嚴重程度相關。另外,對這種細胞遊離DNA進行測序可同時檢測病毒DNA以指示感染標誌物。其它組學資料,例如RNA或蛋白表達,也可用於評估供體-受體間的相容性,以及監測排斥標誌物。整合組學技術可能成為移植生物學的有用工具。

6. Conclusions and future perspectives

結論和未來展望

目前,組學技術(尤其是基因組測序以及較小程度的RNA-seq)僅在極少數情況下顯示出優於傳統的臨床測試,因此將這些技術納入臨床實踐存在較大的技術和監管障礙。然而,由於使用多種技術可以更清晰地瞭解健康和疾病,這些技術的整合很可能在未來的臨床實踐中成為普遍現象。此外,最近大型生物銀行計劃(如UK Biobank, Million Veterans Project和“All of Us”計劃)收集了生物資料並對數百萬人進行多組學分析,這將對人類疾病產生深刻的理解,併為更多其它的研究和臨床應用提供有價值的參考資料庫。

6.1 Predictive models of disease risk for healthy individuals and early detection of disease

健康個體的疾病風險預測模型和疾病的早期檢測

與傳統的臨床檢測一樣,大規模組學資料的分子測量可以整合到疾病風險模型中。特別是最近,已經開發了一組用於計算特定疾病遺傳風險的方法,稱為多基因風險評分。這些方法成功地將某個疾病(如心血管病等疾病)的患者分為高風險和低風險類別。在有了基於遺傳學或是家族史的疾病風險預測結果後進行鍼對性檢測。例如,如果一個患者被預測患有II型糖尿病的風險,則進行葡萄糖和糖基化血紅蛋白(HbA1c)水平的測定和其它測試,例如葡萄糖耐受性測試。然而,如果在未來能夠同時高質量和低成本地進行代謝組學的測量,那麼將不再需要進行單獨化學測試。此外,來自可穿戴裝置的持續收集的資料可與組學資料相結合用於在疾病症狀出現之前的早期檢測。

6.2 Disease management

疾病管理

除了疾病預測和早期診斷外,整合組學在疾病治療和預後方面的作用將會變得越來越強大。來自轉錄組、表觀基因組、微生物組、蛋白質組和代謝組的資訊以及成像和可穿戴裝置的資料都將用於幫助破譯疾病,促進預後,從而指導治療。在癌症中,腫瘤-正常組織對(tumour–normal pairs)的DNA和RNA測序已經鑑定了易位(變異)和基因表達的特徵,針對性的靶向治療進而治癒疾病。在未來,隨著多組學的測量資料與疾病的預後關聯,這種資料驅動的範例很可能會成為醫學研究的有力工具,也將有助於促進臨床診斷和治療。

原文:Integrative omics for health and disease, DOI: 10.1038/nrg.2018.4

翻譯:RPM,宋紅衛,凌路頔

蛋白質組學研究

轉錄組研究

文獻精讀

更多閱讀

畫圖三字經 生信視訊 生信系列教程

心得體會 癌症資料庫 Linux Python

高通量分析 線上畫圖 測序歷史 超級增強子

培訓視訊 PPT EXCEL 文章寫作 ggplot2

海哥組學 視覺化套路 基因組瀏覽器

色彩搭配 圖形排版 互作網路