【百奧雲GS專欄】1-全基因組選擇介紹
什麼是基因組選擇?
基因組選擇(Genomic Selection,簡稱GS)這一概念由挪威生命科學大學的Theo Meuwissen 教授於2001年提出。它是一種利用覆蓋全基因組的高密度分子標記進行選擇育種的新方法,可通過構建預測模型,根據基因組估計育種值(Genomic Estimated Breeding Value, GEBV)進行早期個體的預測和選擇,從而縮短世代間隔,加快育種程序,節約大量成本。
這一方法尤其對低遺傳力以及難以測量的複雜性狀具有良好的預測效果,真正實現了通過基因組技術來指導育種實踐。該技術目前主要側重於早期預測,因此又稱為基因組預測(Genomic Prediction,簡稱GP)。
基因組選擇技術的發展
眾所周知,生物的表現型由基因和環境共同決定。早期的育種過程幾乎完全基於表型選擇(Phenotype Selection,PS),即通過比較個體表型值,進行優中選優。或者結合系譜資訊,利用最佳線性無偏預測 (Best Linear Unbiased Prediction,BLUP)等統計學方法進行個體育種值比較來選擇(動物中更常用)。這類方法不能進行早期的遺傳評估,且當性狀表型難以獲取或遺傳力較低時,準確性不高。
隨著分子標記技術的發展,分子標記輔助選擇(Marker-assisted Selection, MAS)成為最常用的育種技術之一。該技術利用了表型和部分基因的資訊來進行遺傳評估,但分子標記數目有限,且只能利用與顯著效應的基因或主效數量性狀位點(Quantitativetraitlocus, QTL)緊密連鎖的標記來進行個體的輔助選擇,對於眾多微效基因控制的複雜性狀則顯得無能為力。
高通量測序技術的發展顯著降低了分子標記的成本,覆蓋全基因組的高密度分子標記使得複雜性狀的輔助選擇成為可能,基因組選擇技術也因此得到迅速發展。相對於PS和MAS,GS可以捕獲所有的遺傳變異,且無需表型資訊即可進行遺傳評估,極大地縮短了世代間隔和育種成本(圖1)。
從2001年Meuwissen首次提出基因組選擇,到2006年Schafferr指出GS在奶牛育種中的巨大應用價值,GS已經成為家畜育種中最熱門的研究領域。從2009年開始,奶牛的選育已經幾乎完全由GS主導,豬、綿羊、肉牛、雞等家畜育種也陸續應用GS技術。在植物育種領域,小麥、玉米、水稻等主糧作物,苜蓿、鷹嘴豆等經濟作物和林木育種也相繼開始應用。
基因組選擇的原理和流程
GS利用覆蓋全基因組的高密度SNP標記,結合表型記錄或系譜記錄對個體育種值進行估計,其假定這些標記中至少有一個標記與所有控制性狀的QTL處於連鎖不平衡(linkage disequilibrium, LD)狀態,這樣使得每個QTL的效應都可以通過SNP得到反映,將所有標記效應值累加,獲得基因組估計育種值。
GS流程包含兩個群體,一個是訓練群體(又稱參考群體),需要同時具有表型和基因型資訊,估計標記效應值來構建參考模型;另一個是預測群體(又稱候選群體或育種群體),只需要基因型資訊,通過構建的參考模型得到估計育種值,從而達到預測表型,進行個體選擇的目的(圖2)。
與常規的玉米雙單倍體(Doubled Haploid,DH)育種相比,GS育種減少了大量無效的測驗,成本可減少50%以上,多點試驗週期也能大大縮短。下圖3展示了一年兩季玉米育種的兩種方法的流程比較:
基因組選擇的模型
統計模型是GS的核心,能極大地影響基因組預測的準確度和效率。根據統計模型的不同,GS模型大體可分為直接法和間接法兩大類。
直接法是以個體作為隨機效應,參考群體和預測群體遺傳資訊構建的親緣關係矩陣作為方差協方差矩陣,通過迭代法估計方差組分,進而求解混合線性模型,獲取待預測個體的估計育種值。根據不同資訊構建的親緣關係矩陣可建立不同的模型,比如以傳統系譜矩陣構建的ABLUP模型,以基因型矩陣構建的GBLUP模型,以系譜和基因型結合矩陣構建的ssBLUP模型(single-step BLUP,即一步法BLUP),基於GBLUP壓縮個體構建的cBLUP模型以及基於GBLUP區段化標記構建的sBLUP等模型。
間接法則首先在訓練群體中估計標記效應,然後結合預測群體的基因型資訊將標記效應進行累加,最後獲得預測群體的個體估計育種值。間接法以rrBLUP為代表,其假設所有標記效應符合一個正態分佈,同時標記效應的方差是一致的,這可能與基因的實際效應值不相符,因而引入貝葉斯的分析方法。根據預先假定基因的數量和基因效應值分佈的不同,可以建立不同的貝葉斯模型,如BayesA、BayesB、BayesC、BayesCπ、Bayes LASSO等,其差別主要在於:是否所有標記都有效應值,標記效應是否符合相同分佈以及標記效應方差服從何種分佈。
直接法以個體為單位,計算效率較高,但是計算準確性略差於間接法;間接法以標記為單位,計算量龐大,且無法實現並行運算,對於講究時效性的育種而言是個比較大的挑戰。
此外,經典機器學習及深度學習方法,如隨機森林模型、卷積神經網路等也逐步開始應用於育種實踐。
基因組選擇的展望
GS的預測能力受到諸多因素的影響,比如群體型別和大小、標記型別和密度、統計模型、性狀遺傳力、參考群和候選群的遺傳關係等等。如何巧妙地通過育種方案設計來平衡或者消除這些因素的影響,達到育種目標仍是一個比較大的挑戰。
理論上而言,群體和標記數目越多,GS預測的準確性就越高。但我們需要同時兼顧效率和成本的問題。當群體和標記數目足夠大,預測精度會趨近飽和,不會再隨數目的增加而大幅提升。標記密度與物種、群體型別和大小有關,比如異花作物所需標記密度一般高於自花作物,自然群體一般要高於雙親群體。因此根據不同的育種要求,應建立相應的模型。
在GS模型方面,還有許多值得探索的地方。比如GS模型目前主要考慮的是加性效應,對於顯性效應、互作效應及環境效應等影響未納入到育種值估計模型中;GS主要用到的是基因組資訊,大量的多組學研究結果,如轉錄組、代謝組等資料利用得不夠充分;GS模型現在主要針對的是單一性狀的預測,對應多個性狀之間的影響未納入模型。因此,未來對多效應、多組學和多性狀等模型的建立以及機器學習演算法的優化可能會大大改善GS的預測能力。
表型的準確性和成本也是影響GS應用的重要因素。高通量表型平臺(High-Throughput Phenotyping,HTP)可以減少表型調查的成本,同時結合早期測試的基因組和系譜資訊,共同用於統計模型,提升準確性。
相比於傳統BLUP的稀疏矩陣,利用基因組資訊計算的稠密矩陣對混合模型引數估計及模型求解也是一個比較困難的問題,可以通過數學方法或者高效能運算機來簡化計算複雜度。相對晶片而言,測序可減少對LD的依賴,得到更豐富的遺傳資訊,對於親緣關係較近的群體可通過填充將晶片個體的標記密度填充到測序水平。測序技術的應用將成為全基因組選擇新時代的轉折點。
總言之,全基因組選擇的育種應用雖然仍有一些瓶頸,但它必然是智慧育種時代非常重要的一項技術,也是未來育種一個重要的方向,它將極大影響未來育種的方式和程序。
小編今天只是簡單地給大家介紹了全基因組選擇的一些基因概念和應用,後續會持續推送關於GS方面更詳細的內容哦,敬請關注。
【百奧雲資料室】欄目簡介
隨著高通量和自動化技術的應用,動植物育種上都產生和積累了大量的資料。以人工智慧(Artificial Intelligence)
、大資料(Big Data)
和雲端計算(Cloud Computing)
為核心的`ABC技術將成為育種4.0時代不可或缺的能力。為幫助廣大科研人員學習和了解育種資料的分析原理,我們將推出【百奧雲資料室】欄目,由小百老師介紹育種上前沿或常用的技術及相關細節,敬請關注!
參考資料
Meuwissen T. H. E. et al., Prediction of total genetic value using genome-wide dense marker maps. Genetics. 2001: 157 1819–1829.
M E Goddard, B J Hayes. Genomic selection. J Anim Breed Genet. 2007 Dec;124(6):323-30.
Javaid A. Bhat et al., Genomic Selection in the Era of Next Generation Sequencing for Complex Traits in Plant Breeding.Front Genet. 2016; 7: 221.
José Crossa et al., Genomic Selection in Plant Breeding: Methods, Models, and Perspectives. Trends in Plant Science.2017.
McGowan, M. et al., Ideas in Genomic Selection that Transformed Plant Molecular Breeding: A Review. Preprints 2020, 2020100460.
Yunbi Xu et al., Enhancing Genetic Gain through Genomic Selection: From Livestock to Plants. Plant Communications.2020.
尹立林, 馬雲龍, 項韜, 朱猛進, 餘梅, 李新雲, 劉小磊, 趙書紅. 全基因組選擇模型研究進展及展望. 畜牧獸醫學報, 2019, 50(2): 233-242.