全基因組重測序基礎及高階分析知識彙總
全基因組重測序基礎及高階分析知識彙總
oddxix 已關注 2018.09.20 17:04 字數 11355 閱讀 212評論 0喜歡 6轉自:http://www.360doc.com/content/18/0208/11/19913717_728563847.shtml
全基因組重測序是通過對已有參考序列(Reference Sequence)的物種的不同個體進行基因組測序,並以此為基礎進行個體或群體水平的遺傳差異性分析。通過全基因組重測序,研究者可以找到大量的單核苷酸多型性位點(SNP)、拷貝數變異(Copy Number Variation,CNV)、插入缺失(InDel,Insertion/Deletion)、結構變異(Structure Variation,SV)等變異位點。基於以上變異位點作為分子遺傳標記,在人類複雜疾病、動植物經濟性狀和育種研究及物種起源、馴化、群體歷史動態等方面具有重大的指導意義(Bentley2006; Casillas& Barbadilla 2017)。
一、 基礎理論知識
全基因組重測序研究主要是依據在全基因組水平發現的分子遺傳標記進行物種的群體遺傳學研究,進一步的利用統計方法進行影響表型和經濟性狀候選基因和功能突變的研究。分子群體遺傳學研究的理論基礎知識及統計分析方法日趨完善和呈現多樣性,作為初學者,有必要對其中的一些基礎概念有一定的瞭解,才能為後續的深入學習、研究提供基石。以下基礎知識主要參考國內動物遺傳學書籍和最新的一篇關於分子群體遺傳學方面的綜述改變而成(吳仲賢編1961; 李寧2011; 吳常信2015; Casillas & Barbadilla 2017)。高通量測序技術作為分子群體遺傳學研究的有力工具,在科學研究、生產及疾病診斷治療中起到原來越重要的作用,對關於高通量測序相關的理論基礎知識進行一定程度的瞭解,也有助於文獻閱讀和。
1. 群體遺傳學基礎知識
群體(Polulation):是指生活在一定空間範圍內,能夠相互交配並生育具有正常生殖能力後代的同種個體群。
等位基因頻率(Alleles frequency):在一個群體中,某類等位基因佔該基因位點上全部等位基因數的比率。
基因型頻率(Genotype Frequence):群體中某一基因型個體的數目佔群體總個數的比例。可以反映某一基因型個體在群體中的相對數量。
遺傳平衡定律或哈迪.溫伯格定律(Hardy-Weinburg):在隨機交配下的孟德爾群體中,如沒有替他因素(基因突變、遷移和選擇)的干擾,群體的基因頻率和基因型頻率將逐代保持不變。
連鎖平衡(Linkage equilibrium):兩個基因座的等位基因組合的頻率等於組成組合的等位基因各自頻率的乘積,不存在優勢組合,稱為連鎖平衡。
連鎖不平衡(Linkage Disequilibrium):相鄰位點之間的非隨機關聯,當一個位點上的某一等位基因與另一位點上的等位基因共同出現的概率大於隨機組合的假設,則這兩個位點之間存在連鎖不平衡。
適合度(fitness):指一個個體能夠生存並將其基因傳給下一代的能力,可用相同環境中不同個體的相對生育率來衡量(即在選擇中,某一基因型個體在下一代平均保留後代數的比率)。
選擇係數或淘汰率(selectivity coefficient,用s表示):某一基因型個體在下一代淘汰的個體數佔總後代數的比率。
群體分層(population stratification):群體分層是指群體記憶體在亞群的現象,亞群內部個體間的相互關係大於整個群體內部個體間的平均親緣關係。
核苷酸多型性(π):衡量特定群體多型性高低的引數,是指在同一群體中隨機挑選的兩條DNA序列在各個核苷酸位點上核苷酸差異的均值。π值越大,說明其對應的亞群多型性越高。
群體間固定指數(Fst):衡量群體中等位基因頻率是否偏離遺傳平衡論比例的指標,用來研究不同群體間的分化程度。其取值為0到1,0代表兩個群體未分化,其成員間是完全隨機交配的;1代表兩個群體完全分化,形成物種隔離,且無共同的多樣性存在。
θw:Watterson’s 多型性估值,從理論上說,在中性條件下,應當有θW=4Neμ的平衡狀態,Ne表示有效群體大小,μ表示每一代的序列突變率。
瓶頸效應(Bottle effects):由於環境驟變(如火災、地震、洪水等)或人類活動(如人工選擇、馴化),使得某一生物種群的規模迅速減少,僅有一少部分個體能夠順利通過瓶頸事件,在之後的恢復期內產生大量後代。
基因的隨機漂移或遺傳漂變(random genetic drift):由某一代基因庫中抽樣形成下一代個體的配子時發生機誤,這種機誤引起基因頻率的變化稱之為基因的隨機漂移或遺傳漂變。換句話說,就是利用隨機抽樣的辦法建立小群體時,由於抽樣誤差引起基因頻率隨機波動的現象。
始祖效應、奠基者效應或建立者效應(Founder Effect):有少數個體的基因頻率決定了他們後代中的基因頻率的效應,是一種極端的遺傳漂變作用。
遷移壓力(又叫基因流,Gene Flow):
由於某種原因,具有某一基因頻率的群體的一部分移入基因頻率與其不同的另一群體,並雜交定居,就會引起遷入群體的基因頻率發生改變。
有效群體大小(effective population size,Ne):
是指與實際群體具有相同基因頻率方差或相同雜合度衰減率的理想群體大小,它反映了群體平均近交係數增量的大小以及群體遺傳結構中基因的平均純合度。
中性學說(neutral theory):
認為分子水平上的大多數突變是中性或近中性的,自然選擇對它們不起作用,這些突變靠一代又一代的隨機漂變而被儲存或趨於消失,從而形成分子水平上的進化性變化或種內變異。
突變壓力:一定條件下,一個群體的突變率可明顯增高,形成突變壓力,使某個基因頻率增高。
選擇壓力(selection pressure):受某種環境條件的影響,某些突變型被選擇所作用,使突變基因的頻率降低。
選擇(selection):在人類和自然界的干預下,某一群體的基因在世代傳遞過程中,某種基因型個體的比例所發生變化的群體遺傳學現象(張沅 2001; 馬雲龍 2015)。
正選擇或方向性選擇、定向選擇(Positive selection or Directional selection):正向選擇是選擇中最常見的一種形式,當群體中出現新的有利突變時,該位點對應的適合度將從一種極端向著另一個極端轉化。在這種適應性進化的過程中,選擇作用是有利突變位點方向性進化的潛在驅動力。
負選擇或淨化選擇(Negative selection or Purifying selection):是指在群體中的某種表型性狀不再適應目前環境或育種需求時,與該性狀相關聯的等位基因頻率將會被選低或被淘汰的過程。通常該類等位基因所關聯的表型性狀對群體在當前環境下的生存和繁衍是不利的。
平衡選擇(Balance selection):一些等位基因的純合體僅在正常的雜交群體的少數個體中存在,並且在適合度上低於雜合體,然後將會出現有利於在許多座位上發展復等位基因系列的選擇壓力。因此,平衡選擇能夠在種群中維持遺傳學多樣性,而不是僅選擇一個最有利的基因型。(即由於超顯性等作用,群體中的某些性狀的潛在作用位點始終在選擇的作用線保持較高的遺傳多型性、對應較高的雜合度,可能與家畜育種中雜種優勢有關)。
平行選擇(Parallel selection):與平衡選擇相對應,同物種群體不同亞群之間,由於偶然或其它一些主觀因素,造成影響某些性狀的潛在遺傳位點向著同樣的方向被選擇被稱為平行選擇(例如:不同奶牛品種中對產奶量的選擇)。
歧化選擇(Divergent selection):選擇作用使影響某些性狀的潛在遺傳位點在不同的亞群中向著不同的方向進化現象(例如:果蠅的長翅與殘翅)。
選擇性清除(Selective sweep):在中性進化理論下,一個新的突變往往需要很長一段時間才能夠在群體中達到一個較高的頻率,並且這些突變周圍的連鎖不平衡程度會因重組率的影響而在這段時間內幾乎完全衰減降解。因此,基因組上絕大多數未受到選擇作用的位點會始終處於隨機漂變狀態,彼此之間形成的連鎖不平衡容易衰減,單倍型長度相對較短。然而在選擇的作用下,群體有利等位基因頻率則會在較短的時間內達到一個較高的值,重組的作用會受到一定程度的對衝而不能對長範圍單倍型造成實質性的降解。同時,選擇作用下的連鎖不平衡會造成選擇位點附近的中性位點的基因頻率隨之增加形成長範圍的單倍型純合。群體遺傳學中,將這種由選擇作用造成的部分染色體片段的多型性降低現象稱為選擇性清除。
搭便車效應(Hitchhiking Effect):選擇位點周圍的中性位點得益於選擇作用而出現的基因頻率迅速增加的現象,則被通俗地稱為“搭便車”效應。
選擇訊號(Selection signature):選擇性掃除和“搭便車”效應屬於從不同角度表述的同一群體遺傳學現象,都是選擇作用在基因組上留下的明顯特徵,此特徵被稱為選擇訊號。
微進化(microevolution):群體在世代過程中等位基因頻率的變化,成為微進化,即發生在物種內的遺傳變化。
大進化(macroevolution):從現有物種中產生新物種的過程,是微進化的擴充套件、累積的結果。
趨同進化(convergent evolution):在突變和選擇的作用下,不同物種間具有趨同進化的趨勢,這種現象稱協同進化。
遺傳負荷(genetic load):如果一個群體的突變不斷積累,並且這些突變是有害的,就會出現適合度下降。這種現象稱為遺傳負荷。
Gap:空缺
胚系突變(Germline variant):又叫生殖細胞突變,是來源於精子或卵子這些生殖細胞的突變,因此通常身上所有細胞都帶有突變;
體細胞突變(Somatic mutation)又叫獲得性突變,是在生長髮育過程中或者環境因素影響下後天獲得的突變,通常身上只有部分細胞帶有突變。
錯義突變(missense mutation):是指DNA的突變引起mRNA中密碼子改變,編碼另一種氨基酸.如DNA中某GAA發生轉換突變成AAA後,使原編碼的穀氨酸(Glu)改變為賴氨酸(Lys)。
沉默突變(silent mutation):也稱同義突變(same-sense mutation)DNA的突變雖引起mRNA中密碼子改變為另一種密碼,但由於密碼子的兼併作用,並未使編碼的氨基酸改變。
無義突變(nonsense mutation):DNA的突變引起mRNA中的密碼子改變為一種終止密碼子。
同義突變與非同義突變區別:不導致氨基酸改變的核苷酸變異我們稱為同義突變,反之則稱為非同義突變。一般認為,同義突變不受自然選擇,而非同義突變則受到自然選擇作用。在進化分析中,瞭解同義突變和非同義突變發生的速率是很有意義的。常用的引數有以下幾種:同義突變頻率(Ks)、非同義突變頻率(Ka)、非同義突變率與同義突變率的比值(Ka/Ks)。如果Ka/Ks>1,則認為有正選擇效應。如果Ka/Ks=1,則認為存在中性選擇。如果Ka/Ks<>
2. 高通量測序常見術語
高通量測序技術(High-throughput sequencing,HTS):是對傳統Sanger測序(稱為一代測序技術)革命性的改變, 一次對幾十萬到幾百萬條核酸分子進行序列測定, 因此在有些文獻中稱其為下一代測序技術(next generation sequencing,NGS )足見其劃時代的改變, 同時高通量測序使得對一個物種的轉錄組和基因組進行細緻全貌的分析成為可能, 所以又被稱為深度測序(Deep sequencing)。
Read(讀段):高通量測序平臺產生的短序列就稱為reads。(例如:PE125,就是讀長為125bp雙端測序)
PEread(Pair-end read):雙末端測序讀段
SEread(Single-end):單末端測序讀段
混合分組分析(BSA,bulk segregant analysis),是一種常見的利用樣本混合池(DNA pooling)重測序進行QTL定位的方法。
單核苷酸多型性(Single Nucleotide Polymorphisms,SNP):主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多型性。它是人類可遺傳的變異中最常見的一種。佔所有已知多型性的90%以上。
structure variation(SV):基因組結構變異
染色體結構變異是指在染色體上發生了大片段的變異。主要包括染色體大片段的插入和缺失(引起CNV的變化),染色體內部的某塊區域發生翻轉顛換,兩條染色體之間發生重組(inter-chromosometrans-location)等。一般SV的展示利用Circos軟體。
Indel,即插入/缺失(insert/deletion)
SV,即結構變異(structural variation),一般是指長度在1000bp以上的DNA區域存在倒位、轉位和插入缺失的現象,通常又稱為拷貝數變異(CNVs, copy number variants)。當一個CNV在群體中的頻率超過1%,又稱為拷貝數多型性(CNP,copy number polymorphism).。CNV 是基因組結構變異(Structural variation, SV) 的重要組成部分。CNV位點的突變率遠高於SNP(Single nucleotide polymorphism), 是人類疾病的重要致病因素之一。
Segmentduplication:一般稱為SD區域,串聯重複是由序列相近的一些DNA片段串聯組成。串聯重複在人類基因多樣性的靈長類基因中發揮重要作用。在人類染色體Y和22號染色體上,有很大的SD序列。
泛基因組:對多個個體的基因組進行從頭組裝,尋找結構變異的方法。
3.常見縮略語表
FDR(False Discovery Rate):錯誤發現率
IBD(Identical by desent):同源相同
IBS(Identical by state):同態相同
MAF(Minor allele frequency):最小等位基因頻率
GO (Gene Ontology) :基因本體,是一個在生物資訊學領域中廣泛使用的本體,它涵蓋生物學的三個方面:細胞組分、分子功能、生物過程。
KEGG(Kyoto Encyclopedia of Genesand Genomes):KEGG 是瞭解高階功能和生物系統(如細胞、生物和生態系統),從分子水平資訊,尤其是大型分子資料集生成的基因組測序和其他高通量實驗技術的實用程式資料庫資源,由日本京都大學生物資訊學中心的Kanehisa實驗室於1995年建立。是國際最常用的生物資訊資料庫之一,以'理解生物系統的高階功能和實用程式資源庫'著稱。
二、資料分析內容
1. 初級資料分析
主要指一般情況下,測序公司給我們的反饋回來的初步資料分析結果。主要包括以下內容。
●測序質量報告
一般是使用FastQC、NGSQCToolkit等軟體,對測序原始資料質量進行檢視。主要內容包括。BasicStatistics、Per base sequence quality、Persequence quality scores……Kmer Content等11項內容。目前這部分內容一般在發表論文時很少放在正文圖表裡,大多數放在補充材料裡面,作為補充參考內容。此外,目前測序技術和測序公司在基因組測序這塊做的都比較成熟,所以這部分內容只需要看一下測序結果是否可靠即可,僅作為能否進行下一步分析的原始資料質量指標。
**●****資料量產出、質量控制與mapping(資料比對)統計 **
資料產出統計:Read Length(讀度長度) 、原始read數、總鹼基數量和測序深度分析
質量控制:過濾基本引數、Clean reads結果統計和過濾後的高質量鹼基總數
Mapping統計:Total Mapping Reads、UnMapped Reads統計、Mapping率和測序覆蓋度
●遺傳變異檢測(編碼區和非編碼區SNP、InDel、CNV和SV檢測、統計分析)
SNPCalling 計算(SNPCalling)。檢測全基因組中所有多型性位點,結合質量值、測序深度、重複性等因素作進一步的過濾篩選,最終得到可信度高的SNP資料集。一般採用整合多種SNP探測演算法的結果,綜合地,更準確地識別出SNP(一般是GATK+Samtools)。通過對多種演算法各自識別的SNP進行一致性分析,保留具有高度一致性的SNP作為最終SNP結果。並根據參考基因組資訊對檢測到的變異進行註釋。(常用軟體主要有FRAPPE:https://github.com/frappe/frappe;GATK:https://software.broadinstitute.org/gatk/;FreeBayes:;Samtools:https://sourceforge.net/projects/samtools/?source=navbar)
這些具有高度一致性的SNP同時具有非常高的可信度。在分析中使用到的SNP識別演算法包括基於貝葉斯和基因型似然值計算的方法,以及使用連鎖不平衡LD或推斷技術用於優化SNP識別檢出的準確性(常見基因型推斷軟體有:Beagle、impute2、Fastphase、Phase等軟體)。
統計SNV的等位基因頻率在全基因組上的分佈
稀有等位基因數目在不同類別的SNV中的比率分佈(a);SNV的類別主要考慮:(1)無義(nonsense),(2)化學結構中非同義,(3)所有非同義,(4)保守的非同義,(5)非編碼,(6)同義,等型別SNV;另外,針對保守性的討論,我們將分析非編碼區域SNV的保守型情況及其分佈。
分析物件包括全新預測的SNP,indel,large deletion, 以及外顯子SNP在每個等位基因頻率類別下的數目比率(fraction)。全新預測是指預測分析結果與dbSNP(當前版本129)以及deletion資料庫dbVar(2010年6月份版本)和已經發表的有關indels研究的基因組資料經過比較後識別確定的全新的SNP,indel以及deletion。dbSNP包含SNP和indels; dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因組學研究(JC Ventrer 以及Watson 基因組,炎黃計劃亞洲人基因組)結果提供的short indels和large deletion。
計算SNP,Deletion,以及Insertion 大小分佈。計算SNP,Deletion,以及Insertion中屬於全新預測結果的數目佔已有各自參考資料庫數目的比例(相對於dbSNP資料庫;dbSNP包含SNP和indels;dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因組學研究(JC Ventrer 以及Watson 基因組,炎黃計劃亞洲人基因組)結果提供的short indels和large deletion)其中,可以給出LINE,Alu的特徵位置。
InDel檢測及在基因組的分佈:
在進行mapping的過程中,進行容gap的比對並檢測可信的short InDel。在檢測過程中,gap的長度為15個鹼基。對於每個InDel的檢測,至少需要3個Paired-End序列的支援。理論上可以檢測150bp的插入缺失突變。
CNV拷貝數變異與SV結構變異檢測及在基因組中的分佈:
能夠檢測到的結構變異型別主要有:插入、缺失、複製、倒位、易位等。根據測序個體序列與參考基因組序列比對分析結果,檢測全基因組水平的結構變異並對檢測到的變異進行註釋。
拷貝數變異檢測軟體:
CNVnator:
●****變異型別註釋(發生區域統計)
常見軟體有SnpEff、ANNOVAR、等
●密碼子和氨基酸變化統計
●鹼基替代型別和比例統計
●各基因變異分佈統計
●候選位點檢測、統計、註釋
●候選基因GO、KEGG功能註釋
生物學通路(Biological pathway),包括代謝通路和訊號轉導通路是生物功能的重要組成部分,我們將各種形式的突變、變異,包括SNV和SNP,的對應基因放到生物學通路中進行綜合分析,考察功能性突變對pathway的影響程度和影響的規律。通過GSEA(配合晶片表達譜資料),KS檢驗,超幾何分佈檢驗等方法對變異基因在某些pathway的富集程度進行排序,識別發生功能改變的潛在通路。
2.高階資料分析
●群體遺傳多樣性分析
主要指標有:群體遺傳多樣性指數計算
常見分析軟體:Arlequin、VCFtools等
●**群體進化研究 **
·主成分分析(PCA)
·系統發生分析(Phylogenetic)
·遺傳結構(STRUCTURE)
全基因組群體進化分析是對同一物種的不同亞群或不同地理分佈的品種進行全基因組重測序,通過與參考基因組序列進行比對,獲得大量高精度的SNP、InDel等變異資訊,進行群體的遺傳結構、群體主成分、連鎖不平衡和選擇性消除等群體遺傳學分析,從而在分子層面揭示物種的進化機制、環境適應性、種群演化歷史等系列問題。
**●遺傳圖譜構建 **
●群體遺傳結構分析
●**QTL定位 **
進行QTL定位一般都需要詳盡的表型資料記錄、構建群體,當然自然群體也是可以的(但遺傳背景的影響較大,理想狀態下可以得出預期結果)
●全基因組關聯分析(GWAS)
隨著二代測序技術的發展以及測序成本的不斷降低,利用全基因組變異資料進行基因分型變得越來越容易,導致用於關聯分析的樣本量和標記數不斷增大,原始的MLM模型求解所耗的時間可以用mpn3來表示(m為標記數目,p為求解過程的迭代次數,n為樣本數),可見,隨著樣本量的增加,每迭代一步,計算時間都會以樣本3次方增長,這使得計算的時間變得非常長。
在GWAS分析中,群體結構和遺傳背景是造成的假陽性高的主要因數。在假陽性控制條件下,如何在更大程度上利用遺傳標記,提高個體資料的計算效率和提高檢測功效是分析軟體演算法開發的主要問題。Plink是釋放較早的GWAS軟體,其計算通量和速度很高,可以實現基於等位基因頻率各種非引數檢驗、一般線性模型(GLM)和logistic迴歸。該軟體在人類複雜疾病病例對照研究中應用比較廣泛,極大地促進了GWAS的進展。
利用基因組資料可以進行對影響表型性狀的基因和功能突變進行定位,有助於
但目前利用成本較高,所以在試驗前期設計時,儘量收集更多的表型資訊,以充分利用資料。
常見分析軟體與演算法:
PLINK、Tassel5.0、GAPIT、GenABEL(R庫)、EMMAX、SNPassoc(R包)、GRAMMAR-Gamma、FaST-LMM、FaST-LMM-Select和BOLT-LMM。
●選擇性清除分析(選擇壓力分析)
選擇性清除分析主要通過物種的基因組DNA測序觀測到體細胞突變在自然選擇、人工選擇等作用下可能是經歷的複雜過程及與物種特殊性狀相關的基因組特徵。
自然選擇分析我們選擇訊號檢測分析
正向選擇的判定:分析SNP,SNV區域的正向選擇趨勢,在進化和群體遺傳水平解釋SNV,SNP的功能性;對待control與case 組樣本,我們分別採用不同統計演算法計算SNP,CNV在各自樣本中的差異,進而從中發現具有正向選擇特徵的SV。
常染色體訊號檢測分析
在目前主流的分析中,一般只考慮常染色體的選擇訊號分析,挖掘與重要經濟性狀、馴化、適應等相關的功能區域和突變。
性染色體選擇訊號分析
研究發現,基因組多型的降低, 19%26%是由常染色體選擇造成的,而12%40%歸因於性染色體的選擇作用(Mcvicker et al. 2009)。因此,通過對不同物種X染色體的選擇訊號檢測分析,揭示其遺傳機理和與重要性狀的關聯十分必要。已經在馬、豬、綿羊和人上進行了適應、經濟性狀、性別拮抗等方面的研究(Heyer& Segurel 2010; 馬雲龍 et al. 2012; Zhu et al. 2015; 劉雪雪 et al. 2015; Lucotte et al. 2016; Liu et al. 2018)。
在參考基因組性染色體組裝比較完善的基礎上進行性染色體的分析,可以充分利用、挖掘基因組資料中所包含的資訊,也是一個不錯的研究內容。可以單獨作為一篇研究論文進行研究分析。
●突變功能預測
根據選擇性清除分析、GWAS分析、QTL-seq等分析方法獲得與生物特殊性狀或表型相關的候選基因,通過以下軟體對突變導致的基因功能變化進行預測,為後續的功能驗證提供資料支援(章亮& 蘇志煕 2016)。
PolyPhen2:確定突變功能的大小
SIFT:
LRT:
Condel:
Logit
Mutation Taster-2、
Mutation Assessor
3.試驗設計型別
隨著Illumina公司的Nova-seq、X-Ten、華大基因的BGI-Seq系列等測序儀的成熟與普及,重測序價格將繼續越來越平民化。鑑於重測序已經是常見的研究工具,比拼測序規模已經慢慢失去價值,而我們大部分人非數學/統計學家出身,很難去進行新的演算法的開發。在試驗技術、分析方法大同小異的時代,要想脫穎而出,註定要求我們要加強相關生物問題以及對各種資料分析方法的理解程度、提高實驗設計和資料探勘解讀能力。
QTL定位(包含GWAS,表型):QTL定位是廣義上的QTL定位,包括經典的連鎖分析和關聯分析。QTL定位中的連鎖分析和關聯分析,其核心區別是所研究群體的特性不同,但兩種分析方法在統計學上幾乎沒有本質區別。總體而言,QTL定位是一類依賴表型鑑定的方法。我們需要精確衡量所有個體的表型,然後通過表型和基因型的相關性分析(有多種模型供選擇),定位與性狀相關的QTL。隨著測序價格的不斷下降,QTL定位的核心問題實際上是表型鑑定。個體表型鑑定的準確性受多種因素的影響,其準確性直接影響了QTL定位的效果。因為某些表型,必須在某種環境條件下才能表現(例如,抗旱能力必須在乾旱條件下才可以被觀察),所以要求個體必須要被嚴格控制在相似的環境條件下進行檢測。
對於人類這種可以主動配合實驗的物種來說,表型鑑定往往還相對容易。但對動物植物來說,要想進行精確的表型鑑定,則意味著這個物種是已經被馴化的。只有在人工馴化的環境下,控制生存環境,精確的表型鑑定才能成為可能。
群體遺傳(選擇壓力分析)。
根據研究目的和試驗設計特點,小編主要以經典文章的舉例來剖析今後試驗設計、分析方法。
而QTL定位和選擇壓力分析,本質上也是實驗設計的不同(Savolainen et al. 2013)[動植物重測序]。
體細胞突變。
高深度測序確定突變型別,進而GWAS分析,功能分析每個位點的貢獻率。結合轉錄組進行表達差異功能影響。
3.1 ****重測序GWAS定位功能基因(QTL定位(包含GWAS,表型))
2017年Visscher等在《The American Journal of HumanGenetics》雜誌以“10 Years of GWAS Discovery:Biology, Function, and Translation”為題回顧了近10年全基因組關聯分析(GWAS)的成果,並對GWAS下個十年的發展及應用方向進行了展望。文章指出,GWAS的結果已經揭示了數百個複雜的疾病性狀,大多數關於性狀和疾病的研究中,基因組中的突變目標會顯得很大。因此,未來的GWAS將以全基因組測序為基礎(Visscher et al. 2017)。
日本科研人員Yano等通過對176個日本粳稻品種的全基因組重測序,並利用混合線性模型進行GWAS關聯分析,鑑定到了與抽穗期相關的26個位點(−log10 P ≥4.77),檢測到受關注的5個區域分別位於染色體1、3、6、7、11,其中,位於染色體3和7的峰點與已報道的抽穗期相關基因Hd6和Hd2的QTL定位結果一致。位於1號染色體的候選區域被錨定在36.30Mb到36.65Mb之間(346Kb),包括91個與抽穗期關聯的位點,這些位點分佈於7個基因上,其中基因LOC_Os01g62780與擬南芥的HESO1基因同源,該基因在擬南芥中表現為延遲開花,分析發現主要是328位的纈氨酸突變為異亮氨酸形成了兩種單倍型,含有單倍型B的品種抽穗時間遲於單倍型A的品種。分別將單倍型A和單倍型B的基因序列匯入日本晴,匯入單倍型B序列的日本晴開花時間遲於匯入單倍型A序列的日本晴和對照組,說明水稻中的新基因LOC_Os01g62780與延遲開花相關(Yano et al. 2016)。
3.2 群體重測序進行適應性進化與功能基因定位(群體遺傳(選擇壓力分析))
要觀測到基因受本地化適應的痕跡,關鍵的因素是實驗設計,尤其是群體的選擇。其中1個很關鍵的因素就是:不同群體間是否存在遷徙,因為本地化適應往往與某種程度的群體隔離相關(無論是人為還是自然導致的隔離)。其中地理隔絕導致的亞群分化是比較容易理解的,例如一座高山擋住兩個亞群相互遷徙的可能。
那麼,在非地理隔絕的群體如何產生亞群呢?在這樣的群體中,本地化適應是選擇和遷徙平衡的結果。這裡不得不提到1個概念:antagonistic pleiotropy,好像翻譯為“拮抗性基因多效性”比較合理。這個概念實際上說的是,很多情況下,適應是有代價的:即以損失在其他環境下的適應性為代價,獲得更強的本地適應能力。如下圖,假設N是南方種,S是北方種,Y軸是適應性,X軸是地點。我們可以看到S在南方具有最高的適應性,到了北方卻吃癟了。這個道理其實非常容易懂,北極熊在北極的冰天雪地是霸主;如果到了針葉林,這一身高貴的白毛,保證耗子都抓不到。
antagonistic pleiotropy的意義在於在某種程度上也降低了種群的遷徙能力(地頭蛇一到外地分分鐘變菜雞),從而強化了本地化適應。這也解釋了人類育成的作物、畜禽某種程度上都比較嬌貴,對人類提供的環境非常依賴,在自然條件下毫無適應性。實際上就是人類育種選擇過程中,追求高產帶來的代價。如果不是antagonistic pleiotropy,某個優勢基因型在任何環境下都非常強勢,其就可能慢慢佔領其他的生態位,導致這個基因座逐漸固定(英文翻譯為fixed,指的是群體中僅僅保留一種基因型,其他基因型被淘汰)而失去了多樣性。
絕大部分我們關注的性狀(尤其是動植物的生產性狀)都與適應選擇有關。如何定位篩查這些與適應性性狀相關的基因,一直是基因組研究的熱點。
3.3 重測序QTL定位(多用於植物)
該方法選用的研究物件可以是具有極端性狀的一對品種雜交後獲得的近交重組系群體(RILs)或F2代群體,選擇群體中具有兩種不同極端性狀的20-50個個體分別構建DNA混池後進行重測序,通過對比兩個混池的SNP位點的測序深度相關的一個引數(SNP-index)來定位QTL。該方法能用於群體遺傳學研究,能快速識別人工選育及自然選擇發生的染色體區域。
同一性狀上表型相反的兩個品種作為親本,雜交後獲得F2代,再通過單粒傳自交至F7代,獲得近交重組系群體(RILs)。如果群體中此性狀的符合正態分佈,則說明此性狀關聯的基因座是數量性狀的,可以進行QTL分析。這裡,我們選擇這個群體中此性狀表型最明顯和最不明顯的個體作為研究物件,一般選擇20-50個個體分別混池,產生兩個池,分別為最強表型池和最弱表型池。然後對兩個混池分別進行重測序,採用的測序平臺為Illumina Genome Analyzer IIx,測序深度一般要大於6×,這兩個池所代表的的應該是某個基因組區域的兩個等位基因各自所對應的表型。由此,我們觀測來自兩個親本的基因組中的不平等表現,以此來識別導致兩個池性狀差異的含有QTL的基因組區域所在。
相對於植物來說,馴養動物繁殖率、遺傳週期等原因,構建群體所需時間較長,但可以
3.4 馴化過程與群體歷史動態(****群體遺傳(選擇壓力分析)****)
通過野生物種與馴化物種的基因組比較研究,可以發現與馴化相關的基因和區域,
中國蘭州大學劉建全和他的團隊,以及英國聖安德魯斯大學、荷蘭烏得勒支大學等研究機構的研究人員通過測序並且比較中國26個地區野犛牛和家養犛牛的全基因組遺傳變異圖譜分析認為,人們早在7300年前新石器早期的青藏高原就已馴化了野生犛牛,而馴化數量則在3600年前增長了約6倍。該項研究還估算出,犛牛種群大量增加和全新世晚期人類群體在此地理區域的擴散是同時發生的。
研究團隊發現,家養犛牛的基因組中表現出了遺傳選擇的跡象:大約有200個基因受到了人為的馴化選擇,這些選擇可能影響到了動物的行為,尤其是溫順性。而這種馴化基因與狗等其他馴化動物中發現的基因也十分相似(Qiu et al. 2015)。
3.5 起源、馴化、GWAS、群體進化(群體遺傳(選擇壓力分析))
物種的起源、馴化過程的研究將對。。。。
舉例:對歐洲、非洲、東亞南部和北部、中亞、西伯利亞和美洲等地分佈的58種犬科動物,包括12只灰狼、27只土犬和19只不同品種的犬進行了平均15×測序深度的重測序。
3.6 進行體細胞突變或生殖細胞突變研究(針對腫瘤、癌症、多年生植物優良表型等)
因此,我們在研究這些突變的起源,突變如何受到DNA修復機制的影響,以及在疾病發展與進化過程中突變的規律方面需要做深入的分析。自然選擇一般在兩個方面發揮作用,即保留有利於疾病發展進化的突變的同時限制其在基因組中重要功能區域發生突變,例如轉錄調控區域和編碼蛋白質的區域。因此,(1)如果實驗設計是將primary disease與normal control做比較的話,系統的分析可以解析複雜疾病在形成突變過程中可能的機制和自然選擇的因素。(2)如果實驗設計是基於病灶及其轉移位置或者鄰接位置樣本作測序,我們可以構建突變進化與轉移的模型解析突變的動態模式和基因組中不穩定態變異的模式。
遺傳性腫瘤——胚系突變檢測
尋找靶向藥物,腫瘤負荷監測等——體細胞突變檢測
通過高通量測序識別發現de novo的somatic和germ line 突變,結構變異-SNV,包括重排突變(deletioin, duplication 以及copy number variation)以及SNP的座位;針對重排突變和SNP的功能性進行綜合分析;我們將分析基因功能(包括miRNA),重組率(Recombination)情況,雜合性缺失(LOH)以及進化選擇與mutation之間的關係;以及這些關係將怎樣使得在disease(cancer)genome中的mutation產生對應的易感機制和功能。我們將在基因組學以及比較基因組學,群體遺傳學綜合層面上深入探索疾病基因組和癌症基因組。(Erquiaga et al. 2014)
三、參考資料
-
Bentley D.R. (2006) Whole-genome re-sequencing. Current Opinion in Genetics &Development 16, 545-52.
-
Casillas S. & Barbadilla A. (2017) Molecular PopulationGenetics. Genetics 205, 1003-35.
-
Erquiaga I., Hurtado C., Aranaz P., Novo F.J. & VizmanosJ.L. (2014) A simple approach for classifying new mutations as somatic orgerminal in DNA samples lacking paired tissue. Biotechniques 56, 327-9.
-
Heyer E. & Segurel L. (2010) Looking for signatures ofsex-specific demography and local adaptation on the X chromosome. Genome Biol. 11, 203.
-
Liu X., Pan J., Zhao Q., He X., Pu Y., Han J., Ma Y. &Jiang L. (2018) Detecting selection signatures on the X chromosome of theChinese Debao pony. J. Anim. Breed.Genet. 135, 84-92.
-
Lucotte E., Laurent R., Heyer E., Ségurel L. & ToupanceB. (2016) Detection of Allelic Frequency Differences between the Sexes inHumans: A Signature of Sexually Antagonistic Selection. Genome Biol Evol 8,1489-500.
-
Mcvicker G., Gordon D., Davis C. & Green P. (2009)Widespread Genomic Signatures of Natural Selection in Hominid Evolution. Plos Genetics 5, e1000471.
-
Qiu Q., Wang L., Wang K., Yang Y., Ma T., Wang Z., Zhang X.,Ni Z., Hou F. & Long R. (2015) Yak whole-genome resequencing revealsdomestication signatures and prehistoric population expansions. Nature Communications 6, 10283.
-
Savolainen O., Lascoux M. & Merilä J. (2013) Ecologicalgenomics of local adaptation. NatureReviews Genetics 14, 807.
-
Visscher P.M., Wray N.R., Zhang Q., Sklar P., Mccarthy M.I.,Brown M.A. & Yang J. (2017) 10 Years of GWAS Discovery: Biology, Function,and Translation. American Journal ofHuman Genetics 101, 5.
-
Yano K., Yamamoto E., Aya K., Takeuchi H., Lo P., Li H.,Yamasaki M., Yoshida S., Kitano H. & Hirano K. (2016) Genome-wideassociation study using whole-genome sequencing rapidly identifies new genesinfluencing agronomic traits in rice. NatureGenetics 48, 927.
-
Zhu C., Fan H., Yuan Z., Hu S., Zhang L., Wei C., Zhang Q.,Zhao F. & Du L. (2015) Detection of Selection Signatures on the XChromosome in Three Sheep Breeds. Int JMol Sci 16, 20360-74.
-
李寧 (2011) 動物遺傳學. 中國農業出版社.
-
劉雪雪, 阿地力江·卡德爾, 董坤哲, 王月月, 潘建飛, 浦亞斌, 何曉紅, 馬月輝 & 蔣琳 (2015) 德保矮馬X染色體選擇訊號篩選. 畜牧獸醫學報 46, 2161-8.
-
馬雲龍 (2015) 畜禽基因組選擇訊號檢測策略與應用研究. 中國農業大學.
-
馬雲龍, 張勤 & 丁向東 (2012) 利用高密度SNP 檢測不同豬品種間X 染色體選擇訊號. 遺傳 34, 1251-60.
-
吳常信 (2015) 動物遺傳學. 高等教育出版社.
-
吳仲賢編 (1961) 動物遺傳學. 南粵出版社.
-
張沅 (2001) 家畜育種學. 中國農業出版社.
-
章亮 & 蘇志煕 (2016) 位點致病性預測軟體對錯義突變的預測效用評估. 基因組學與應用生物學 35, 1916-25.