文獻閱讀 | The International HapMap Project
†The International HapMap Consortium., Genotyping centres: Baylor College of Medicine and ParAllele BioScience., Gibbs, R. et al. The International HapMap Project. Nature 426, 789–796 (2003). https://doi.org/10.1038/nature02168
本文是一篇綜述性文章,介紹了HapMap工作。作者團隊建立了國際HapMap專案,以尋找人類基因組中DNA序列變異的常見模式。國際HapMap專案的目的是通過表徵非洲,亞洲和歐洲部分地區祖先群體的DNA樣本中的序列變異,其頻率以及它們之間的相關性,來確定人類基因組中DNA序列變異的常見模式
相較於直接對患者進行全基因組測序來獲取變異資訊這一“直接方法”,來自人類群體遺傳學的兩個見解表明,通過僅限於對潛在疾病相關候選變體的候選基因功能部分(基於先前的功能或遺傳假設進行選擇)進行測序
的間接方法(來獲知特定基因組區域與疾病之間的關聯)
相對於直接方法能夠在捕獲大多數人類序列變異的基礎上效率更高:
- 首先,個體中約90%的序列變異是由於共同的變異
- 其次,這些基因大多數最初是由歷史上的單個突變事件引起的,因此其與祖先染色體上附近發生的突變會有關聯
- 這一關聯可用於開發SNP marker。“祖先染色體上附近發生的突變位點”未必需要具有功能,其本身的存在與否即可反映出某種與疾病相關的變異的存在與否。
“標籤SNP”與HapMap的概念和經驗基礎
圖中,(a)代表染色體上6,000bp長度中大部分位點基因型是一樣的,(b)表示將6kbp上所有SNP位點彙集在一起,區分出了單倍型,(c)代表僅通過3個標籤SNP就能辨別出四種單倍型而不用測定全部位點。
SNP等位基因在這些單倍型上的一致性會導致群體中這些等位基因之間的關聯(稱為連鎖不平衡,LD)。因為兩個SNP之間重組的可能性隨它們之間的距離增加,所以平均而言,SNP之間的這種關聯隨距離下降。
許多經驗研究顯示在人類基因組上LD的高度顯著水平,以及相近的SNP之間經常強關聯。這些強關聯意味著,在許多染色體區域只有少數的單倍型,而這些單倍型覆蓋了群體在這些區間上的大多數變異型別。通過使用基因組中存在的LD的知識,可以在不損失資訊的情況下實現基因分型量的顯著減少。
一個區域中SNP之間的強關聯具有實用價值:對該區域中少數幾個經過精心選擇的SNP進行基因分型將提供足夠的資訊,以預測有關該區域其餘普通SNP的許多資訊。其結果是,只有少數“標籤”SNP能夠滿足確定一個區域中的每個的常見單倍型的要求。
對於通常比稀有SNP歷史更為久遠的普通SNP,LD的模式在很大程度上反映了歷史重組和人口統計事件。一些重組事件的“熱點”重複發生。這些過程的結果是,當前染色體是祖先染色體區域的鑲嵌圖。這解釋了以下觀察結果:LD的單倍型和模式由種群內以及通常在種群之間的明顯無關的染色體共享。
基因分型
每個基因分型中心負責對分配的染色體區域上所有選定SNP的所有樣本進行基因分型。在這些中心中,總共使用了五種高通量基因分型技術,這將為比較它們的準確性,成功率,通量和成本提供機會。
在專案開始時,為所有中心分配了相同的隨機選擇的1500個SNP,用於在用於該專案的90個CEPH DNA樣品中進行分析開發和基因分型。基因分型中心產生的資料平均完成率超過99.2%,準確率超過99.5%(與至少兩個其他平臺的共識相比)。
其次,每個基因分型實驗均包括用於內部質量檢查的樣品,每個96孔板均包含五個不同樣品的重複樣品和一個空白。此外,來自trios的資料可檢查SNP等位基因的孟德爾遺傳是否一致。對於所有種群,無關樣本的資料可檢查SNP是否處於Hardy-Weinberg平衡狀態(遺傳交配模式的檢驗)。儘管一小部分SNP可能出於生物學原因未能通過這些檢查,但如果基因分型平臺出現一致的錯誤(例如召回雜合子),則它們更通常會失敗。
第三,將隨機選擇每個中心儲存的SNP基因型樣本,並由其他中心重新進行基因分型。
這些嚴格的第三方質量評估將確保專案產生的資料的完整性和可靠性。
資料分析
該專案將採用現有和新方法來分析和顯示資料。對於成對的marker間,LD將使用標準的措施,例如來計算\(d'\),\(r^2\)等。各種方法正在定義沿染色體的高LD和單倍型區域上被評估。現有的方法包括 ‘sliding window’ LD profiles
, LD unit maps
, haplotype blocks
和沿染色體的減數分裂重組率的估計
。
在專案的第一階段對LD進行分析後,將確定LD很少或沒有LD的區域,並對其進行排名,以進行進一步的SNP選擇和基因分型。未來將將開發和評估選擇標記SNP的最佳集合的方法,以提供資料檢視和標記SNP。
當HapMap用於檢查較大的基因組區域時,對數萬至數十萬的SNP和單倍型進行疾病關聯測試將產生多重比較的問題。這將導致難以區分真假結果。因此,新的統計方法,變異的複製研究和功能分析對於確認發現和識別功能上重要的SNP至關重要。