WES 平均測序深度
http://blog.csdn.net/guomutian911/article/details/70312973
1 基礎概念
平均測序深度:
指定區域內得到的所有堿基數目與該區域的長度的比值,如果是全基因組,就是整個測序的堿基數目除以基因組的大小。比如人類的基因組大小是3G(30億個堿基),我的全基因組測序共8.9億條150bp的reads,那麽全基因組範圍的平均測序深度就是8.9億*150/30億~45X,這個概念很重要!
覆蓋度:
指測序獲得的序列占整個基因組(或者指定區域)的比例。由於基因組中的高GC、重復序列等復雜結構的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區域,這部分沒有獲得的區域就稱為Gap。例如一個細菌基因組測序,覆蓋度是98 %,那麽還有2%的序列區域是沒有通過測序獲得的。
(你想實際測到的占你想測的區域比例。)
由於我們研究目的不一樣,通常我們不需要覆蓋到全基因組,所以就有了各種針對性的組學技術,也就是我們需要明白的!
2 理概念
理解了上面的測序深度和覆蓋度的概念,我們就可以根據它們來區分WGS,WES,RNA-seq組與ChIP-seq,簡單地說就是搞清楚這些組學要測什麽,而且測多深即可。
全外顯子(Whole-exome sequencing):
首先外顯子組(Exome)是指真核生物基因組中全部外顯子區域的總和,包含了蛋白質合成最直接的信息。外顯子 組測序(Exome-seq)是利用設計好的探針試劑盒將坐標已知的全基因組外顯子區域的DNA捕捉並富集後,進行高通量測序的基因組分析方法。 對於人類基因組來說,外顯子區域大概占到基因組的1%,大概在30M左右。
一般全外顯子測序的測序深度為50X~200X,具體深度依研究目的而定,其個體之間的變異小(在VCF文件上記錄著少許差異,一點點)。
轉錄組測序(RNA-seq):
首先轉錄組是指在相同環境(或生理條件)下的在一個細胞、或一群細胞中所能轉錄出的所有RNA的總和,包括信使RNA(mRNA)、核糖體RNA(rRNA)、轉運RNA(tRNA)及非編碼RNA。轉錄組測序(RNA-seq)是將提取所要研究的特定類型的RNA,將其反轉錄成cDNA,利用高通量測序技術獲得某一物種特定組織或器官在某一狀態下的幾乎所有轉錄本序列信息。對於已知參考基因組的物種,所獲得大部分序列是已知的,同時會有一些新的轉錄本會被檢測到,幾乎可以忽略;甚至處於不同狀態的人,其轉錄組數據有所不同。因此其主要的研究點——研究隨著時空的變化、組織的變化、樣本的變化,轉錄本發生改變。
染色質免疫共沈澱測序(ChIP-seq):
主要用於蛋白質與DNA相互作用研究,采用特異抗體對目的蛋白進行免疫沈澱,分離與目的蛋白結合的基因組DNA片段,對其進行純化和文庫構建,再通過高通量測序的方法,在全基因組範圍內尋找目的蛋白的DNA結合位點,從而獲得全基因組範圍內與組蛋白、轉錄因子等互作的DNA片段信息。(與外顯子測序不一樣,不是通過設計好的探針來捕獲序列的,而是通過特異的RNApoly酶、組蛋白、轉錄因子來捕獲序列的,蛋白結合在哪裏就捕獲哪裏。每做一次實驗,換一個蛋白,所捕獲的序列是不一樣的。)因此其主要研究點——研究用不同組蛋白、轉錄因子等不同蛋白來做不同的實驗,找出互作的DNA序列的不同。
3 明差異
測序範圍的區別:
全外顯子測序測的是所有的能被探針捕獲到的外顯子區域,在IGV上面能看到reads都是覆蓋到外顯子及其側翼區域。所以分析要點就是哪些已知的外顯子覆蓋度不夠好,是探針捕獲失敗還是樣本本身變異呢?外顯子的哪些區域跟參考基因組序列不一樣呢?
轉錄組測序測的是能被轉錄的區域,不需要是已知的外顯子,而且reads是可以跨越外顯子比對的!所以分析要點是哪些外顯子被連接起來了?每個外顯子都被覆蓋了嗎?
ChIP-seq測的是目標蛋白結合的DNA序列,取決於目標蛋白的結合能力,所以它的分析要點就是這些DNA序列在基因組的位置。
測序深度的區別:
全外顯子測序的測序深度在大部分區域都是均勻的(反應捕獲效果,或者拷貝數變異);
轉錄組測序一定是不均勻的,以外顯子為單位的不均勻(反應表達量差異);
染色質免疫共沈澱測序的測序深度也是不均勻的,以每個堿基為單位的不均勻(反應蛋白結合位點);
WES 平均測序深度