xgene:之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA
靈敏度高 == 假陰性率低,即漏檢率低,即有病人卻沒有發現出來的概率低。
用於判斷:有一部分人患有一種疾病,某種檢驗方法可以在人群中檢出多少個病人來。
特異性高 == 假陽性率低,即錯把健康判定為病人的概率低。
用於:被某種試驗判定為患病的人中,又有多少是真的患了這種病的。
好的檢測方法:有高的靈敏度(低的假陰性率)、同時又有高的特異性(低的假陽性率)。
ROC 曲線:
橫軸:100 — 特異性。。即100減去特異性,特異性高,100減去特異性就低,故越小越好。
縱軸:靈敏度值。
ROC分析圖的解讀原則:
-
曲線越是靠近整個圖的左上方,方法越優;
-
越是接近對角線,方法越差;
-
評價的客觀標準
-
ctDNA
循環腫瘤DNA,英文叫:circulating tumor DNA,簡稱ctDNA。對ctDNA進行測序,是目前很火的Liquid Biopsy(液體活檢)中的一種。
意義
首先,我們來說一下ctDNA測序的臨床意義。
-
第一,就是它可以減少病人的開刀痛苦,只要抽血,不必開刀,就可以做檢測。
-
第二,是它可以增加可檢測的病人範圍,對於不適合做開刀手術的病人。例如,已經發生腫瘤全身轉移的病人。也可以用測ctDNA的方法來測腫瘤的基因突變。
-
第三,是因為它只要抽血(而不必開刀)。所以它可以應用於腫瘤病人的病情隨訪,並可以多次取樣。
原理
正常細胞和腫瘤細胞都會破裂,細胞破裂之後,細胞中的DNA就會被釋放到體液當中去。其中進入血液的這部分DNA,就稱為血液遊離DNA。那麽,它也被稱作血漿遊離DNA,或者cell free DNA,簡稱cfDNA。 這些DNA片段的長度主要集中在100BP~240BP之間,大部分在170bp左右,
把血液當中遊離的DNA抽提出來,建成DNA測序的文庫。用探針雜交、或者PCR擴增等方法,把其中與腫瘤相關的DNA富集出來,進行高通量測序。再進行數據分析,看哪些基因有突變。接著根據基因突變的信息,來決定治療方法
難點
第一,在血漿遊離DNA中,ctDNA只占很小的一部分,大約只有萬分之幾到千分之幾。其余都是正常細胞的DNA。但是要檢測到千分之幾、萬分之幾的突變,總是一件困難的事情
第二,血液當中的遊離DNA量很少,大約每一毫升的血漿當中,只會有十幾納克(ng)的遊離DNA。1個ng的基因組DNA,相當於來源於300個細胞的DNA量。
目前國內做ctDNA測序的科研實踐當中,一次抽10個毫升的血,可分離約5到6毫升的血漿。從中可以抽提到約 50ng~60ng 的遊離DNA。60個ng的DNA,約來自18000個細胞的基因組DNA。
實驗設計
在整個 ctDNA 測序的實踐過程當中,所有的實驗步驟,都是圍繞上述2個難點,來進行設計的。
首先,我們來說采血。
第二步,是抽提血漿遊離DNA。有一個專門用來抽提血漿遊離DNA的專用試劑盒。
第三步,是用抽提好的DNA來構建文庫。
第四步,是用捕獲試劑盒來對文庫進行雜交捕獲。設計一個針對腫瘤相關基因的捕獲 Panel。
第五步,捕獲好的文庫,用高保真聚合酶進行擴增。文庫的PCR擴增,對 PCR 擴增產物進行純化。
第六步,高通量DNA測序,ctDNA 的測序深度是非常深的。一般情況下,會測到上萬倍、甚至幾萬倍的測序深度。
第七步,是把測序得到的序列,進行生物信息學分析。在ctDNA的數據分析當中,有一些與傳統的捕獲測序分析過程不一樣的參數設定。
第一,就是去除 duplicaton 的過濾條件是不一樣的。因為 ctDNA 的測序深度達到上萬倍,所以會有大量的 duplication。高達50%~70%。
第二,是判定點突變(SNV),要這個突變的堿基的測序的質量值高於30,才確定這個突變是一個真的突變(SNV),也就提高了檢測分析結果的特異性。
所謂duplication,就是因為上機測序前的 PCR 擴增,導致一個原始的模板復制出許多個拷貝來。這些復制出來的拷貝,被測序過程多次測到,這就叫 duplication。
small RNA-seq
包括了micro RNA / tRNA / piRNA等一系列的、片段比較短的RNA。其中micro RNA因為其基因數量眾多,同時表達量變化豐富,是近10年來的一個研究重點。
small RNA生物信息分析的
- 首先,是把測序的序列進行過濾。也就是把引物二聚體、和含有多個N的這些序列去掉。
- 然後,就是統計各種長度的small RNA各有多少條。
- 接下來,就是把small RNA,比對到參考基因組上。
- 把這些序列和已知的small RNA數據庫進行比對。有名的small RNA數據庫是miRBase,目前這個數據庫已經收錄了2000多條人源的micro RNA基因。
在對人源樣本的測序過程當中,大家最關心的主要是micro RNA和piRNA,這2種small RNA。還會測到rRNA的碎片和tRNA的序列。因為其十分保守的,一般不是關註的重點。
對表達量的分析
對已知small RNA的分析,主要是對表達量的分析。
用火山圖,則可以整體地觀察兩個樣本之間的表達差異。
聚類分析,則可以幫助我們直觀地觀察,一批樣本當中,哪些樣本有共同的表達特征。又有哪些small RNA基因有相似、相近的表達量。通過聚類分析,我們可以觀察到樣本內在的共同特征。
靶基因 GO 和 Pathway 分析
通過GO分析,表達差異被富集到分類的GO的子項目當中,柱子越高,則表示差異越明顯。可知“生物過程”、“分子功能”、和“細胞組件”的哪些環節出現了明顯的差異。
KEGG富集的程度,通過富集因子、Qvalue、和富集到此通路上的基因個數,來進行衡量。點的面積越大,則富集的基因數越多,富集因子越大,則表示富集的程度越大。
尋找新的 micro RNA 基因
一般是測序測到新的、有發夾結構的microRNA前體的序列,同時測到對應的成熟的micro RNA序列,並且在基因組上找到了對應的基因序列,這樣,大體上就判斷(可能是)找到了一個新的micro RNA基因了。
甲基化seq,視頻12
DNA的甲基化是在DNA的序列不變的條件下,在其中某些堿基上加上甲基的這樣一個過程。
甲基化的結果是,使甲基化位點的下遊的基因表達量變少。
核心化學反應,是用亞硫酸氫鹽來處理DNA。DNA當中,沒有甲基化或羥甲基化的C堿基,就會被轉化成U堿基。
再通過PCR,PCR新合成出來的鏈,U堿基的位置,就會被替換成了“T”。在接下來的測序過程中,測到的也是T堿基。而甲基化的C,在接下來的測序過程中,被測到的,還是“C”堿基。故可區分。
亦可以加一步,區分“羥”甲基化和甲基化。
數據分析(沒看懂)
- 因為亞硫酸氫鹽處理過後,絕大部分的C都被轉化成了T。這樣,測出來的序列在和基因組進行對比的時侯,直接對比是對比不上的。
- 為了要進行比對,就要把基因組的堿基做兩種轉變。
- 第一種轉變是把基因組上所有的C都改到T,再來和測序測到的序列來對比。這樣,就可以把原來的鏈給對比上。
- 第二種轉變,是把基因組上所有的G都變成A,這樣才能和經過PCR得到的原樣本鏈睥互補鏈對比得上。這樣做的原因,是原樣本鏈的互被鏈,它上面絕大部分的G,都被變成了A。所以,只有把(參考)基因組上的G,也都改成A,這樣才能對比得上。
- 比對上之後,再來看哪些堿基是沒有被轉化的。這樣,就可以確認這些堿基的甲基化修飾情況了。
- 再接下來,針對基因進行GO和Pathway的分析。
單細胞DNA, mRNA 10,11
單細胞測序三個難題
要實現從一個細胞樣本測出全基因組的DNA序列,至少要克服以下3個難題:
- 第1個,就是如何實現均勻擴增,
- 第2個難題,就是 全基因組覆蓋問題。
- 第3個難題,是這種方法要有較高的擴增效率。
兩種方法:
為了解決上述的難題,科學家想了許多的辦法。到目前為止,大家比較認可的方法有兩種:
- MALBAC方法。Multiple Annealing and Looping-Based Amplification Cycles。
- MDA方法。Multiple Displacement Amplification。
廣泛的應用前景:
目前最主要2個應用:1個是在胚胎植入前進行基因拷貝數變異檢測。第2個,是進行腫瘤的染色體變異研究。
單細胞mRNA-seq
目前市場主要有2種建庫方法,
- Clontech公司推出的SMART法,
- EpiCentre公司推出的TargetAmp方法。
第一個難題:PCR偏差
所謂PCR偏差,就是在PCR擴增過程當中,某些片段被大量擴增,而大部分片段被擴增的量很少,甚至根本就沒有被擴增。結果就導致高通量測序,只能測到這所有樣本當中很少一部分的片段序列。
PCR偏差會隨著PCR循環的次數的增多而指數放大。那麽,在這種情況下,一方面要把核酸擴增幾百萬倍,甚至更多的倍數;另一方面,又想得到均一覆蓋的文庫,這就是單細胞mRNA建庫當中,所要解決的第一個大難題。
第二個難題:去除核糖體RNA
因為rRNA在總RNA當中占了95%,甚至更高的比例,而mRNA在總RNA當中只占2~3%的比例。如果不加區分地進行逆轉錄,再擴增、建庫很可能測序得到的絕大部分序列都是rRNA的序列。
如何能夠選擇性地把mRNA轉化成測序文庫,並且避免把rRNA帶到測序文庫中來,這就是單細胞mRNA測序當中,要解決的第二個大難題。
應用:
單細胞mRNA測序方法,在循環腫瘤細胞研究、胚胎發育研究、和神經活動研究方面,有著廣泛的應用。
xgene:之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA