1. 程式人生 > >xgene:之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA

xgene:之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA

會有 模板 pat 活動 fff 1.5 科學家 因子 染色

靈敏度高 == 假陰性率低,即漏檢率低,即有病人卻沒有發現出來的概率低。

用於判斷:有一部分人患有一種疾病,某種檢驗方法可以在人群中檢出多少個病人來。

特異性高 == 假陽性率低,即錯把健康判定為病人的概率低。

用於:被某種試驗判定為患病的人中,又有多少是真的患了這種病的。

好的檢測方法:有高的靈敏度(低的假陰性率)、同時又有高的特異性(低的假陽性率)。

ROC 曲線:

橫軸:100 — 特異性。。即100減去特異性,特異性高,100減去特異性就低,故越小越好。

縱軸:靈敏度值。

ROC分析圖的解讀原則:

    1. 曲線越是靠近整個圖的左上方,方法越優

    2. 越是接近對角線,方法越差

    3. 評價的客觀標準

      曲線下方的面積占整個圖的面積比例。即AUC(曲線下面積,Area Under Curve,AUC)。面積比例越接近1,方法越好;面積比例越接近0.5,方法越差。

ctDNA

循環腫瘤DNA,英文叫:circulating tumor DNA,簡稱ctDNA。對ctDNA進行測序,是目前很火的Liquid Biopsy(液體活檢)中的一種。

意義

首先,我們來說一下ctDNA測序的臨床意義。

  • 第一,就是它可以減少病人的開刀痛苦,只要抽血,不必開刀,就可以做檢測。

  • 第二,是它可以增加可檢測的病人範圍,對於不適合做開刀手術的病人。例如,已經發生腫瘤全身轉移的病人。也可以用測ctDNA的方法來測腫瘤的基因突變。

  • 第三,是因為它只要抽血(而不必開刀)。所以它可以應用於腫瘤病人的病情隨訪,並可以多次取樣。

原理

正常細胞和腫瘤細胞都會破裂,細胞破裂之後,細胞中的DNA就會被釋放到體液當中去。其中進入血液的這部分DNA,就稱為血液遊離DNA。那麽,它也被稱作血漿遊離DNA,或者cell free DNA,簡稱cfDNA。 這些DNA片段的長度主要集中在100BP~240BP之間,大部分在170bp左右

把血液當中遊離的DNA抽提出來,建成DNA測序的文庫。用探針雜交、或者PCR擴增等方法,把其中與腫瘤相關的DNA富集出來,進行高通量測序。再進行數據分析,看哪些基因有突變。接著根據基因突變的信息,來決定治療方法

難點

第一,在血漿遊離DNA中,ctDNA只占很小的一部分,大約只有萬分之幾到千分之幾。其余都是正常細胞的DNA。但是要檢測到千分之幾、萬分之幾的突變,總是一件困難的事情

第二,血液當中的遊離DNA量很少,大約每一毫升的血漿當中,只會有十幾納克(ng)的遊離DNA。1個ng的基因組DNA,相當於來源於300個細胞的DNA量。

目前國內做ctDNA測序的科研實踐當中,一次抽10個毫升的血,可分離約5到6毫升的血漿。從中可以抽提到約 50ng~60ng 的遊離DNA。60個ng的DNA,約來自18000個細胞的基因組DNA。

實驗設計

在整個 ctDNA 測序的實踐過程當中,所有的實驗步驟,都是圍繞上述2個難點,來進行設計的。

首先,我們來說采血。

第二步,是抽提血漿遊離DNA。有一個專門用來抽提血漿遊離DNA的專用試劑盒。

第三步,是用抽提好的DNA來構建文庫。

第四步,是用捕獲試劑盒來對文庫進行雜交捕獲。設計一個針對腫瘤相關基因的捕獲 Panel。

第五步,捕獲好的文庫,用高保真聚合酶進行擴增。文庫的PCR擴增,對 PCR 擴增產物進行純化。

第六步,高通量DNA測序,ctDNA 的測序深度是非常深的。一般情況下,會測到上萬倍、甚至幾萬倍的測序深度。

第七步,是把測序得到的序列,進行生物信息學分析。在ctDNA的數據分析當中,有一些與傳統的捕獲測序分析過程不一樣的參數設定。

第一,就是去除 duplicaton 的過濾條件是不一樣的。因為 ctDNA 的測序深度達到上萬倍,所以會有大量的 duplication。高達50%~70%。

第二,是判定點突變(SNV),要這個突變的堿基的測序的質量值高於30,才確定這個突變是一個真的突變(SNV),也就提高了檢測分析結果的特異性。

所謂duplication,就是因為上機測序前的 PCR 擴增,導致一個原始的模板復制出許多個拷貝來。這些復制出來的拷貝,被測序過程多次測到,這就叫 duplication。

small RNA-seq

包括了micro RNA / tRNA / piRNA等一系列的、片段比較短的RNA。其中micro RNA因為其基因數量眾多,同時表達量變化豐富,是近10年來的一個研究重點。

small RNA生物信息分析的

  1. 首先,是把測序的序列進行過濾。也就是把引物二聚體、和含有多個N的這些序列去掉。
  2. 然後,就是統計各種長度的small RNA各有多少條
  3. 接下來,就是把small RNA,比對到參考基因組上。
  4. 把這些序列和已知的small RNA數據庫進行比對。有名的small RNA數據庫是miRBase,目前這個數據庫已經收錄了2000多條人源的micro RNA基因。

在對人源樣本的測序過程當中,大家最關心的主要是micro RNA和piRNA,這2種small RNA。還會測到rRNA的碎片和tRNA的序列。因為其十分保守的,一般不是關註的重點。

對表達量的分析

對已知small RNA的分析,主要是對表達量的分析。

用火山圖,則可以整體地觀察兩個樣本之間的表達差異。

聚類分析,則可以幫助我們直觀地觀察,一批樣本當中,哪些樣本有共同的表達特征。又有哪些small RNA基因有相似、相近的表達量。通過聚類分析,我們可以觀察到樣本內在的共同特征。

靶基因 GO 和 Pathway 分析

通過GO分析,表達差異被富集到分類的GO的子項目當中,柱子越高,則表示差異越明顯。可知“生物過程”、“分子功能”、和“細胞組件”的哪些環節出現了明顯的差異。

KEGG富集的程度,通過富集因子、Qvalue、和富集到此通路上的基因個數,來進行衡量。點的面積越大,則富集的基因數越多,富集因子越大,則表示富集的程度越大。

尋找新的 micro RNA 基因

一般是測序測到新的、有發夾結構的microRNA前體的序列,同時測到對應的成熟的micro RNA序列,並且在基因組上找到了對應的基因序列,這樣,大體上就判斷(可能是)找到了一個新的micro RNA基因了。

甲基化seq,視頻12

DNA的甲基化是在DNA的序列不變的條件下,在其中某些堿基上加上甲基的這樣一個過程。

甲基化的結果是,使甲基化位點的下遊的基因表達量變少。

核心化學反應,是用亞硫酸氫鹽來處理DNA。DNA當中,沒有甲基化或羥甲基化的C堿基,就會被轉化成U堿基。

再通過PCR,PCR新合成出來的鏈,U堿基的位置,就會被替換成了“T”。在接下來的測序過程中,測到的也是T堿基。而甲基化的C,在接下來的測序過程中,被測到的,還是“C”堿基。故可區分。

亦可以加一步,區分“羥”甲基化和甲基化。

數據分析(沒看懂)

  • 因為亞硫酸氫鹽處理過後,絕大部分的C都被轉化成了T。這樣,測出來的序列在和基因組進行對比的時侯,直接對比是對比不上的。
  • 為了要進行比對,就要把基因組的堿基做兩種轉變。
  • 第一種轉變是把基因組上所有的C都改到T,再來和測序測到的序列來對比。這樣,就可以把原來的鏈給對比上。
  • 第二種轉變,是把基因組上所有的G都變成A,這樣才能和經過PCR得到的原樣本鏈睥互補鏈對比得上。這樣做的原因,是原樣本鏈的互被鏈,它上面絕大部分的G,都被變成了A。所以,只有把(參考)基因組上的G,也都改成A,這樣才能對比得上。
  • 比對上之後,再來看哪些堿基是沒有被轉化的。這樣,就可以確認這些堿基的甲基化修飾情況了。
  • 再接下來,針對基因進行GO和Pathway的分析。

單細胞DNA, mRNA 10,11

單細胞測序三個難題

要實現從一個細胞樣本測出全基因組的DNA序列,至少要克服以下3個難題:

    1. 第1個,就是如何實現均勻擴增,
    2. 第2個難題,就是 全基因組覆蓋問題。
    3. 第3個難題,是這種方法要有較高的擴增效率。

兩種方法:

為了解決上述的難題,科學家想了許多的辦法。到目前為止,大家比較認可的方法有兩種:

    1. MALBAC方法。Multiple Annealing and Looping-Based Amplification Cycles。
    2. MDA方法。Multiple Displacement Amplification。

廣泛的應用前景:

目前最主要2個應用:1個是在胚胎植入前進行基因拷貝數變異檢測。第2個,是進行腫瘤的染色體變異研究。

單細胞mRNA-seq

目前市場主要有2種建庫方法,

  1. Clontech公司推出的SMART法,
  2. EpiCentre公司推出的TargetAmp方法。

第一個難題:PCR偏差

所謂PCR偏差,就是在PCR擴增過程當中,某些片段被大量擴增,而大部分片段被擴增的量很少,甚至根本就沒有被擴增。結果就導致高通量測序,只能測到這所有樣本當中很少一部分的片段序列。

PCR偏差會隨著PCR循環的次數的增多而指數放大。那麽,在這種情況下,一方面要把核酸擴增幾百萬倍,甚至更多的倍數;另一方面,又想得到均一覆蓋的文庫,這就是單細胞mRNA建庫當中,所要解決的第一個大難題。

第二個難題:去除核糖體RNA

因為rRNA在總RNA當中占了95%,甚至更高的比例,而mRNA在總RNA當中只占2~3%的比例。如果不加區分地進行逆轉錄,再擴增、建庫很可能測序得到的絕大部分序列都是rRNA的序列。

如何能夠選擇性地把mRNA轉化成測序文庫,並且避免把rRNA帶到測序文庫中來,這就是單細胞mRNA測序當中,要解決的第二個大難題。

應用:

單細胞mRNA測序方法,在循環腫瘤細胞研究、胚胎發育研究、和神經活動研究方面,有著廣泛的應用。

xgene:之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA