xgene：之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA

阿新 • • 發佈：2017-09-04

會有模板 pat 活動 fff 1.5 科學家因子染色

靈敏度高 == 假陰性率低，即漏檢率低，即有病人卻沒有發現出來的概率低。

用於判斷：有一部分人患有一種疾病，某種檢驗方法可以在人群中檢出多少個病人來。

特異性高 == 假陽性率低，即錯把健康判定為病人的概率低。

用於：被某種試驗判定為患病的人中，又有多少是真的患了這種病的。

好的檢測方法：有高的靈敏度（低的假陰性率）、同時又有高的特異性（低的假陽性率）。

ROC 曲線：

橫軸：100 — 特異性。。即100減去特異性，特異性高，100減去特異性就低，故越小越好。

縱軸：靈敏度值。

ROC分析圖的解讀原則：

1. 曲線越是靠近整個圖的左上方，方法越優；
2. 越是接近對角線，方法越差；
3. 評價的客觀標準
  
  是曲線下方的面積占整個圖的面積比例。即AUC（曲線下面積，Area Under Curve,AUC)。面積比例越接近1，方法越好；面積比例越接近0.5，方法越差。

ctDNA

循環腫瘤DNA，英文叫：circulating tumor DNA，簡稱ctDNA。對ctDNA進行測序，是目前很火的Liquid Biopsy（液體活檢）中的一種。

意義

首先，我們來說一下ctDNA測序的臨床意義。

第一，就是它可以減少病人的開刀痛苦，只要抽血，不必開刀，就可以做檢測。
第二，是它可以增加可檢測的病人範圍，對於不適合做開刀手術的病人。例如，已經發生腫瘤全身轉移的病人。也可以用測ctDNA的方法來測腫瘤的基因突變。
第三，是因為它只要抽血（而不必開刀）。所以它可以應用於腫瘤病人的病情隨訪，並可以多次取樣。

原理

正常細胞和腫瘤細胞都會破裂，細胞破裂之後，細胞中的DNA就會被釋放到體液當中去。其中進入血液的這部分DNA，就稱為血液遊離DNA。那麽，它也被稱作血漿遊離DNA，或者cell free DNA，簡稱cfDNA。這些DNA片段的長度主要集中在100BP~240BP之間，大部分在170bp左右，

把血液當中遊離的DNA抽提出來，建成DNA測序的文庫。用探針雜交、或者PCR擴增等方法，把其中與腫瘤相關的DNA富集出來，進行高通量測序。再進行數據分析，看哪些基因有突變。接著根據基因突變的信息，來決定治療方法

。

難點

第一，在血漿遊離DNA中，ctDNA只占很小的一部分，大約只有萬分之幾到千分之幾。其余都是正常細胞的DNA。但是要檢測到千分之幾、萬分之幾的突變，總是一件困難的事情

第二，血液當中的遊離DNA量很少，大約每一毫升的血漿當中，只會有十幾納克（ng）的遊離DNA。1個ng的基因組DNA，相當於來源於300個細胞的DNA量。

目前國內做ctDNA測序的科研實踐當中，一次抽10個毫升的血，可分離約5到6毫升的血漿。從中可以抽提到約 50ng~60ng 的遊離DNA。60個ng的DNA，約來自18000個細胞的基因組DNA。

實驗設計

在整個 ctDNA 測序的實踐過程當中，所有的實驗步驟，都是圍繞上述2個難點，來進行設計的。

首先，我們來說采血。

第二步，是抽提血漿遊離DNA。有一個專門用來抽提血漿遊離DNA的專用試劑盒。

第三步，是用抽提好的DNA來構建文庫。

第四步，是用捕獲試劑盒來對文庫進行雜交捕獲。設計一個針對腫瘤相關基因的捕獲 Panel。

第五步，捕獲好的文庫，用高保真聚合酶進行擴增。文庫的PCR擴增，對 PCR 擴增產物進行純化。

第六步，高通量DNA測序，ctDNA 的測序深度是非常深的。一般情況下，會測到上萬倍、甚至幾萬倍的測序深度。

第七步，是把測序得到的序列，進行生物信息學分析。在ctDNA的數據分析當中，有一些與傳統的捕獲測序分析過程不一樣的參數設定。

第一，就是去除 duplicaton 的過濾條件是不一樣的。因為 ctDNA 的測序深度達到上萬倍，所以會有大量的 duplication。高達50%~70%。

第二，是判定點突變（SNV），要這個突變的堿基的測序的質量值高於30，才確定這個突變是一個真的突變（SNV），也就提高了檢測分析結果的特異性。

所謂duplication，就是因為上機測序前的 PCR 擴增，導致一個原始的模板復制出許多個拷貝來。這些復制出來的拷貝，被測序過程多次測到，這就叫 duplication。

small RNA-seq

包括了micro RNA / tRNA / piRNA等一系列的、片段比較短的RNA。其中micro RNA因為其基因數量眾多，同時表達量變化豐富，是近10年來的一個研究重點。

small RNA生物信息分析的

首先，是把測序的序列進行過濾。也就是把引物二聚體、和含有多個N的這些序列去掉。
然後，就是統計各種長度的small RNA各有多少條。
接下來，就是把small RNA，比對到參考基因組上。
把這些序列和已知的small RNA數據庫進行比對。有名的small RNA數據庫是miRBase，目前這個數據庫已經收錄了2000多條人源的micro RNA基因。

在對人源樣本的測序過程當中，大家最關心的主要是micro RNA和piRNA，這2種small RNA。還會測到rRNA的碎片和tRNA的序列。因為其十分保守的，一般不是關註的重點。

對表達量的分析

對已知small RNA的分析，主要是對表達量的分析。

用火山圖，則可以整體地觀察兩個樣本之間的表達差異。

聚類分析，則可以幫助我們直觀地觀察，一批樣本當中，哪些樣本有共同的表達特征。又有哪些small RNA基因有相似、相近的表達量。通過聚類分析，我們可以觀察到樣本內在的共同特征。

靶基因 GO 和 Pathway 分析

通過GO分析，表達差異被富集到分類的GO的子項目當中，柱子越高，則表示差異越明顯。可知“生物過程”、“分子功能”、和“細胞組件”的哪些環節出現了明顯的差異。

KEGG富集的程度，通過富集因子、Qvalue、和富集到此通路上的基因個數，來進行衡量。點的面積越大，則富集的基因數越多，富集因子越大，則表示富集的程度越大。

尋找新的 micro RNA 基因

一般是測序測到新的、有發夾結構的microRNA前體的序列，同時測到對應的成熟的micro RNA序列，並且在基因組上找到了對應的基因序列，這樣，大體上就判斷（可能是）找到了一個新的micro RNA基因了。

甲基化seq，視頻12

DNA的甲基化是在DNA的序列不變的條件下，在其中某些堿基上加上甲基的這樣一個過程。

甲基化的結果是，使甲基化位點的下遊的基因表達量變少。

核心化學反應，是用亞硫酸氫鹽來處理DNA。DNA當中，沒有甲基化或羥甲基化的C堿基，就會被轉化成U堿基。

再通過PCR，PCR新合成出來的鏈，U堿基的位置，就會被替換成了“T”。在接下來的測序過程中，測到的也是T堿基。而甲基化的C，在接下來的測序過程中，被測到的，還是“C”堿基。故可區分。

亦可以加一步，區分“羥”甲基化和甲基化。

數據分析（沒看懂）

因為亞硫酸氫鹽處理過後，絕大部分的C都被轉化成了T。這樣，測出來的序列在和基因組進行對比的時侯，直接對比是對比不上的。
為了要進行比對，就要把基因組的堿基做兩種轉變。
第一種轉變是把基因組上所有的C都改到T，再來和測序測到的序列來對比。這樣，就可以把原來的鏈給對比上。
第二種轉變，是把基因組上所有的G都變成A，這樣才能和經過PCR得到的原樣本鏈睥互補鏈對比得上。這樣做的原因，是原樣本鏈的互被鏈，它上面絕大部分的G，都被變成了A。所以，只有把（參考）基因組上的G，也都改成A，這樣才能對比得上。
比對上之後，再來看哪些堿基是沒有被轉化的。這樣，就可以確認這些堿基的甲基化修飾情況了。
再接下來，針對基因進行GO和Pathway的分析。

單細胞DNA, mRNA 10，11

單細胞測序三個難題

要實現從一個細胞樣本測出全基因組的DNA序列，至少要克服以下3個難題：

1. 第1個，就是如何實現均勻擴增，
2. 第2個難題，就是全基因組覆蓋問題。
3. 第3個難題，是這種方法要有較高的擴增效率。

兩種方法：

為了解決上述的難題，科學家想了許多的辦法。到目前為止，大家比較認可的方法有兩種：

1. MALBAC方法。Multiple Annealing and Looping-Based Amplification Cycles。
2. MDA方法。Multiple Displacement Amplification。

廣泛的應用前景：

目前最主要2個應用：1個是在胚胎植入前進行基因拷貝數變異檢測。第2個，是進行腫瘤的染色體變異研究。

單細胞mRNA-seq

目前市場主要有2種建庫方法，

Clontech公司推出的SMART法，
EpiCentre公司推出的TargetAmp方法。

第一個難題：PCR偏差

所謂PCR偏差，就是在PCR擴增過程當中，某些片段被大量擴增，而大部分片段被擴增的量很少，甚至根本就沒有被擴增。結果就導致高通量測序，只能測到這所有樣本當中很少一部分的片段序列。

PCR偏差會隨著PCR循環的次數的增多而指數放大。那麽，在這種情況下，一方面要把核酸擴增幾百萬倍，甚至更多的倍數；另一方面，又想得到均一覆蓋的文庫，這就是單細胞mRNA建庫當中，所要解決的第一個大難題。

第二個難題：去除核糖體RNA

因為rRNA在總RNA當中占了95%，甚至更高的比例，而mRNA在總RNA當中只占2~3%的比例。如果不加區分地進行逆轉錄，再擴增、建庫很可能測序得到的絕大部分序列都是rRNA的序列。

如何能夠選擇性地把mRNA轉化成測序文庫，並且避免把rRNA帶到測序文庫中來，這就是單細胞mRNA測序當中，要解決的第二個大難題。

應用：

單細胞mRNA測序方法，在循環腫瘤細胞研究、胚胎發育研究、和神經活動研究方面，有著廣泛的應用。

xgene：之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA

會有模板 pat 活動 fff 1.5 科學家因子染色靈敏度高 == 假陰性率低，即漏檢率低，即有病人卻沒有發現出來的概率低。用於判斷：有一部分人患有一種疾病，某種檢驗方法可以在人群中檢出多少個病人來。特異性高 == 假陽性率低，即錯把健康判定為病人的概率低

xgene：之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA

ctDNA

small RNA-seq

甲基化seq，視頻12

單細胞DNA, mRNA 10，11

xgene：之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA

統計分析之ROC曲線與多指標聯合分析——附SPSS繪製ROC曲線指南

二分類模型評估之 ROC曲線和PR曲線

統計分析之單因素分析、多因素分析（多指標聯合分析）與ROC曲線的繪製——附SPSS操作指南

機器學習中模型的效能度量方式：混淆矩陣，F1-Score、ROC曲線、AUC曲線。

機器學習評估指標：Precision、recall、F-measure、Accuracy、ROC曲線和AUC

機器學習：準確率（Precision）、召回率（Recall）、F值（F-Measure）、ROC曲線、PR曲線

機器學習：準確率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲線、PR曲線

真假正負例、混淆矩陣、ROC曲線、召回率、準確率、F值、AP

[轉]javaCV開發詳解之5：錄製音訊(錄製麥克風)到本地檔案/流媒體伺服器(基於javax.sound、javaCV-FFMPEG)

機器學習效能度量指標:ROC曲線、查準率、查全率、F1

客戶貸款逾期預測[4]-記錄評分、繪製roc曲線

【深度學習-機器學習】分類度量指標 : 正確率、召回率、靈敏度、特異度，ROC曲線、AUC等

用Python畫ROC曲線 matplotlib 顏色、標記、線條引數控制

評測指標Accuracy、Precision、Recall、F1以及AUC值、ROC曲線

精確率、召回率、F1、AUC和ROC曲線（這是重點推薦）

精確率（準確率、查準率、precision）、召回率（查全率、recall）、RoC曲線、AUC面積、PR曲線

R語言︱分類器的效能表現評價（混淆矩陣，準確率，召回率，F1,mAP、ROC曲線）

高等數學：第十章曲線積分與曲面積分（1）對弧長、座標的曲線積分，格林公式及其應用

python繪製precision-recall曲線、ROC曲線

xgene：之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA

ctDNA

small RNA-seq

甲基化seq，視頻12

單細胞DNA, mRNA 10，11

相關推薦