1. 程式人生 > >xgene:WGS,突變與癌,RNA-seq,WES

xgene:WGS,突變與癌,RNA-seq,WES

屬性 利用 方法 ger 可變 對比 個推 比例 建庫

人類全基因組測序06

SNP(single nucleotide polymorphism):有了10倍以上的覆蓋深度以後,來確認SNP信息,就相當可靠了。

一個普通黃種人的基因組,與hg19這個參考基因組序列相比,會有350萬個左右的SNP。又有大概2萬個是落在外顯子上的,而非同義的SNP有大概9千個。

所謂非同義的SNP,就是這些SNP是會引起蛋白質的序列變化的。

  indel:(insertion & deletion)是指小於50個bp以內的微小的插入、和缺失突變。一個普通黃種人的基因組和hg19相比,約有50萬個Indel。其中落在外顯子上的,大概在1千個左右。

    那麽Indel如果一旦落在外顯子區域,它一定會

引起蛋白質序列變化的。

      如果它引起的是移碼突變,那麽在移碼位點之後,所有氨基酸序列就和原來的序列完全不同。

      如果它(基因)還能保持原來的閱讀框,也會引起蛋白質中若幹個氨基酸的增或者減。

  SV: structure variation 染色體結構變異

     1、 染色體內部的位移

2、 染色體之間的位移

3、 大片段的缺失

4、 大片段的插入

5、 大片倍的加倍

6、 大片段的倒位

  CNV :copy number variation 拷貝數變異,是指染色體片段的拷貝數變異:包括拷貝數增加,也包括拷貝數減少。

    實際上,CNV是和結構變異(也就是SV)緊密相關的。SV 中的大片段的增加、和大片段的缺失,會直接導致CNV的變化。

突變種類與癌癥04

基因拷貝數異常:

  例如:HER2基因,如果HER2基因的拷貝數增加到6個,或者更多,它就比較容易引發乳腺癌。

  赫賽汀(Herceptin)這個藥,可以抑制HER2蛋白的活性,所以赫賽灑就對於由HER2基因拷貝數異常增加引發的乳腺癌,有非常好的治療作用。

染色體結構變異:

  強啟動子替換了弱啟動子,改變了某個基因在天然條件下的表達量。

  例如:EML4-ALK的融合基因。ALK是一個推動細胞生長、增殖的這樣一個基因。在野生型的條件下,它的表達量是比較低的。還有一個基因叫EML4基因,這個基因有一個強啟動子。

  有一個藥物,叫克裏唑替尼(crizotinib)。這個藥對EML4-ALK融合基因導致的肺癌有非常良好的療效。

基因的點突變:

  例如:BRAF基因的V600E突變。BRAF本身是個激酶,是打開下遊細胞增殖通道的一個開關。當BRAF的第600個氨基酸,從纈氨酸被突變到了谷氨酸之後,它的酶活性就被持續地活化,它就持續地打開下遊促進細胞分裂的這個信號通路。

  維羅非尼(vemurafenib)這個藥物正好能夠抑制BRAF的這個激酶的活性,所以它能夠有效治療有BRAF V600E突變的腫瘤。

抑癌基因突變成無效基因

  突變在大多數情況下,是使一個基因失去活性。只有在少數情況下,會增強一個基因的活性。

  例如:TP53這個基因的最重要的一個功能,是在細胞受到傷害之後,TP53會引導細胞進行雕亡。

  如果一旦TP53發生了突變,失去了功能,或者這個細胞徹底就把TP53這個基因搞丟了之後,細胞就不容易進入雕亡。 當它不容易進入雕亡呢,它也就有更大可能性變成腫瘤。 已經在很多的科學實驗中發現,大概在50%的腫瘤裏面,有TP53基因突變的情況存在。

RNA -seq:07

RNA-seq目的、用處::可以幫助我們了解,各種比較條件下,所有基因的表達情況的差異。

比如:正常組織和腫瘤組織的之間的差異;檢測藥物治療前後,基因表達的差異;檢測發育過程中,不同的發育階段,不同的組織之間的基因表達差異 等

在所有檢測的差異類型中,最常用的一種檢測就是:檢測所有mRNA的表達量的差異。

還可以檢測 RNA 的結構上的差異。例如:mRNA的剪接方式的差異,即“可變剪接”;還可以檢測“融合基因”,同時還可以檢測基因單點突變導致的SNP

測序方法、步驟:人的細胞或組織,一般抽提到的總RNA當中,95%都是核糖體RNA。剩下的2%到3%是mRNA。還有2%到3%是Long non-coding RNA、或者tRNA、microRNA等

先把核糖體RNA先去掉。然後再進行建庫測序。比如利用Poly(A)尾巴 抓出mRNA ,鎂離子溶液打斷,逆轉錄成cDNA ,再建庫擴增,測序

表達量指標:目前最常用的是RPKM值,對基因表達量進行相對定量的一個指標。RPKM是 Reads Per Kilobase of exon model perMillion mapped reads。

技術分享

除以這個外顯子的長度,它的目的:是修正這個mRNA長度所引起的mRNA的Read數的偏差。

火山圖:針對全轉錄組的分析,表達的是一次看到一個整體的樣本(表達)差異的情況。

橫軸表示某個基因的表達量是上升或下降。縱軸是表示這種差異的置信程度。這其中的每個點,就是兩個樣本當中同一個基因的mRNA表達量的變化。

聚類分析圖:它是通過多個樣本的全基因表達譜對比,來找到它們之間的相似性,和相近關系。

一張聚類分析的圖,橫軸是樣本,縱軸是基因。

應用:我們可以分析疾病的亞型;還可以通過對多個基因在特定疾病當中的表達傾向性,來找出可能的、新的、診斷用的Biomark。

GO(gene ontology)分析

GO主要描述基因的三個屬性:

第一,是這個基因,它參與的生物過程

第二,是這個基因產物的功能

第三、是這個基因產物在細胞器內的空間定位

差異基因GO富集柱狀圖:可以直觀的反映出在生物過程、細胞組分、和分子功能富集的差異基因的個數分布情況。 柱子越高,則表示這個亞類當中突變越多。

有向無環圖,是差異基因GO富集分析的圖形化展示方式,從上到下,它所定義的功能範圍越來越小、越來越精準。 它的分支,表示包含關系。而這個圈圈的顏色越深吶,表示這個富集關系程度越高。

通路(Pathway)分析:在系統水平上完成生物的某一功能的基本單元、或者局部子網絡。

散點圖是KEGG富集分析結果的圖形化展示方式。

在圖中,KEGG富集程度通 Rich factor、Qvalue 和 富集到此通路上的基因個數 來衡量。

富集因子越大,則表示富集的程度越大。 qValue是校正之後的pValue,它越接近於0表示富集程度越顯著。點面積越大吶,則富集的基因數越多。

RNA-seq中,可以測到mRNA上的各種結構上的變異,即RNA序列的變異。要求測序深度要更深。因為這樣才能得到較完整的覆蓋,更有把握判斷 新的剪接點、一個斷點、哪兒堿基發生了突變等。

結構變異分析

可變剪接:一般一個人的組織樣本當中,可以通過高通量測序,發現有5000個到20000個左右的可變剪接。

基因融合:融合基因的示意圖,圓形 圓內弧線連接圖

點突變(SNP):泡泡圖,泡泡越大 突變頻率越高,由大到小逆時針排列

外顯子組測序08

外顯子測序的核心技術,是這些針對人外顯子序列設計的捕獲探針庫;這些探針的序列,都和人外顯子的DNA序列相互補。

實驗原理、步驟

超聲打碎,建成文庫;

雜交,探針上有生物素;

用磁珠(其上有鏈黴親和素與生物素結合)混合;

磁鐵吸附磁珠,去上清液,把DNA文庫從磁珠上洗脫

PCR,HiSeq測序

數據分析比對 到人的基因組上;把比對到基因組的序列進行 突變分析

一般用Agilent SureSelect 50M的試劑盒進行外顯子建庫、捕獲。再用HiSeq 2500 V4 PE125的方法進行測序,測10個G的數據量。

在外顯子測序中,要扣掉4種因素引起的無效數據

第一個是因為雜交捕獲的過程它不是十分精確的。基因組中有許多序列有一定的同源性的。這些片段,在雜交過程當中,也會被雜交捕獲下來,但不是基因的外顯子。

第二個,是捕獲下來的一個片段,很可能它只有一部分的序列是落在目標區域,還有一部分序列是突出在目標範圍之外的。這個落在目標區的數據,占全部被測到的數據的比例,即“捕獲效率”(capture efficiency)。那麽AgilentSureSelect這個試劑盒吶,它的捕獲效率,大約是65~70%。

第三個影響有效數據比例的因素,是Duplication。用Agilent SureSelect試劑盒進行建庫、捕獲,實測10個G的數據,發現duplication大約在5%左右。

第四個,是目前主流的測序方法是HiSeq V4 PE125這種方法。也就是:雙端各測125個堿基,那麽Agilent的建庫方法中當吶

WES在腫瘤測序中的優勢:

外顯子測序,可測Germline突變(胚胎形成時就帶有的突變),也可測體細胞突變(Somatic Mutation)

因為腫瘤中的突變吶,往往都是 low allele frequency(低等位基因頻率) 的體細胞突變。所以,外顯子組測序“深度測序”,顯出比較明顯的優勢來。

  1. 測腫瘤中的體細胞突變,一般是拿手術切下來的腫瘤組織DNA、和病人外周血中的白細胞基因組DNA,進行外顯子測序。
  2. 一般腫瘤的測100~200X的深度,白細胞的(DNA)測100X的深度。
  3. 從白細胞DNA得到這個病人的Germline基因組序列,拿腫瘤的DNA序列與之做對比,找出其中的體細胞突變。

外顯子組測序,主要能夠得到的信息是點突變和插入缺失突變,也就是SNP、Indel信息。

找到突變之後,就可以進一步地做GO和Pathway分析。

  • 外顯子測序對基因組的結構,變異--SV(Structure Variation),是不敏感的。因為外顯子測序,只測了基因組上1~2%的很小一部分區域,當 SV 的斷點不落在外顯子區域的時侯,外顯子測序是看不到這些斷點的
  • 外顯子測序對拷貝數變異(CNV,copy numbervariation),不是很敏感。不敏感的原因吶,是因為雜交捕獲過程啊,是一個含了很高偶然性的過程。
  • 往往是這樣做的:用全基因測序來找到腫瘤樣本中的結構,變異(SV)和拷貝數變異(CNV),再用來外顯子組測序來找腫瘤樣本中的、低頻的SNP和Indel體細胞突變。

Panel,往往是指針對若幹個基因設計一個捕獲試劑盒。診斷公司為診斷特定的疾病,設計了許多特定的、針對性的Panel。

這一類的Panel,它的建庫、捕獲、和測序原理,與外顯子組測序是完全一樣的。

xgene:WGS,突變與癌,RNA-seq,WES