如何通過RNA-Seq瞭解轉錄本的結構

阿新 • • 發佈：2018-11-10

[轉載]如何通過RNA-Seq瞭解轉錄本的結構

測序轉錄組的方法可不止一種。一些研究人員的目標是計數轉錄本，評估表達水平，則測序可代替DNA晶片。而另一些研究人員感興趣的是轉錄本的結構。大家都知道，真核生物的基因常常經過選擇性剪接。是否包含特定的外顯子，這有著深遠的生物學影響。

前一個應用比較簡單，也更加廣泛。它與Illumina測序平臺的特徵相吻合，這些平臺提供了短的RNA序列，但每次有數十億個。而對於後一個陣營的研究人員而言，生物資訊學工具和長讀取計數才是問題的關鍵。

長長短短的讀取

據Pacific Biosciences的首席科學官Jonas Korlach介紹，哺乳動物的轉錄本大約在1,000至3,000個鹼基，並以多種形式存在。例如，一個基因有5個外顯子，則可能出現各種配置，如12345、1245、1345、245等等。弄清這些不同形式的結構和豐度應該不是什麼難事，只要測序每個RNA分子並計算其數量。然而，問題在於目前的測序技術無法做到這一點。

Illumina的HiSeq v4試劑每次執行大約產生40億個高度準確的讀取，這對轉錄組測序而言是足夠了。然而，每個雙端讀取的長度在2 x 125 bp，這就難以確定哪些片段是在一起的。如果這些讀取中包含重複元件，則很難定位到基因組中。

斯坦福大學遺傳學教授Michael Snyder在接受採訪時表示：“你仔細想想，我們研究轉錄組的方式是瘋狂的。我們得到RNA，將其炸成碎片，然後又嘗試將它們組合回去，瞭解轉錄組一開始是個什麼樣子。這是一種可怕的方式。”

Pacific Biosciences的單分子測序系統PacBio RS II產生了平均長度在8,500 bp的讀取，這足以覆蓋大多數的轉錄本。但RS II的每個SMRT Cell只產生50,000至80,000個讀取，這對於全面讀取每個轉錄本而言還是太少。目前，市場上的長讀取技術還有Illumina的Moleculo技術和Oxford Nanopore Technologies的納米孔技術。

混合方法

對於許多研究人員來說，兩全的解決方案就是將兩種方法相結合。在最近一項發表於PNAS上的研究中，Snyder的研究團隊採用混合策略，利用PacBio的長讀取和Illumina的短資料來測序一位兒童及其父母的淋巴母細胞轉錄組。同時，Illumina的讀取也能用來檢查PacBio鹼基檢出的錯誤[1]。

華盛頓大學西北基因組中心的技術開發主任Jason Underwood也在H1人胚胎幹細胞系的轉錄組分析中採用了這種策略[2]。他們的“混合測序（hybrid sequencing）”方法鑑定出H1細胞中表達的數百個新基因/長鏈非編碼RNA（lncRNA）以及數千個已知基因的異構體。

不過，Underwood並不總是利用短讀取來進行錯誤校正，在分析雞的轉錄組結構時，他只使用了長讀取技術[3]。他利用SMRT測序來產生雞胚胎心臟的全長cDNA，鑑定出9,000多個新穎的轉錄異構體，以及Ensembl註釋中未包含的500多個基因。

據Korlach介紹，PacBio的技術讓研究人員能捕獲全部的轉錄本多樣性。在這種稱為Iso-Seq的方法中，使用者合成cDNA並篩分，創建出不同長度的文庫，然後環化並測序。PacBio的SMRT分析軟體對相同結構的轉錄本進行聚類，從而最大限度減少測序錯誤。互補的策略是環化測序（circular consensus sequencing，CCS），其中cDNA被環化並反覆測序，以產生更加準確的平均讀取。

鑑於PacBio的讀取次數相對較低，一些研究人員將這種技術與選擇一些基因的方法相結合。在一項最新的研究中，瑞士巴塞爾大學Peter Scheiffele領導的研究團隊利用PacBio方法，對成年小鼠大腦中的370,000個軸突蛋白轉錄本進行測序，鑑定出這個家族中近1,400個獨特的異構體[4]。

分析工具

為了理解那些資料，Scheiffele的團隊使用了一種稱為GMAP的演算法程式，這也是Underwood使用的。分析轉錄本結構的其他生物資訊學工具包括Cufflinks、SpliceMap和 SigFuge。SigFuge由北卡羅來納大學教堂山分校D. Neil Hayes副教授的實驗室開發，是一種鑑定有趣的結構變異的工具。Hayes則使用它來鑑定數千個患者樣本中的癌症標誌物。“如果變異很重要，那麼它應當是經常性的，”他解釋道。有了SigFuge，“我們能夠檢測RNA結構中經常性的結構變異。”

但是你需要多少序列才能找到它們呢？Hayes認為沒有簡單的答案。“一般來說，越多越好。但是你測序越多，研究就越昂貴。”他認為每個腫瘤轉錄組需要6000萬個Illumina讀取。

作為一般準則，Underwood建議對全轉錄組分析感興趣的使用者至少分析每個樣品的100萬個讀取。“最低和最高表達的RNA之間可能相差5至6個數量級，”他說。因此，即使是最稀有的轉錄本，100萬個讀取應該也夠了。這大約需要PacBio儀器上的20個SMRT cell，或每次執行8個cell，2.5次執行。（Jeffrey M. Perkel ）

參考文獻

[1] Tilgner, H, et al., “Defining a personal, allele-specific, and single-molecule long-read transcriptome,” Proc Natl Acad Sci USA, 111:9869-74, 2014. [PubMed ID: 24961374]

[2] Au, KF, et al., “Characterization of the human ESC transcriptome by hybrid sequencing,” Proc Natl Acad Sci USA, 110:E4821–30, published online November 26, 2013, doi: 10.1073/pnas.1320101110. [PubMed ID: 24282307]

[3] Thomas, S, et al., “Long-read sequencing of chicken transcripts and identification of new transcript isoforms,” PLoS ONE, 9:e94650, 2014. [PubMed ID: 24736250]

[4] Schreiner, D, et al., “Targeted combinatorial alternative splicing generates brain region-specific repertoires of neurexins,” Neuron, in press, 2014. [DOI: 10.1016/j.neuron.2014.09.011]

轉自測序中國。

如何通過RNA-Seq瞭解轉錄本的結構

[轉載]如何通過RNA-Seq瞭解轉錄本的結構

如何通過RNA-Seq瞭解轉錄本的結構

25、轉錄本(transcript)組成(gtf文件的第三列)

轉錄本組裝軟體StringTie的使用說明

提取最長轉錄本的程式碼

取轉錄本fasta最長的當作基因fasta

轉錄組分析綜述A survey of best practices for RNA-seq data analysis

一次rna-seq的過程-知乎live轉

通過分析mkbootimg原始碼瞭解boot.img檔案結構

推薦個WIN7下小巧的可轉錄聲音的軟件-Audio Record Wizard V6.99

樹莓派進階之路 (024) - windows遠程桌面連接樹莓派通過xrdp服務（轉）

轉錄組學習

轉錄組入門(4)：了解參考基因組及基因註釋

xgene：WGS，突變與癌，RNA-seq，WES

xgene：之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA

在Windows上通過putty遠程登錄CentOS

RNA-Seq分析軟件HTSeq的安裝

轉錄組中實驗設計的相關問題

二、通過ant來執行jmeter腳本生成html報告

【轉錄，收集】Windows下批處理文件(BAT)的參數之編輯符

shell腳本介紹，shell腳本結構和執行方式，date命令的用法，shell腳本中的變量簡介

如何通過RNA-Seq瞭解轉錄本的結構

[轉載]如何通過RNA-Seq瞭解轉錄本的結構

相關推薦