ngs中reads mapping-pku的生信課程

阿新 • • 發佈：2018-10-20

對比包括一行出現壓縮替換的人 orm all

4.NGS中的reads mapping

顧名思義，就是將測序的得到的DNA定位在基因組上。

技術分享圖片

因為二代測序的得到的序列是較短的，reads mapping很好地解決了這個問題。

技術分享圖片

本質上reads mapping是一個雙序列比對問題，但和之前講的NW和SW的不一樣，後者適用於兩者長度相差不大的。

現在問題有幾個特征：

1.reads和ref的長度有著跨數量級的差異，reads長度通常不超過100bp，而ref基因組通常在上百Mb。

2.數據量，NGS測序產生的數據量達到幾百Gb，相當於幾十個人的人類基因組。

3.數據質量。在雙序列比對中通常假定序列本身不會出錯，但是NGS所產生的reads質量參差不齊。

技術分享圖片

reads可以說是鑲嵌到基因組序列中的，對於基因組來說是局部比對，對於reads來說是全局比對，是一個混合型的alignment。

首先對基因組建立索引，也就是index，

技術分享圖片

將每一個基因根據key映射到一個index，從而存儲在不同的數據塊中，盡量減少比對時間。

哈希可以來完成，以下例子：

技術分享圖片

先給ACGT分別確定一個值，那麽將求和作為哈希函數，將基因組中分段，然後進行映射存儲。這樣有一個reads之後就可以以O（1）時間內尋找位置。

通常有一定的容錯性。

技術分享圖片

數據壓縮中的前綴樹和後綴樹被應用於reads mapping。這裏也提到了bowtie和BTW（Burruws Wheeler transform），提高了內存利用效率和比對速度。

技術分享圖片

在對短序列對比時，將所有的SQ都算出來，read中每個堿基都有一個測序質量，假定錯配都是由測序錯誤引起的，從而計算出SQ。

在實際對read mapping的比對中，通常不使用序列比對分數，而使用mapping Quality（也就是最後一行的E），來篩選Read在Ref中的位置。

//這個415是如何得到的呢？是所有SQ的和。

當將reads正確映射到基因組之後，就可以來判斷遺傳變異。

根據遺傳變異的尺寸，可以分為單個堿基水平的單核苷酸變異和多個：

技術分享圖片

//這個圖說的簡直十分清晰。

SNV是最常見的遺傳變異分析方法：包括替換堿基，或者插入刪除堿基。

SV：包括大規模刪除插入、倒轉、易位、拷貝數變異。

技術分享圖片

SNP calling是確定哪個基因位點存在變異，不涉及到對應位點的基因型。

Genotype calling是進一步確定變異位點的基因型是純合的還是雜合的。

測序深度(sequencing depth)：測序得到的堿基總量與基因組大小的比值。它與基因組覆蓋度是一個正相關的關系。測序錯誤率和假陽性結果會隨測序深度的提高而下降。

技術分享圖片

//這張圖它在說什麽，我完全聽不懂啊。什麽就是純和了，怎麽就雜合了?

技術分享圖片

這裏給出了一個簡單的概率模型。

一個生物體的基因型，有三種情況，那麽假設在基因測序中測到的有k個A，有n-k個a。

如果是AA，那麽概率就是n-k個a錯誤概率的乘積，雜合子由1-二者之和。

那麽如果知道生物體中三種基因型出現了概率作為先驗概率，那麽可以推算出，後驗概率。

//其實這裏不太明白D是什麽?

ngs中reads mapping-pku的生信課程

對比包括一行出現壓縮替換的人 orm all 4.NGS中的reads mapping 顧名思義，就是將測序的得到的DNA定位在基因組上。因為二代測序的得到的序列是較短的，reads mapping很好地解決了這個問題。本質上reads mapping

生信入門-愛課程上的華中農業大學

mar 大學 spl bsp 分享分析入門 bubuko 課程 1.生物大分子序列分析 2.主要技術 3.生物信息學的應用 4.應用2 生信入門-愛課程上的華中農業大學

生信（七）生信中常用命令

今天將生信工作中的一些常用命令記錄（分享）如下：（以後會不定期更新）轉換dos/windows格式的bed檔案為unix格式（說明：我們拿到的bed檔案時常是客戶在Windows系統下編輯好的，其行尾是\r\n，在進行NGS分析前最好將其轉換為Unix風格

關於QT中的音頻通信問題

ann win output 技術 end 來看 log str type 今天給大家講說一個新的東西，使用QT實現音頻通信的功能，挺起來是不是很高大上啊，哈哈，實際上我們只是使用一些接口做一些簡單的工作而已，並不是讓你寫一個傳輸協議和采集音頻信息，好了，那我們就來

將兩個表中查出的兩列信息放在同一個表中

i++ trade ear .cn select 一行 gdi record 企業 String sql_gd = "select * from TAX_INFO_GD where ID=‘"+gdid+"‘"; Record gdRecord = Db

生信算法實踐

機會 cati nom evel assign com ica https article 最近在搞16S，發現了一個實踐算法的最佳機會。見文章： A Bayesian taxonomic classification method for 16S rRNA gene s

Linux系統中如何查看日誌信息

日誌文件系統日誌楊書凡日誌文件是用於記錄Linux系統中各種運行消息的文件，不同的日誌文件記載了不同類型的信息，對於診斷和解決系統中的問題很有幫助分析日誌文件日誌數據主要包括三種類型：內核及系統日誌、用戶日誌、程序日誌 #對於大多數的文本格式的日誌文件，使用tail、more、l

002 生信基礎題

it is cti ble 數列 ini mes tcc pen true 01 ‘GATCCAGATCCCCATAC‘，計算這串數列中兩個出現最高的頻率。 t = ‘GATCCAGATCCCCATAC‘ L = [ ] for i in range(le

Android中Xposed框架篇-微信實現本地視頻發布到朋友圈功能

快速定位 adb 本地 ref jad jadx mps 頁面視頻微信非常龐大，還好有一些強大的工具，下面就來總結收獲的知識。一、使用adb shell dumpsys activity top命令快速定位頁面二、使用Jadx進行方法跟蹤時候如果發現沒有結

生信數據分析—cmake

files file ins https bsp all 進入 mkdir tar.gz 1、進入自己目錄： cd /home/liuwenfang/biosoft 2、在biosoft目錄系建軟件存放目錄： mkdir cmake 3、下載cmake： https://c

[搬運] .NET Core 2.1中改進的堆棧信息

我們 previous http mon 告訴以及 async 時間異步原文 : Stacktrace improvements in .NET Core 2.1 作者 : Ben Adams 譯者 : 張很水 . NET Core 2.1 現在具有可讀的異步堆棧

OSI模型中各層次對等通信

OSI模型對等通信物理層：Bit（比特）數據鏈路層：Frame(幀)網絡層：Packet(包)傳輸層：Segment（段）會話層：SPDU 表示層：PPDU應用層：APDU總結：<1> 每一層都使用自己的協議。<2> 每一層都利用下層提供的服務與對等層通信。（在Hos

生信軟件的好幫手-bioconda--轉載

ldo all pac 生物 -- detail align ger str http://mp.weixin.qq.com/s/nK1Kkf9lfZStoX25Y7SzHQ 這篇文章主要適用於Linux平臺，當然MacOS也行，不過它有更好安裝方法。此外網上也會許多更好

app開發中讀取數據庫信息的vue頁面

uri employ post IT jump receive url web nan <template>  <div class="container"> <!-- 標頭 --

Python封裝一個函數接受文件夾的名稱作為輸入參數,打印該文件夾中的的全部路程信息（遍歷路徑）

Python 遍歷文件夾Python時間簡單的遍歷文件夾路徑，代碼如下：import os def bianli(path):info = os.listdir(path)for v in info:p = os.path.join(path, v)print(p)if os.path.isdir(p):b

把集合中的student對象信息儲存在文本中

@override out compare stat buffere 遍歷集合 AD IT auth 1.student類 1 // 姓名 2 private String name; 3 // 語文成績 4

生信-序列比較dp[未完成]

\n aps hid urn info 能力輸入分享開始來自：生物信息學-陳銘第二版的一個例題。題目：目前的代碼，運行不正確，關鍵就是不知道怎麽回溯啊，回溯怎麽標記呢？ #include <iostream> #include&

網絡中兩臺主機通信的完整過程

nbsp -i 端口 tom span 目標 star com ims 主機A和主機B通信報文的轉發過程 1、主機A和主機B在同一個二層網絡中，直接走二層交換主機A查看自己的ARP緩存，檢查是否有主機B的IP到MAC的映射，如果有映射，構造報文，目的

LJN數理化生信奧隊自傳

ffffff ont 郵箱 span font style off noi .com LJN數理化生信奧隊，原名“LJN信奧隊”。聯系方式： QQ：3046036317 QQ群：555088375 （Offical群） 701124785 （Vip群）

LoadRunner中 host-mapping的Capture Level說明

content mat 不知道應用 nsf 文件 tex ping dlink lr錄制後空白，那麽就要弄明白lr中host-mapping的Capture Level選項socket level data、winnet level data、socket leve

ngs中reads mapping-pku的生信課程

4.NGS中的reads mapping

相關推薦