1. 程式人生 > >reads k-mer scaffold 【知乎】

reads k-mer scaffold 【知乎】

bsp 來源 但是 air .com 關系 str 篩選 數字

基因簇,一群合在一起能幹活的基因。基因家族,幹相同活的基因們。
acaffold,腳手架的結構。motif,一個分子中一段貌似重要的部分。

作者:劉金韜
鏈接:https://www.zhihu.com/question/37596636/answer/206516478
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。

簡單回答一下什麽是scaffold。上邊華中農大那個說的不算錯,但是很模糊。read指的是直接測序得到的,目前普遍的二代測序是PE150,也就是雙端各測150個堿基。這150個堿基是連續的,但是兩個150之間的距離是不知道的,因為現在二代測序普遍建350bp的插入片段文庫,所以測不通。由於350只是跑膠的時候的一個大概的範圍,所以不能認為這兩個150之間就一定是50個堿基,可能是48,也可能是52.這對重測序來說沒有影響,但是denovo組裝的時候,這個距離就比較麻煩了。

利用read之間的重疊區域,可以拼裝出contig。具體算法確實很復雜,簡單說,就是把這150bp的短read繼續打斷,叫K-mer。K是個數字,比如19。19-mer就是一個19個堿基的小的DNA片段。具體在組裝的時候要用19-mer下的各個小片段去“碰”,看看哪兩個小片段之間有18個堿基是重疊的,這樣就拼成了一個20堿基的片段。(斜體部分我不太確定是不是這樣,大概是,歡迎指正)。以此類推,各個小片段互相之間就可以再組裝的更長一些。一般來說,組裝的時候要試驗不同的K值,看哪個K值下組裝的效果最好。需要註意的是,contig是依靠片段之間序列重疊的部分來組裝的

scaffold直接翻譯過來是腳手架。這個概念和“測末端”有關。簡單地說,你測序的時候篩選到了20kb長的片段,但是一代和二代都測不通,只能測兩端很短的序列。這時候你有了這個20kb的片段兩端的序列,以及這兩段序列之間的距離(20k)。利用這種位置關系,可以將這兩端序列所在的contig聯系起來,確定這倆contig之間的順序和距離。利用這種組裝方法得到的更高級別的(或者說更長)的片段,就是scaffold。scaffold是利用各種手段確定contig之間順序和距離之後得到的組裝結果。這些手段包括但不限於mate-pair文庫、fosmid文庫、遺傳圖譜、光學圖譜、Hi-C。

scaffold內部是有洞的(gap),原因是,測末端的時候中間測不到(如果測到了,就直接裝成contig了。重復區域例外,測到了你也不知道重復了多少次,除非直接測通)。

純三代測序應該是沒有scaffold這個概念的,只有contig。

reads k-mer scaffold 【知乎】