【比較基因組】McScan jcvi比較兩個基因組共線性細節記錄

阿新 • • 發佈：2021-10-23

軟體的安裝
基因組的準備
一些細節
建議和示例

軟體的安裝

Python版McScan（jcvi工具包）：https://github.com/tanghaibao/jcvi

以前只有python2，現在已有python3版本，建議用py3。安裝可用pip：

pip install jcvi
##或開發版
pip install git+git://github.com/tanghaibao/jcvi.git

pip可能會安裝很慢。建議還是用conda，要快很多，最好新建環境。

conda install -c bioconda jcvi

這時，你已經能使用命令，表面上安裝成功了，實際上可能還缺少很多依賴。比如last，latex，dvipng等。否則在後面執行過程，可能遇到如下錯誤：

##未安裝last
/bin/bash: lastdb: command not found
##未安裝latex、dvipng
RuntimeError: Failed to process string with tex because latex could not be found

只有一個個解決，有的可以直接conda（如last），有些則需要編譯，若有root許可權，倒也好辦。

conda install -c bioconda last
sudo yum install -y  texlive texlive-latex texlive-xetex texlive-collection-latexrecommended
sudo yum install dvipng

基因組的準備

若是已知物種，直接可從公共資料庫中下載gff和cds序列，jcvi提供了下載方式：

$ python -m jcvi.apps.fetch
Usage:
    python -m jcvi.apps.fetch ACTION


Available ACTIONs:
        bisect | Determine the version of the accession by querying entrez
       ensembl | Retrieve genomes and annotations from ensembl
        entrez | Fetch records from entrez using a list of GenBank accessions
     phytozome | Retrieve genomes and annotations from phytozome
    phytozome9 | Retrieve genomes and annotations from phytozome version 9.0 (legacy)
           sra | Retrieve files from SRA via the sra-instant FTP

比如從Phytozome下載，要提前註冊好，如下命令提示輸入賬號密碼。

python -m jcvi.apps.fetch phytozome Vvinifera,Ppersica

下載後無需解壓。

自己準備的基因組資料也只需gff3和cds.fa（蛋白序列也可）。

gff3只保留染色體水平的ID，如：

grep '^chr' Vvinifera_145_Genoscope.12X.gene.gff3 > apricot.filter.gff3

gff3檔案轉化bed檔案時注意type和key型別對應gff中第三列和第九列資訊。type一般為mRNA，但是key注意你的gff檔案是取Name還是ID。如：

python -m jcvi.formats.gff bed --type=mRNA --key=Name Vvinifera_145_Genoscope.12X.gene.gff3 -o grape.bed
python -m jcvi.formats.gff bed --type=mRNA --key=ID Ppersica_298_v2.1.gene.gff3 -o peach.bed

若後續作圖仍報錯，可嘗試去除fasta ID中多餘的描述資訊（我自己不用也可跑通）。如：

# clean headers to remove description fiedls from Phytozome FASTA files.
python -m jcvi.formats.fasta format --sep="|" Vvinifera_145_cds.fa.gz grape.cds
python -m jcvi.formats.fasta format --sep="|" Ppersica_139_cds.fa.gz peach.cds

一些細節

結果檔案
last比對結果，last.filtered比對過濾串聯重複和低分比對結果，anchors: 高質量的共線性塊，lifted.anchors增加額外錨點的最終共線性區塊，simple簡化的anchors檔案。anchors檔案中每個共線性區塊以###分隔, 第一和第二列分別是兩基因組的基因ID，第三列BLAST的bit score，越大可靠性越高。
調圖細節
兩個配置檔案seqid（展示染色體），layout（序列位置）。
seqid檔案中，基因組的染色體編號與其gff3檔案一致（按大小順序寫，而非gff檔案染色體順序，轉化bed時軟體會排序）。如：

chr1,chr2,chr3,chr4,chr5,chr6,chr7,chr8,chr9,chr10,chr11,chr12,chr13,chr14,chr15,chr16,chr17,chr18,chr19
Pp01,Pp02,Pp03,Pp04,Pp05,Pp06,Pp07,Pp08

layout檔案繪製一些選項，若要個性化，多多修改嘗試（尤其時三個物種比較時）。如：

# y, xstart, xend, rotation, color, label, va,  bed
 .6,     .1,    .8,       0,      red, Grape, top, grape.bed
 .4,     .1,    .8,       0,      blue, Peach, bottom, peach.bed
# edges
e, 0, 1, grape.peach.anchors.simple

若要突出顯示某一共線性區塊，可以在anchors.simple檔案對應的區塊前新增g*（g代表綠色，也可以改成其他顏色，如紅色r）。

建議和示例

建議先用示例資料跑一遍，也很快。再換自己的資料，報錯對照著尋找原因，總能解決。

示例程式碼：

# 準備資料（輸入帳號密碼）
python -m jcvi.apps.fetch phytozome Vvinifera,Ppersica

#去掉chr以外的序列 
grep '^chr' Vvinifera_145_Genoscope.12X.gene.gff3 > apricot.filter.gff3  

#gff convert to bed
python -m jcvi.formats.gff bed --type=mRNA --key=Name Vvinifera_145_Genoscope.12X.gene.gff3 -o grape.bed
python -m jcvi.formats.gff bed --type=mRNA --key=Name Ppersica_298_v2.1.gene.gff3 -o peach.bed

#reformat fasta
python -m jcvi.formats.fasta format Vvinifera_145_Genoscope.12X.cds.fa.gz grape.cds
python -m jcvi.formats.fasta format Ppersica_298_v2.1.cds.fa.gz peach.cds

#identify blocks
python -m jcvi.compara.catalog ortholog grape peach --no_strip_names

#plot dotplot
python -m jcvi.graphics.dotplot grape.peach.anchors

# get synteny
python -m jcvi.compara.synteny screen --minspan=30 --simple grape.peach.anchors grape.peach.anchors.new

##prepare for seqid and layout file

#  plot synteny
python -m jcvi.graphics.karyotype seqid layout

Ref：
https://www.jianshu.com/p/a748d3a5421d
https://www.cnblogs.com/zhanmaomao/p/12525411.html
https://sr-c.github.io/2019/01/11/jcvi-MCscan/

【比較基因組】McScan jcvi比較兩個基因組共線性細節記錄

目錄軟體的安裝基因組的準備一些細節建議和示例軟體的安裝 Python版McScan（jcvi工具包）：https://github.com/tanghaibao/jcvi

【連結串列】題25-合併兩個排序的連結串列

技術標籤：劍指Offer演算法資料結構 1 題目描述輸入兩個遞增排序的連結串列，合併這兩個連結串列並使新連結串列中的節點仍然是遞增排序的。示例：

【JavaScript練習】使用者輸入任意兩個數字的任意算數運算（簡單的計算器小功能）並彈出運算後的結果。

技術標籤：JavaScript練習javascript前端【JavaScript練習】使用者輸入任意兩個數字的任意算數運算（簡單的計算器小功能）並彈出運算後的結果。

【Leetcode 】21：合併兩個有序連結串列（Python）

題目：將兩個升序連結串列合併為一個新的升序連結串列並返回。新連結串列是通過拼接給定的兩個連結串列的所有節點組成的。

MySQL進階【十一】—— Innodb 事務的兩階段提交

兩階段提交是什麼 prepare階段：此階段innodb將事務 trx_id洗入redo_log，將事務狀態置為prepare狀態commit階段：

【GS模型】使用R包sommer進行基因組選擇的GBLUP和RRBLUP分析？

目錄簡介GS示例程式碼簡介 R包sommer內建了C++，運算速度還是比較快的，功能也很豐富，可求解各種複雜模型。語法相比於lme4包也要好懂一些。

【spring掃盲】bean別名的兩種方式與優異

接上文我們實現了一個最基本的配置：https://www.cnblogs.com/yunren/p/14292819.html 我們現在獲取物件的時候都是getBean(\"person\")，與bean.xml檔案中的id對應。如何通過別名，配置一個簡單的，自定義的名字呢？

【C語言程式練習】從鍵盤輸入兩個整數，計算並輸出他們的和、差、積、商t和平均值

技術標籤：C++學習筆記C語言c語言visual studio 從鍵盤輸入兩個整數a和b，計算並輸出他們的和sum、差difference、積product、商quotient和平均值ave

【LeetCode】159.至多包含兩個不同字元的最長子串

159.至多包含兩個不同字元的最長子串知識點：字串；滑動視窗題目描述給定一個字串 s ，找出至多包含兩個不同字元的最長子串 t 。

【python入門】必需掌握的80個經典操作（附原始碼解析）

1.Python Hello World 例項 # -*- coding: UTF-8 -*- # Filename : helloworld.py # author by : www.runoob.com

【C語言】資料結構C語言版實驗1 線性表的順序實現

執行環境：Dev-C++ 首先新建一個頭檔案sequlist.h #include<stdio.h> #include<stdlib.h>

【ybt金牌導航8-2-5】【luogu P3265】【bzoj 4004】裝備購買（貪心）（實數線性基）（高斯消元）

給你 n 個物品，每個物品有價格，和它的特徵向量。然後如果有一個東西可以通過某幾個你已經買了的物品向量每一位乘各自各自的一個實數相加得到，那你就不可以買這個東西。（一個物品可以選實數，然後每一位都要乘

【面經】Python面試的16個高頻問題

（一）Python 是如何進行記憶體管理的？答:從三個方面來說,一物件的引用計數機制,二垃圾回收機制,三記憶體池機制

【Java版!】1.19第3個快照22w13a!

新內容方塊 1.強化深板岩自Deep Dark Experimental Snapshot 1加入。一種生成於Ancient City結構中心的深板岩變種，不可合成。

蔚來 2022 年前兩個月共交付了 15783 輛汽車，同比增長 23.3%

3 月 1 日訊息，蔚來汽車今日公佈了最新的交付資料：2 月交付了 6131 輛汽車，同比增長 9.9%。2022 年總共交付了 15783 輛汽車，同比增長了 23.3%。截至 2022 年 2 月 28 日，ES8、ES6 和 EC6 的累計交付量達到 182

【java基礎】兩個日期的比較大小的幾種方法。

String beginTime= \"2021-09-14 08:22:10\";String endTime= \"2021-09-14 08:22:20\"; 一、直接用Date自帶方法before()和after()比較

【Java】通過 getter 方法引用，來比較兩個物件是否相等

背景編寫程式碼時，會經常需要編寫兩個物件是否相等的邏輯，一般會有如下做法

【高精度】加減乘+組合數+比較大小（結構體）

組合數C 1.最早的思路 C如果用C(n,m)=n!/(m!(n-m)!)，需要預處理階乘，這樣的話，會TLE+MLE（自行腦補）。

【Python基礎程式設計016 ● 判斷語句和迴圈語句 ● 比較運算子】

---------Python基礎程式設計--------- Author : AI菌【內容講解】 1、比較運算子運算子描述示例

CString、string與char *的比較【完整版】

>>> （一）概述 string和CString均是字串模板類，string是標準模板類（STL）定義的字串類，已經納入C++標準之中；

【比較基因組】McScan jcvi比較兩個基因組共線性細節記錄

軟體的安裝

基因組的準備

一些細節

建議和示例

相關推薦