1. 程式人生 > >巨集基因組實戰4.基因註釋Prokka

巨集基因組實戰4.基因註釋Prokka

前情提要

如果您在學習本教程中存在困難,可能因為缺少背景知識,建議先閱讀本系統前期文章

測試資料

百度雲分享經常被和諧,請讀者自行從原始地址下載測試資料,無法下載請使用藍燈、賽風等代理工具再下載。

Prokka註釋基因

Prokka簡介

image

細菌基因組、巨集基因組的基因註釋一直是一個非常複雜的問題,Prokka的出現改變了這一切。

Prokka: rapid prokaryotic genome annotation,快速的原核基因組註釋。就是上面的神獸,猜猜是什麼動物,但真不是皮卡丘。

Prokka是一個命令列軟體工具,可以在一臺典型桌上型電腦上在約10分鐘內充分註釋一個細菌基因組草圖。它產生標準相容的輸出檔案以進行進一步分析或者在基因組瀏覽器中檢視。Prokka是用Perl實現的,在遵循開源GPLv2許可證下可以從

http://www.vicbioinformatics.com/software.prokka.shtml 免費獲得。

此軟體2014年發表於Bioinformatics,截止2017年11月2日Google學術統計引用1265,最新版本1.12於2017年3月14日更新,大小360MB。因為它是一個複雜的分析流程,依賴關係眾多。

安裝程式

進入工作目錄,即你下載資料的目錄

# 設定工作目錄 wd,使用者根據自己的實際情修改
wd=~/test/metagenome17
cd $wd
# 下載prokka
git clone https://github.com/tseemann/prokka.git
# 安裝依賴關係
sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl # 安裝perl包XML sudo bash export PERL_MM_USE_DEFAULT=1 export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps" perl -MCPAN -e 'install "XML::Simple"' exit

新增環境變數和設定資料庫

# 新增環境變數
export PATH=$PATH:`pwd`/prokka/bin
# 自動搜尋並新增資料庫
prokka --setupdb # 測序資料庫 prokka --listdb

Prokka使用Uniprot-DB資料庫,可使用–usegenus –genus Enterococcus指定額外的資料庫

執行Prokka註釋contig

# 建立工作目錄
mkdir annotation
cd annotation
# 準備輸入檔案
ln -fs ../assembly/combined/final.contigs.fa ./
# 一句命令10分鐘搞定之前別人半年的工作
prokka final.contigs.fa --outdir prokka_annotation --prefix metagG --metagenome --kingdom Bacteria

就是這麼簡單,一句命令10分鐘搞定之前別人半年的工作。給你輸出了你想要的,不想要的各種格式結果。

下表我列出各種輸出結果格式簡介

表1. Prokka 結果說明

Extension Description
.gff 基因註釋檔案,包括gff和序列,可用igv直接檢視
.gbk Genebank格式,來自gff
.fna 輸入contig核酸檔案
.faa 翻譯CDS的AA序列
.ffn 所有轉錄本核酸序列
.sqn 用於提交的序列
.fsa 輸入序列,但有sqn的描述,用於tbl2asn生成sqn檔案
.tbl 特徵表,用於tbl2asn生成sqn檔案
.err 錯誤報告
.log 日誌
.txt 統計結果
.tsv 所有註釋基因特徵表格

檢視結果

# 進入結果目錄
cd prokka_annotation
# 結果總結
cat metagG.txt

organism: Genus species strain
contigs: 7904
bases: 13222363
CDS: 12199
tmRNA: 4
tRNA: 300
repeat_region: 7

上面我們看到結果統計的疊連群(contigs)數量,預測基因(CDS)數量等基本資訊。下面看一下預測的基因序列。

預測基因展示:

# 檢視序列的基因序列
less -S metagG.fsa

>k141_4 [gcode=11] [organism=Genus species] [strain=strain]
ATCGTTTCCCTGCAGACGTCCACCGAGACGAGGTCCGTGGCTTCCACCAGTGCCCCGAGG
GCTACGATGTTGGCCACCTTTTCGCTGCCAAGTTCAAGCGCCGTGGTATGACACGGCACC
GGCAGCACGATGATATCGGATCTGGGGTCGGGATAATCCAGCAGGTCGGAATTGTAAATC
AGCGCTCCGCCCGGTTTTATGATACCGATGAAT
>k141_6 [gcode=11] [organism=Genus species] [strain=strain]
ACAGAACAACCAGGTGGAAACGTATGGTAATTATTGACACGAACACCCACGCCTTGTATT
ATAAGCGTCGCCCCTTGAAACGGGCGGCGTTTTTCATGCACCTTGACAGAGTTATATAGG
CAGGAGAGTAAGCGGGAGAAGGTAAGAGCGATTTATGGAGAGTTTGATCCTGGCTCAGGA
CGAACGCTGGCGGCGTGCCTAACACATGCAAGTCGAACGGTCTG

結果眾多,不再一一列舉,下面用到自然會提到並介紹,用不到的我也不懂了,今天就到這裡了。

Reference

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了“巨集基因組”專業討論群,目前己有國內外六十多位PI,六百多名一線科研人員加入。參與討論,獲得專業指導、問題解答,歡迎分享此文至朋友圈,並掃碼加創始人好友帶你入群,務必備註“姓名-單位-研究方向-職務”。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決推薦生信技能樹-微生物組版塊(http://www.biotrainee.com/forum-88-1.html) 發貼,並轉發連結入群,問題及解答方便檢索,造福後人。
image

學習16S擴增子、巨集基因組科研思路和分析實戰,關注“巨集基因組”
image

相關推薦

巨集基因組實戰4.基因註釋Prokka

前情提要 如果您在學習本教程中存在困難,可能因為缺少背景知識,建議先閱讀本系統前期文章 測試資料 百度雲分享經常被和諧,請讀者自行從原始地址下載測試資料,無法下載請使用藍燈、賽風等代理工具再下載。 Prokka註釋基因 Prokka簡介

巨集基因組實戰6. 不比對快速估計基因丰度Salmon

前情提要 如果您在學習本教程中存在困難,可能因為缺少背景知識,建議先閱讀本系統前期文章 測試資料 劉博士幫助把測試資料建立了一個百度雲同步共享資料夾,有非常多的好處,請讀完下文再決定是否下載: 1. 下載被牆的資料;很多資料存在googl

巨集基因組實戰7. bwa序列比對, samtools檢視, bedtools丰度統計

前情提要 如果您在學習本教程中存在困難,可能因為缺少背景知識,建議先閱讀本系統前期文章 測試資料 劉博士幫助把測試資料建立了一個百度雲同步共享資料夾,有非常多的好處,請讀完下文再決定是否下載: 1. 下載被牆的資料;很多資料存在google, a

轉錄組入門(4):了解參考基因組基因註釋

evel pin tps 下載安裝 剪切 坐標系 sem 2016年 ota 任務列表 1.在UCSC下載hg19參考基因組; 2.從gencode數據庫下載基因註釋文件,並且用IGV去查看感興趣的基因的結構,比如TP53,KRAS,EGFR等等。 3.截圖幾個基

NAR-2018-dbCAN2鑑定巨集基因組CAZYome碳水化合物相關基因

文章目錄 Science哈扎人CAZYome分析例項 例項解讀 分析方法探索(順藤摸瓜) dbCAN2——碳水化合物線上分析伺服器 dbCAN2簡介 線上分析 本地軟體

數學之路-python計算實戰(4)-Lempel-Ziv壓縮(2)

per tex alink header 一次 borde tar 文本文 寫入文件 Format characters have the following meaning; the conversion between C and Python values shou

【JAVAWEB學習筆記】網上商城實戰4:訂單模塊

接收 筆記 網上商城 詳情 src head 分頁查詢 cnblogs logs 今日任務 完成訂單模塊的功能 1.1 訂單 模塊的功能 1.1.1 我的訂單: 【我的訂單的查詢】 * 在header.jsp中點擊我的訂單. * 提交到Servlet:

Web前端開發實戰4:導航菜單(一)

pan 解決 博文 xmlns 背景圖 20px mar 水平 經典 在前面的博文中我們提到橫向一級菜單,這裏我們來看看導航菜單。導航菜單種類非常多,可是制作原理都是大同 小異的。這裏看的比二級下拉式菜單還簡單。來看一些站點上的導航菜單:

python 爬蟲實戰4 爬取淘寶MM照片

寫真 換行符 rip 多行 get sts tool -o true 本篇目標 抓取淘寶MM的姓名,頭像,年齡 抓取每一個MM的資料簡介以及寫真圖片 把每一個MM的寫真圖片按照文件夾保存到本地 熟悉文件保存的過程 1.URL的格式 在這裏我們用到的URL是 http:/

[js高手之路]Node.js模板引擎教程-jade速學與實戰4-模板引用,繼承,插件使用

node.js ade 方法 頭部 containe jade bsp 繼承 for 一、block 模塊復用 把需要復用的模塊用block定義 block後面跟上模塊的名字,引用一次block 內容就會被復用一次 編譯之後的結果: 二,繼承模板(exten

實戰4節點Centos7.3 安裝Kubernetes集群

one manager over span tom /var/ cto 實現 hat Kubernetes集群安裝部署Kubernetes集群組件:-Master節點  - etcd 一個高可用的K/V鍵值對存儲和服務發現系統  - kube-apiserver 提供kub

【筆記】網易微專業-Web安全工程師-04.WEB安全實戰-4.CSRF

加載 submit serve 身份認證 學校 gen 輸入框 .cn clas 某天你登陸了某銀行的網上銀行,正在欣賞自己的余額,突然接收到一個QQ消息,“XX大學校花全裸照”。你興奮地點擊鏈接一看,照片是草地上一朵小花,背後是XX大學的大門。你生氣地關掉了網頁,過了幾分

資料庫SQL實戰4:查詢所有已經分配部門的員工的last_name和first_name

思想: 題目要求查詢所有已經分配部門的員工的last_name和first_name。由於部門號和員工資訊在兩個表中,但兩張表中都有員工編號資訊。所以可以根據員工的編號(where e.emp_no = d.emp_no)來確定該員工分配的部門和員工的last_name和first_name。

Spark實戰(4) DataFrame基礎之資料篩選

文章目錄 filter寫法一 filter寫法二 條件符號 獲取結果 filter寫法一 from pyspark.sql import SparkSession spark = SparkSession.builder.app

實戰--酵母基因表達資料的聚類分析

背景:酵母會在一定的時期發生diauxic shift,有一些基因的表達上升,有一些基因表達被抑制,通過聚類演算法,將基因表達的變化模式聚成6類。 ORF Name R1.Ratio R2.Ratio R3.Ratio R4.Ratio R5.Ratio R6.Ratio R7.Rat

實戰--酵母基因表達數據的聚類分析

return bsp have width %d BL0 lines pyplot its 背景:酵母會在一定的時期發生diauxic shift,有一些基因的表達上升,有一些基因表達被抑制,通過聚類算法,將基因表達的變化模式聚成6類。 ORF Name R1.Rati

微生物組—巨集基因組分析專題培訓開課啦!10月北京

在廣大粉絲的期待下,《生信寶典》聯合《巨集基因組》在2018年10月19-21日,北京鼓樓推出《巨集基因組分析專題培訓》專題培訓第二期,為大家提供一條走進生信大門的捷徑、為同行提供一個巨集基因組分析學習和交流的機會、助力學員真正理解分析原理和完成實戰分析,獨創四段式教學(3天集中

巨集基因組理論教程7挖掘微生物組生物標記

之前分享的加拿大生信網出品的《巨集基因組分析教程》,有1萬多位朋友閱讀,有近2000多小夥伴下載了課程PPT。 但不知有多少小夥伴真正仔細學習過。收藏是沒有用的,只有真正多學幾遍才有收穫。 對於英文原版教程,很多新人有看不懂,學不會的問題。巨集基因組團隊針對這套教程進了翻譯,同時

巨集基因組理論教程6巨集轉錄組

之前分享的加拿大生信網出品的《巨集基因組分析教程》,有1萬多位朋友閱讀,有近2000多小夥伴下載了課程PPT。 但不知有多少小夥伴真正仔細學習過。收藏是沒有用的,只有真正多學幾遍才有收穫。 對於英文原版教程,很多新人有看不懂,學不會的問題。巨集基因組團隊針對這套教程進了翻譯,同時

你想要的巨集基因組-微生物組知識全在這(180901)

徵稿、轉載、合作 文章分類導航目錄 精選文章推薦 培訓、會議、招聘廣告 科研經驗 軟體和資料庫 擴增子分析 巨集基因組分