如何計算每個基因的覆蓋度與深度

阿新 • • 發佈：2018-08-26

target fas 只需要 start 多種方法 request 創建索引進行例如

　如何計算每個基因的覆蓋度與深度，有多種方法可以完成。如下演示使用samtools depth命令方法

　　1. 數據下載

1.1 Fastq文件下載

技術分享圖片

　　從NCBI下載Illumina Hiseq X Ten平臺的RNA-Seq數據SRR7751429信息如上圖所示。

1.1.1 使用wget命令（sra-toolkit工具下載太慢）下載

wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR775/SRR7751429/SRR7751429.sra

1.1.2 在SRA Toolkit工具頁面根據不同操作系統進行下載（例如，我的是編譯好的Centos 64位）

技術分享圖片

1.1.3 使用SRA toolkit工具將SRR7751429.sra數據轉成fastq格式

fastq-dump -split-3 SRR7751429.sra

技術分享圖片

1.2 基因組及註釋文件下載

　　人的參考基因組文件（版本GRCh38）下載

wget ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz
# 解壓
gunzip Homo_sapiens.GRCh38.dna.toplevel.fa.gz

　　人的gtf註釋文件下載

wget ftp://ftp.ensembl.org/pub/release-93/gtf/homo_sapiens/Homo_sapiens.GRCh38.93.gtf.gz
 
# 解壓
gunzip Homo_sapiens.GRCh38.93.gtf.gz

　2. 生成bam文件

　　因為是演示，只需要生成bam文件，我這裏就用bwa比對了，節約時間。

# 創建索引
bwa index /home/Ensembl/Animal/homo_sapiens/Homo_sapiens.GRCh38.dna.all.fa
# 比對
bwa mem -t 32 -M /home/Ensembl/Animal/homo_sapiens/Homo_sapiens.GRCh38.dna.all.fa SRR7751429_1.fastq SRR7751429_2.fastq -o SRR7751429.sam

　3. 基因CDS（編碼區）獲取

3.1 本地獲取基因cds信息

　　下載的Homo_sapiens.GRCh38.93.gtf文件包含有基因exon、cds、3‘utr、5‘utr等相關的物理位置信息，獲取基因CDS信息只需解析該文件就可以了。（有需要的話，後續跟新相關腳本）

3.2 使用ensembl獲取cds信息

　　技術分享圖片

　　如上圖所示，以人BRCA2基因為例，搜到後點擊CCDS，出現該基因的物理位置信息。然後，將該信息復制粘貼，以如下圖所示格式儲存於文件BRCA2.bed中。

技術分享圖片

　4. 使用samtools工具進行統計

　　samtools工具是對SAM/BAM文件進行操作的軟件，其帶有多種統計相關的命令及SAM↔BAM格式轉換的命令。

4.1 SAM文件格式轉換為BAM文件格式

samtools view -@ 16 -bS SRR7751429.sam -o SRR7751429.bam

4.2 sort BAM文件，然後建立BAM文件索引

# sort BAM文件
samtools sort -@ 16 -o SRR7751429_sorted.bam SRR7751429.bam

# 索引BAM文件
samtools index -@ 16 SRR7751429_sorted.bam

4.3 使用depth命令計算bed文件區域中每個位點的深度

samtools depth  -b  BRCA2.bed SRR7751429_sorted.bam >BRCA2.bed.depth

　　一共得到3列以指標分隔符分隔的數據，第一列為染色體名稱，第二列為位點，第三列為覆蓋深度。

4.4 根據BED文件和深度文件來統計大於10×的區域占總CDS區域比例

# -*- coding: utf-8 -*-
from __future__ import division

import csv

# 定義cds文件名路徑
cdsfh = ‘BRCA2.bed‘

# 區域長度
cdslen = 0


with open(cdsfh, ‘r‘) as f:
    cf = csv.reader(f, dialect=‘excel-tab‘)
    for row in cf:
        # 讀取每一行區域
        chrom, start, end = row
        length = int(end) - int(start) + 1
        # 叠代所有的cds區域長度，得到基因cds區域全長
        cdslen += length


# 定義深度文件名路勁
depthfh = ‘BRCA2.bed.depth‘

# 大於10X區域長度
gt10len = 0

with open(depthfh, ‘r‘) as f:
    cf = csv.reader(f, dialect=‘excel-tab‘)
    for row in cf:
        # 讀取每一行區域
        chrom, pos, depth = row
        # 判斷覆蓋度是否大於10X,是的gt10len就自增1
        if int(depth) > 10: gt10len += 1


# 計算編碼區大於10X的區域占總編碼區的比例
percent = gt10len / cdslen * 100

# 輸出
print("%.2f%%" % percent)

　　上述腳本只能針對單個基因，若是多個基因，可結合shell循環實現。

參考資料

samtools

ensembl

如何計算每個基因的覆蓋度與深度

target fas 只需要 start 多種方法 request 創建索引進行例如　如何計算每個基因的覆蓋度與深度，有多種方法可以完成。如下演示使用samtools depth命令方法　　1. 數據下載 1.1 Fastq文件下載　　從NCBI下載Il

葉梓老師開講0基礎學習人工智慧人工智慧之機器學習與深度學習-6術語辨析——雲端計算

雲端計算：通俗的說，就是不用每家每戶弄一個發電機，而是集中建一個發電廠，每家只需要插上插頭就可以用電，根據用電的多少來計費。使用者不用關心發電廠建在哪裡、如何發電，也不用操心如何維護髮電廠本身的運轉和安全。 •雲端計算平臺一般是指涵蓋IT基礎設施、計算資源和平臺作業系統的服務整合體。 •雲平

神經網絡與深度學習

二分基礎矩陣尺寸訓練深度學習 sub 樣本 rgb 第二周神經網絡基礎 2.1 二分分類二分類：訓練一個分類器，輸入圖片的特征向量x，預測結果的標簽是0還是1 輸入rgb圖片尺寸為64*64，則輸入特征向量（列向量）x為64*64*3 寫法：m個訓練樣本 {

[神經網絡與深度學習（一）]使用神經網絡識別手寫數字

線性部分 logs 結構這一可用調整重復 http 1.1 感知器感知器的輸出為： wj為權重，表示相應輸入對輸出的重要性； threshold為閾值，決定神經元的輸出為0或1。也可用下式表示：其中b=-threshold，稱為感知器的偏置

《神經網絡與深度學習》（三）稀疏編碼

學習方法深度學習變體復雜鏈接線性規劃 con images 叠代轉自：http://www.cnblogs.com/caocan702/p/5666175.html 借鑒前人的文章鏈接 http://blog.csdn.net/zouxy09/article

使用JavaBean計算圓的周長與面積

文件 param pan length 面積圓的面積 sin 半徑 javabean 創建名稱為“radiusInput.jsp”的頁面文件，該頁面文件將實現提示用戶輸入圓半徑的功能，主要代碼如下： <body> <form id=

雲計算--網絡原理與應用--20171115

斷開連接廣播自動常用開始連接 ttl 意義流動 IP 協議 ARP協議 TCP/UDP協議網絡傳輸介質一 IP協議網絡層負責定義數據通過網絡流動所經過的路徑。主要功能如下：定義基於IP協議的邏輯地址（IP地址）選擇數據通過網絡的最佳路徑連接不同

JS浮點計算精度問題分析與解決

href 動態控制 hub 截斷 max fix math floating 方案問題描述在JS計算四則運算時會遇到精度丟失的問題，會引起諸多問題，看看以下例子：例如：在chrome控制臺輸入 0.1 + 0.7 輸出結果是 0.7999999999999999 例如

根據Log表的data字段計算每個玩家的總得分

結果 from split clas lba 列表 ray c# 練習需求：線上數據庫的Log表的date字段記錄了每個玩家在每一局的分數，現為了比較“每一局的分數和”與“score”字段的結果是否一致，需要計算每個玩家在每一局的分數總和。分析：mysql>

迷宮問題 - 堆棧與深度優先搜索

tchar ace 通過二維皇後 printf ali 不知道 body 堆棧的訪問規則被限制為Push和Pop兩種操作，Push（入棧或壓棧）向棧頂添加元素，Pop（出棧或彈出）則取出當前棧頂的元素，也就是說，只能訪問棧頂元素而不能訪問棧中其它元素。現在我們用堆棧解

計算每個月多少天

new OS ear turn () body log nth post let date = new Date(time); let y = date.getFullYear(); let m =date.getMonth()+1; if(m == 2){ 　　retu

計算幾何：直線與圓的交點三角形的內切圓和外接圓(5252: Triangle to Hexagon)

.cn ble long precision using get b- circle tar http://exam.upc.edu.cn/problem.php?id=5252 斜截式表示的直線方程求三角形的內切圓和外接圓求直線與直線交點，直線與圓交點 1

NetworkX系列教程(10)-算法之五:廣度優先與深度優先

TE aos 廣度優先搜索寫到廣度優先 comment work form path 小書匠 Graph 圖論重頭戲部分來了,寫到這裏我感覺得仔細認真點了,可能在NetworkX中,實現某些算法就一句話的事,但是這個算法是做什麽的,用在什麽地方,原理是怎麽樣的,不

《神經網絡與深度學習》讀書筆記

1.3 容易讀書筆記自動調整表示引入能夠自動神經網絡 1.1 感知器感知器是一種人工神經元.它接受幾個二進制輸出並產生一個二進制輸入.如果引入權重和閾值,那麽感知器的參數可以表示為:,如果再引入偏置(表示激活感知器有多容易的估算),那麽規則可以簡潔表示

【讀書1】【2017】MATLAB與深度學習——多元分類(3)

假設神經網路在給定輸入資料時產生如圖4-11所示的輸出。 Assume that the neural network produced theoutput shown in Figure 4-11 when given the input data. 圖4-11 當使用sigmo

【讀書1】【2017】MATLAB與深度學習——多元分類(2)

這種轉換意味著每個輸出節點都對映到向量中的一個元素，只有該元素對應的節點產生1。 This transformation implies that eachoutput node is mapped to an element of the class vector, which onl

【讀書1】【2017】MATLAB與深度學習——多元分類(1)

多元分類（Multiclass Classification）本節介紹如何利用神經網路來處理三種或三種以上的分類。 This section introduces how to utilize theneural network to deal with the classific

【讀書1】【2017】MATLAB與深度學習——二元分類(2)

圖4-4 改變分類符號的表示方法Change the class symbolsand the data is classified differently 圖4-4所示的訓練資料是我們用來訓練神經網路的。 The training data shown in Figure 4-4

【讀書1】【2017】MATLAB與深度學習——二元分類(1)

圖4-2 二元分類的訓練資料格式Training data binaryclassification 圖中的前兩個數字分別表示x和y座標，符號表示該資料所屬的類別。 The first two numbers indicate the x and ycoordinates resp

機器學習（四）機器學習與深度學習的實際應用整理

前言本文主要是整理備份機器學習與深度學習的實際應用，儘量給出原始作者網站，包括論文、程式碼和github等原始資料。共勉！實際應用基於深度神經網路的免費開源的人臉識別系統 openface已經到了0.2.1了，備份一個基

如何計算每個基因的覆蓋度與深度

1. 數據下載

1.1 Fastq文件下載

1.1.1 使用wget命令（sra-toolkit工具下載太慢）下載

1.1.2 在SRA Toolkit工具頁面根據不同操作系統進行下載（例如，我的是編譯好的Centos 64位）

1.1.3 使用SRA toolkit工具將SRR7751429.sra數據轉成fastq格式

1.2 基因組及註釋文件下載

2. 生成bam文件

3. 基因CDS（編碼區）獲取

3.1 本地獲取基因cds信息

3.2 使用ensembl獲取cds信息

4. 使用samtools工具進行統計

4.1 SAM文件格式轉換為BAM文件格式

4.2 sort BAM文件，然後建立BAM文件索引

4.3 使用depth命令計算bed文件區域中每個位點的深度

4.4 根據BED文件和深度文件來統計大於10×的區域占總CDS區域比例

參考資料

相關推薦

　　1. 數據下載

　2. 生成bam文件

　3. 基因CDS（編碼區）獲取

　4. 使用samtools工具進行統計