人類基因組本地化及簡單分析

阿新 • • 發佈：2019-02-09

在NCBI上下載 GRCh38

wget ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz

解壓檔案（.fasta, .fa, .fna, .fsa, .mpfa）

gzip  -d GRCh38_latest_genomic.fna.gz
#人的h38基因組是3G的大小，一個英文字元是一個位元組，所以30億bp的鹼基就是3G左右

head GRCh38_latest_genomic.fna

這裡寫圖片描述
檢視該檔案可以看到，裡面有很多的N，這是基因組裡面未知的序列，用N佔位，但是覺得部分都是A.T.C.G這樣的字元，大小寫都有，分別代表不同的意思

統計了一下里面這個檔案的行數

time wc -l GRCh38_latest_genomic.fna

這裡寫圖片描述

用awk統計行數（效率相比wc –l 慢）

time awk 'END { print NR }' GRCh38_latest_genomic.fna

這裡寫圖片描述

看一下標題行

grep '>' GRCh38_latest_genomic.fna | sed -n 'p'
grep '>' GRCh38_latest_genomic.fna | sed -n 'p' >> list.txt

統計每個標題下基因片段的長度，提取標題和長度寫入一個新檔案

time python GECh38_title_length.py

fasta_file=open('/home/sunchengquan/GRCh38_latest_genomic.fna','r')
out_file = open('GRCh38_title_length.txt','w')
seq = ''
i = 0
for line in fasta_file:
    if line[0] == '>' and seq == '':
        header = line.strip()
    elif line[0] != '>':
        seq =seq + line 
.strip()
    elif line[0] == '>' and seq != '':
        num = len(seq)
        out_file.write(header +'\n'+ str(num)+ '\n')
        i += 1
        print('writing:',i)
        seq = ''
        header = line.strip()
 out_file.close()

看一下GRCh38_title_length.txt裡面的內容

這裡寫圖片描述

提取標題行，新增到列表，並列印

time python GECh38_title.py

input_file=open("/home/sunchengquan/GRCh38_latest_genomic.fna","r")
title_list = []
for line in input_file:
    if line[0] == '>':
        field = line
        title_list.append(field)
        print(field)
類似於
grep '>' GRCh38_latest_genomic.fna | sed -n 'p' > list.txt

這裡寫圖片描述

人類基因組本地化及簡單分析

在NCBI上下載 GRCh38 wget ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_i

Jmeter使用流程及簡單分析監控（轉載）

轉載自：https://www.cnblogs.com/linglingyuese/archive/2013/03/04/linglingyuese-one.html#undefined 一、安裝Jmeter 1、下載Jmeter 下載地址：http://jmeter.a

外交部發言人發言語料抓取及簡單分析

花了點時間，把外交部網站上的發言人表態一欄中的資料全部抓取下來，按照一定的格式保存於檔案中，時間範圍是2010-09-14～2014-06-18，如果跑在伺服器上的話，可以做增量更新，即若有更新每天下載一篇新的文章。我國的外交部發言人制度是在1983年3月1日開始設立的，但

比特幣區塊結構Merkle樹及簡單支付驗證分析

關註公眾號分支 images 相對一份出現受限字節在比特幣網絡中，不是每個節點都有能力儲存完整的區塊鏈數據，受限於存儲空間的的限制，很多節點是以SPV（Simplified Payment Verification簡單支付驗證）錢包接入比特幣網絡，通過簡單支付

從零開始Rtklib解讀篇-簡單的程式設計理論和演算法及結構分析（四）

首先我們來說一說VS常用的除錯技巧，比較常用的內容我會寫在下面。 1、斷點。我就不細說了。 2、條件斷點，在斷點上右鍵，彈出的選單可以選擇條件設定，在找一些問題的時候會比較快一點。我有時會配合靜態變數強行搜尋到error發生前。 3、檢視指標值，監視視窗輸入，比如p,3 ，即可檢視p

從零開始Rtklib解讀篇-簡單的程式設計理論和演算法及結構分析（三）

1. argc和argv argc和argv中的arg指的是"引數"，首先是一個計算提供的引數到程式，第二個是對字串陣列的指標 argc: 整數,用來統計你執行程式時送給main函式的命令列引數的個數 * argv[ ]: 字串陣列，用來存放指向你

從零開始Rtklib解讀篇-簡單的程式設計理論和演算法及結構分析（二）

從bin裡進入。主進入方式為RTKLAUNCH.exe 第一個RTKPLOT右上角的小方塊可以勾選NormalAPs，RTKPOST_MKL，RTKPOST_WIN64, Minimize等選項。通常是第一個。另外64位系統下通常也是選用NormalAPs，RTKPOST_WIN

從零開始Rtklib解讀篇-簡單的程式設計理論和演算法及結構分析（一）

Rtklib一直開源，資源比較容易找到，功能也非常強大。因為專業有點相關，但是之前不用這個平臺，一直未能好好沉下心來學習，然而學到用時方恨少。這個系列也算是自己的一個小小的總結吧，因為我對VS、對Rtklib、對演算法的理解也比較淺，很多內容未必正確，寫的時候也不一定非常有條理，不當之處，還請指出並

全基因組重測序基礎及高階分析知識彙總

全基因組重測序基礎及高階分析知識彙總 oddxix 已關注 2018.09.20 17:04 字數 11355 閱讀 212評論 0喜歡 6 轉自：http://www.360doc.com/conten

20181117--深入淺出區塊鏈Merkle樹及簡單支付驗證分析

Merkle樹驗證交易的過程和檔案驗證很相似，可以人為每個交易是一個小資料塊，但比特幣使用Merkle樹的方式進行驗證，相對於雜湊列表，Merkle樹是一種雜湊二叉樹，它的明顯的一個好處是可以單獨拿出一個分支來（作為一個小樹）對部分資料進行校驗，更加高效。我們回看下上面的區塊結

我不想成為鹹魚系列之字串建立方式及記憶體的簡單分析

前言:今天不學習,明天變鹹魚我們都知道建立字串的方式有兩種(基本的建立方式,clone序列化...不考慮) a.String s1 = "asdf"; b.String s2 = new String("asdf"); 我們首先分析下他在記憶體中的分配情況: 對於s1來說他

HashMap實現原理分析及簡單實現一個HashMap

HashMap實現原理分析及簡單實現一個HashMap 歡迎關注作者部落格簡書傳送門轉載@原文地址 HashMap的工作原理是近年來常見的Java面試題。幾乎每個Java程式設計師都知道HashMap，都知道哪裡要用HashMap，知道HashMap和

NAT-T技術原理簡單分析及應用實驗解析

1.首先我們就IPSEC VPN的部署場景來做簡要分析: 場景1:如圖所示，企業的總部與分支機構分別架設了VPN裝置，分支機構的需求是同步企業內部的業務資料（屬企業內部的機密資訊），那麼就必須確保資料在公網上是安全包密傳遞的。這種情況下我們可以直接用IPSEC

WebView簡單介紹及程式碼分析

Intent intent = getIntent(); String url = intent.getStringExtra("murl"); web_view.setWebViewClient(new WebViewClient()); WebSett

python資料探勘資料分析pandas的介紹及簡單例子

pandas是python下最有力的資料探勘和資料分析的工具之一，支援類似於SQL的資料庫的增、刪、查、改，並且帶有豐富的資料處理函式，支援時間序列的分析功能，支援靈活處理缺失資料。pandas基本的資料結構是Series和DataFrame，series就是序列，類似於一

spring之mvc原理分析及簡單模擬實現

subst request 配置文件 location dap tro build classes getname 　　在之前的一篇博客中已經簡單的實現了spring的IOC和DI功能，本文將在之前的基礎上實現mvc功能。一什麽是MVC 　　MVC簡單的說就是一種軟件實

AndroidVideoCache簡單使用及原始碼分析

對於視訊播放，如果需要用到快取，AndroidVideoCach是一個不錯的選擇，該專案地址：優缺點：優點：1、使用簡單，支援設定快取視訊的大小或個數； 2、支援斷點快取（一段視訊快取一部分後，

自定義陣列及簡單時間複雜度分析

前言：作為java的一種容器，陣列的優缺點同樣明顯優點：使用簡單，查詢效率高，記憶體為連續的區域缺點：大小固定，不適合動態儲存，不方便動態新增一、自定義實現陣列 1、Java中定義陣列的三種形式 // 第一種：陣列格式型別[] 陣列名 = n

@Controller及@RestController註解簡單分析及應用場景

一、@Controller 1.作用：控制器類，處理由DispatcherServlet分發的請求，它把使用者請求的資料經過業務處理層處理之後封裝成一個Model ，然後再把該Model返回給對應的View進行展示 2.相關：需要在spring的配置中指定controll

簡單工廠與工廠模式原理及案例分析

工廠方法的規範性定義描述為：工廠方法模式定義了一個建立物件的介面，但由子類決定要例項化的類是哪一個。工廠方法讓類把例項化推遲到子類。在學習工廠方法前，我們應該先了解簡單工廠這一種偽模式

人類基因組本地化及簡單分析

相關推薦