0079-【生信軟體】-人類基因組hg19、hg38構建bwa索引
在臨床資料分析時,使用的人類參考基因組為UCSC上面的hg19,hg39版本,且常常將除1-22,X,Y,M,以外的染色體去除,避免資料的干擾。
hg19索引構建
This directory contains the Feb. 2009 assembly of the human genome (hg19, GRCh37 Genome Reference Consortium Human Reference 37 (GCA_000001405.1)), as well as repeat annotations and GenBank sequences. The Feb. 2009 human reference sequence (GRCh37) was produced by the Genome Reference Consortium: http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/
- 需要下載的檔案
chromFa.tar.gz - The assembly sequence in one file per chromosome. Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case. md5sum.txt - checksums of files in this directory hg19.chrom.sizes - Two-column tab-separated text file containing assembly sequence names and sizes.
- 檢測檔案完整性
# 開啟碼檔案
cat md5sum.txt
## 將chromFa.tar.gz的碼寫入一個新檔案
echo "ec3c974949f87e6c88795c17985141d3 chromFa.tar.gz" > check_md5sum.txt
## 檢測
md5sum -c check_md5sum.txt
##顯示 chromFa.tar.gz: OK
- 檢視染色體,看染色體命名規律
cat hg19.chrom.sizes |head -n 25 ## 顯示 chr1 249250621 chr2 243199373 chr3 198022430 chr4 191154276 chr5 180915260 chr6 171115067 chr7 159138663 chrX 155270560 chr8 146364022 chr9 141213431 chr10 135534747 chr11 135006516 chr12 133851895 chr13 115169878 chr14 107349540 chr15 102531392 chr16 90354753 chr17 81195210 chr18 78077248 chr20 63025520 chrY 59373566 chr19 59128983 chr22 51304566 chr21 48129895 chr6_ssto_hap7 4928567
- 解壓參考基因組,顯示所有染色體單個檔案
tar -zxf chromFa.tar.gz
- 將不要的染色體,移動到暫存的資料夾
mv chrUn_gl0002* chr*_random.fa chr*ctg* chr*apd* chr*cox* chr*hap* temp
#mkdir chrfa
#mv chromFa.tar.gz chrfa/
當面目錄只剩下
chr1.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chr10.fa chr11.fa chr12.fa chr13.fa chr14.fa chr15.fa chr16.fa chr17.fa chr18.fa chr19.fa chr20.fa chr21.fa chr22.fa chrX.fa chrY.fa chrM.fa
- 將需要的染色體進行合併,並移動到單個fa檔案暫存資料夾
for i in chr1.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chr10.fa chr11.fa chr12.fa chr13.fa chr14.fa chr15.fa chr16.fa chr17.fa chr18.fa chr19.fa chr20.fa chr21.fa chr22.fa chrX.fa chrY.fa chrM.fa
do
echo $i;
#cat $i >> hg19.fa
mv $i chrfa
done
- bwa進行索引構建
bwa index -a bwtsw -p hg19.fa hg19.fa
索引構建完後顯示
[BWTIncConstructFromPacked] 670 iterations done. 6154206942 characters processed.
[BWTIncConstructFromPacked] 680 iterations done. 6177547390 characters processed.
[bwt_gen] Finished constructing BWT in 687 iterations.
[bwa_index] 2423.30 seconds elapse.
[bwa_index] Update BWT... 19.05 sec
[bwa_index] Pack forward-only FASTA... 16.77 sec
[bwa_index] Construct SA from BWT and Occ... 1192.17 sec
[main] Version: 0.7.17-r1188
[main] CMD: bwa index -a bwtsw -p hg19.fa hg19.fa
[main] Real time: 3814.250 sec; CPU: 3676.297 sec
檔案生成檢視
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg19$ ls -lht
total 8.0G
-rwxrwxrwx 1 toucan toucan 3.0G Sep 27 09:53 hg19.fa
-rwxrwxrwx 1 toucan toucan 1.5G Sep 27 11:17 hg19.fa.sa
-rwxrwxrwx 1 toucan toucan 6.6K Sep 27 10:57 hg19.fa.amb
-rwxrwxrwx 1 toucan toucan 944 Sep 27 10:57 hg19.fa.ann
-rwxrwxrwx 1 toucan toucan 739M Sep 27 10:57 hg19.fa.pac
-rwxrwxrwx 1 toucan toucan 2.9G Sep 27 10:57 hg19.fa.bwt
-rwxrwxrwx 1 toucan toucan 3.5K Sep 27 13:16 work_index.log
-rwxrwxrwx 1 toucan toucan 685 Sep 27 10:06 work_index.sh
drwxrwxrwx 1 toucan toucan 4.0K Sep 27 09:58 chrfa
drwxrwxrwx 1 toucan toucan 4.0K Sep 27 09:17 temp
drwxrwxrwx 1 toucan toucan 4.0K Sep 27 09:00 download
- 索引構建完成
hg38構建索引
hg38.fa.gz - "Soft-masked" assembly sequence in one file.
Repeats from RepeatMasker and Tandem Repeats Finder (with period
of 12 or less) are shown in lower case; non-repeating sequence is
shown in upper case.
hg38.fa.gz - "Soft-masked" assembly sequence in one file.
Repeats from RepeatMasker and Tandem Repeats Finder (with period
of 12 or less) are shown in lower case; non-repeating sequence is
shown in upper case.
md5sum.txt - checksums of files in this directory
hg38.chrom.sizes - Two-column tab-separated text file containing assembly
sequence names and sizes.
- 檢查檔案完整性
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38/genome/downloads$ echo "1c9dcaddfa41027f17cd8f7a82c7293b hg38.fa.gz" >> check_md5sum.txt
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38/genome/downloads$ echo "a5aa5da14ccf3d259c4308f7b2c18cb0 hg38.chromFa.tar.gz" >> check_md5sum.txt
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38/genome/downloads$ cat check_md5sum.txt
1c9dcaddfa41027f17cd8f7a82c7293b hg38.fa.gz
a5aa5da14ccf3d259c4308f7b2c18cb0 hg38.chromFa.tar.gz
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38/genome/downloads$ md5sum -c check_md5sum.txt
hg38.fa.gz: OK
hg38.chromFa.tar.gz: OK
- 檢視染色體命名規則
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38/genome/downloads$ cat hg38.chrom.sizes |head -n 25
chr1 248956422
chr2 242193529
chr3 198295559
chr4 190214555
chr5 181538259
chr6 170805979
chr7 159345973
chrX 156040895
chr8 145138636
chr9 138394717
chr11 135086622
chr10 133797422
chr12 133275309
chr13 114364328
chr14 107043718
chr15 101991189
chr16 90338345
chr17 83257441
chr18 80373285
chr20 64444167
chr19 58617616
chrY 57227415
chr22 50818468
chr21 46709983
- 解壓染色體單個檔案
tar -zxf hg38.chromFa.tar.gz
cd chroms/
- 合併需要的染色體檔案
mkdir chrfa
cat work.sh
for i in chr1.fa chr2.fa chr3.fa chr4.fa chr5.fa chr6.fa chr7.fa chr8.fa chr9.fa chr10.fa chr11.fa chr12.fa chr13.fa chr14.fa chr15.fa chr16.fa chr17.fa chr18.fa chr19.fa chr20.fa chr21.fa chr22.fa chrX.fa chrY.fa chrM.fa
do
echo $i;
cat $i >> ../hg38.fa
mv $i ../chrfa
done
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38$ rm -rf chroms/
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38$ mv hg38.chromFa.tar.gz chrfa/
檢視結果
[email protected]:/mnt/j/BIO001-bioinfos-refseq-doc/UCSC/hg38$ cat hg38.fa |grep ">"|uniq -c
1 >chr1
1 >chr2
1 >chr3
1 >chr4
1 >chr5
1 >chr6
1 >chr7
1 >chr8
1 >chr9
1 >chr10
1 >chr11
1 >chr12
1 >chr13
1 >chr14
1 >chr15
1 >chr16
1 >chr17
1 >chr18
1 >chr19
1 >chr20
1 >chr21
1 >chr22
1 >chrX
1 >chrY
1 >chrM
- bwa構建索引
bwa index -a bwtsw -p hg38.fa hg38.fa
輸出顯示:
[BWTIncConstructFromPacked] 630 iterations done. 6018708242 characters processed.
[BWTIncConstructFromPacked] 640 iterations done. 6055482898 characters processed.
[BWTIncConstructFromPacked] 650 iterations done. 6088164258 characters processed.
[BWTIncConstructFromPacked] 660 iterations done. 6117207522 characters processed.
[BWTIncConstructFromPacked] 670 iterations done. 6143017202 characters processed.
[BWTIncConstructFromPacked] 680 iterations done. 6165952882 characters processed.
[bwt_gen] Finished constructing BWT in 686 iterations.
[bwa_index] 2564.67 seconds elapse.
[bwa_index] Update BWT... 19.27 sec
[bwa_index] Pack forward-only FASTA... 16.36 sec
[bwa_index] Construct SA from BWT and Occ... 1230.34 sec
[main] Version: 0.7.17-r1188
[main] CMD: bwa index -a bwtsw -p hg38.fa hg38.fa
[main] Real time: 3969.074 sec; CPU: 3855.406 sec
輸出檔案
-rwxrwxrwx 1 toucan toucan 3150052305 Oct 5 15:44 hg38.fa*
-rwxrwxrwx 1 toucan toucan 16843 Oct 5 16:34 hg38.fa.amb*
-rwxrwxrwx 1 toucan toucan 954 Oct 5 16:34 hg38.fa.ann*
-rwxrwxrwx 1 toucan toucan 3088286508 Oct 5 16:33 hg38.fa.bwt*
-rwxrwxrwx 1 toucan toucan 772071602 Oct 5 16:34 hg38.fa.pac*
-rwxrwxrwx 1 toucan toucan 1544143256 Oct 5 16:54 hg38.fa.sa*
其他索引構建
fai結尾
samtools faidx hg19.fa
## 顯示生成
hg19.fa.fai
samtools faidx hg38.fa
dict結尾
gatk CreateSequenceDictionary -R hg19.fa -O hg19.dict
相關推薦
0079-【生信軟體】-人類基因組hg19、hg38構建bwa索引
在臨床資料分析時,使用的人類參考基因組為UCSC上面的hg19,hg39版本,且常常將除1-22,X,Y,M,以外的染色體去除,避免資料的干擾。 hg19索引構建 This directory con
084-【生信軟體】-ANNOVAR軟體幫助文件
安裝 會郵件收到一個軟體安裝包 annovar.latest.tar/ 包含的perl指令碼 [email protected] /opt/script/tool/annovar Sun Oct 07 16:42 forstart $tree
【生信】Fastq與Fasta格式
Fastq與Fasta格式 一、關於Fastq FASTQ是基於文字的,儲存生物序列(通常是核酸序列)和其測序質量資訊的標準格式。其序列以及質量資訊都是使用一個ASCII字元標示,最初由Sanger開發,目的是將FASTA序列與質量資料放到一起,目前已經成為高通量測序結果的事實標準。
【生信】KEGG資料庫線上使用
KEGG資料庫線上使用 KEGG簡介 KEGG是一個整合了基因組、化學和系統功能資訊的資料庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG資料庫的特色之一。與其他資料庫相比,KEGG 的一個顯著特點就是具有強大的圖
【生信】Docker生信基礎
Docker生信基礎 Docker可以做什麼? 提供一個虛擬化的操作平臺,便於安裝依賴不同版本系統的工具軟體 提供一個即時可用的應用軟體或流程的映象,開發者可將軟體部署到映象中,使用者直接下載使用 提供一個系統資源分配的靈活方式,可以為不同使用者的程式分配獨立的計算
【生信】“隨機森林”在生物資訊學方面的應用
“隨機森林”在生物資訊學方面的應用 簡介 隨機森林是一種基於決策樹的機器學習演算法,可以用於樣本分類或迴歸任務,屬於非線性分類器。因此它可以挖掘變數之間複雜的非線性的相互依賴關係。通過隨機森林分析,可以找出區分兩組樣本間差異的關鍵成分。 基礎知識 1. 整合學習(ensemb
【微信開發】02.搭建一個屬於自己的微信公眾平臺
tro 投票 新浪 關系 blank 訂閱 logs name 開發者 閱讀目錄 【網站開發】在新浪SAE上搭建一個博客 概述 公司年會上同事開發了一個微信企業號,包含了投票,抽獎,祝福墻功能,還開了一個Session,跟我們講了下公司的企業號開發過程和抽獎中獎
【微信開發】-- 發送模板消息
use keyword 選擇 調用 一次 png exc style col 我們需要將一些行為的進展消息推送給用戶。除了短信,發送微信模板消息也是不錯的選擇。模板消息免費、精準到達、而且可以引導用戶回到網站上來。但它有兩個前提條件。1個是必須開通了微信支付功能,你才能選擇
【微信開發】微信公眾號後臺底部選單欄json資料加入(獲取)方式操作
首先獲取微信公號的 開發者ID(AppID) 開發者密碼(AppSecret) 登入公眾號 找到以下選項 找到獲得access_token的引數 根據引數取得access_token URL: https://a
【c語言入門軟體】dev新建工程、執行和除錯
dev新建工程、執行和除錯 上一次安裝中,曾讓你們把安裝路徑記下來,現在我們可以找到安裝路徑,拷貝出裡面的help資料夾,開啟到這裡,我們將比較官方的形式來了解以下dev的使用。 1.Editing 在編輯之前,我們需要新建一個dev的工程和擬寫一個簡單的程式
【微信開發】上傳使用者語音 並轉碼 分享
好久沒有寫部落格了,這段時間遇到了很多問題都沒有記錄下來 今天剛好上線了一個小活動,期間遇到一些比較折騰的問題,撐著有時間記錄一下 需求 臨近聖誕節,運營組想了一個活動來拉新,活動的大概內容是這樣的; 使用者訪問活動首頁, 點選 【我想說】 然後呼叫微信的 JSDK 來錄音,錄
【Mac日曆軟體】小歷 TinyCal for Mac中文破解版
小歷 Mac破解版是一款小巧輕量級的日曆軟體,它為使用者顯示農曆、節日節氣和法定節假日,所有功能一應俱全!是一款不可多得的日曆軟體,堪稱Mac平臺上最優秀,最好用的日曆軟體! 小歷 TinyCal for Mac(小而美的日曆軟體) v1.10.0中文破解版下載地址 小歷Mac版軟體介
【frank 的專欄】人類的一切智慧是包含在這四個字裡面的:”等待“ 和 ”希望“。—— 《基督山伯爵》
個人介紹 我是一名程式設計師,但也是一位文學愛好者,興趣廣泛,對這個世界美好事物充滿好奇心。天文地理、大象螞蟻,我將不定期發表 IT 技術類文章、讀書筆記、影評、廚藝分享,如果你覺得有趣,可以關注我的公眾號,這個世界值得我們一起學習與探索。
【生成樹,堆】【CF1095F】 Make It Connected
Description 給定 \(n\) 個點,每個點有點權,連結兩個點花費的代價為兩點的點權和。另外有 \(m\) 條特殊邊,引數為 \(x,y,z\)。意為如果你選擇這條邊,就可以花費 \(z\) 的代價將點 \(x\) 和點 \(y\) 連結起來,當然你也可以不選擇這條邊。求使整個圖聯通的最小代價
【微信支付】調起微信支付,總是顯示-1的解決辦法
如果你檢查過 APPID,檢查過商戶號,檢查過包名,檢查過應用簽名,依然顯示 -1 那麼你可以嘗試我這種方式 記住下面這句話 https://pay.weixin.qq.com/wiki/doc/api/app/app.php?chapter=8_5 商戶伺服器生成支付訂
【微信授權】極其簡單的實現方法
強烈推薦使用一個工具包,在maven的中心倉庫中搜索"weixin-java"就可以搜尋到,感謝這位大佬的作品,大大簡化了微信端開發的難度。 接下來是一個簡單例子,是我在我的實際專案中抽取出來的一部分,專案使用的是springboot框架,但是無論使用什麼框架微信授權的步驟
一個二維碼掃描自動識別下載應用【微信提示】
先前寫了一個關於二維碼掃描自動識別裝置系統,並自動去下載相應版本的APP, 前一段時間微信掃描後,則不可再下載,原因是微信遮蔽了,只能提示使用者從瀏覽器開啟,並自動下載; 下載的介面效果: 下載的 download.html 程式碼段: <!DOCTYP
【微信支付】小程式之企業支付
之前,做過的是公眾號發紅包的操作,今天我要介紹的是微信支付的企業支付,小程式之內的企業支付。 如果對企業支付不瞭解的,可以點此連結去看下微信官方的企業支付介紹。 企業支付傳送的主體,也是根據微信公眾號一樣獲取的到的openID來發送,不同於紅包的
【微信混淆】微信新的jar混淆無法分享問題
場景:最近公司需要做微信支付,引用新的jar包,發現混淆後無法分享。 思路:1、開始以為是支付的jar包和分享的不一致,最後換了一個統一的,使用微信Sample分享沒有問題 2、將Sample改
【微信開發】開啟開發者模式
前言 我們利用微信公眾平臺為使用者提供服務的方式基本上可以分為兩種: 後臺編輯模式 ,公眾號管理員直接在微信後臺處理使用者請求。 開發者模式,使用微信提供的介面,將使用者的請求通過微信平臺轉發到開發者的應用程式中。 在開發者