生物資訊學技能面試題(第4題)-多個同樣的行列式檔案合併起來

阿新 • • 發佈：2022-05-03

相信用過htseq-count的朋友都知道，它是分開對每個樣本計算所有的基因表達量，所以會生成一個個獨立的檔案，我用perl指令碼模仿它的結果如下：

$ head a.txt gene_1 178 gene_2 692 gene_3 486 gene_4 666 gene_5 395 gene_6 48 gene_7 926 gene_8 733 gene_9 660 gene_10 578

第一列是基因，第二列是該基因的counts值，共有a~z這26個樣本的counts檔案，需要合併成一個大的行列式，這樣才能匯入到R裡面做差異分析，如果手工用excel表格做，當然是可以的，但是太麻煩，如果有500個樣本，正常人都不會去手工做了，需要程式設計。生成測試檔案的程式碼如下：

#首先新建檔案tmp.sh 輸入這個程式碼：

perl -le '{print "gene_$_t".int(rand(1000)) foreach 1..99}'

## 然後用perl指令碼呼叫這個tmp.sh檔案：

perl -e 'system(" bash tmp.sh >$_.txt") foreach a..z'

##這樣就生成了a~z這26個樣本的counts檔案

用shell或者perl或者python，設定R語言都可以做，但是各有優缺點，而且如果每個樣本的基因順序並不一致，這時候你應該怎麼做呢？實際需求如下：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE48213

裡面有56個檔案(ftp://ftp.ncbi.nlm.nih.gov/geo/s ... pl/GSE48213_RAW.tar)，需要合併成一個表達矩陣，來根據cell-line的不同，分組做差異分析。 paper是：https://www.ncbi.nlm.nih.gov/pubmed/24176112 輸出的表達矩陣，如下所示：

先給一下shell結合R語言的做法：

## 首先在GSE48213_RAW目錄裡面生成tmp.txt檔案

awk '{print FILENAME"t"$0}' * |grep -v EnsEMBL_Gene_ID >tmp.txt

## 然後把tmp.txt匯入R語言裡面用reshape2處理即可！

setwd('tmp/GSE48213_RAW/')

a=read.table('tmp.txt',sep = 't',stringsAsFactors = F)

library(reshape2)

fpkm <- dcast(a,formula = V2~V1)

生物資訊學技能面試題(第4題)-多個同樣的行列式檔案合併起來

相信用過htseq-count的朋友都知道，它是分開對每個樣本計算所有的基因表達量，所以會生成一個個獨立的檔案，我用perl指令碼模仿它的結果如下：

生物資訊學技能面試題(第5題)-根據GTF畫基因的多個轉錄本結構

可以下載各種gtf，從NCBI,ENSEMBL,UCSC,GENCODE都可以！(記住，你下載什麼樣的gtf就需要修改成什麼樣的程式碼！！！)本文來源於我的個人部落格：

JVM08_方法的重寫、棧幀之方法返回地址和一些附加資訊、一些面試題

虛方法表上例中，因為存在虛方法表，所以對於toString()\\hashCode()這種方法，就不會再去Son的父類向上找，直接找的就是虛方法表中的方法入口，加快執行效率

Java面試題集錦(4)：執行緒不安全之ArrayList、Set、Map

技術標籤：java 我們知道ArrayList是執行緒不安全的，請編碼寫一個不安全的案例並給出解決方案？

C語言面試題分享(4)

技術標籤：C語言面試題分享c語言一、下列程式的輸出結果是________。 int main(void)

golang面試題第十天

技術標籤：golang面試題go語音golanggo 第十天 1.下面這段程式碼輸出什麼？ func main() {

Java基礎面試題第五天

switch語句小括號中表達式資料型別 Jdk1.5之前: byte,short,char,int Jdk1.5: 列舉型別(暫時不用理解, 後面單獨講解列舉型別)

Java基礎面試題第四天

自增自減運算練習題 1）案例1:定義變數 int a = 10;int b = 5;分別計算a++和++a的結果; 以及--b和b--的結果;

Java基礎面試題第九天

遞迴什麼叫遞迴：自己呼叫自己，直到滿足一個條件結束自己呼叫自己的過程

2021-2022-1 20211405《資訊保安專業導論》第4周學習總結

作業資訊 2020-2021-1資訊保安專業導論 <2020-2021-1資訊保安專業導論> 2020-2021-1資訊保安專業導論第四周作業

2021-2022-1 20211412 《資訊保安專業導論》第4周學習總

2021-2022-1 20211412 《資訊保安專業導論》第4周學習總結作業資訊 |這個作業屬於哪個課程| https://edu.cnblogs.com/campus/besti/2021-2022-1fois

2021-2022-1 20211312 《資訊保安專業導論》第4周學習總結

2021-2022-1 20211312 《資訊保安專業導論》第4周學習總結作業資訊這個作業屬於哪個課程

20211309 《資訊保安專業導論》第4周學習總結

2021-2022-1 20211309 《資訊保安專業導論》第4周學習總結作業資訊這個作業屬於哪個課程 | https://edu.cnblogs.com/campus/besti/2021-2022-1fois|

2021-2022 20211404《資訊保安專業導論》第4周學習總結

2021-2022-1 20211423 《資訊保安專業導論》第四周學習總結作業資訊 <班級的連結>（如2020-2021-1資訊保安專業導論）|

資訊保安技術實用教程-第4版---張同光---ISBN-9787121423031---1.7-本書實驗環境

資訊保安技術實用教程-第4版---張同光---ISBN-9787121423031---1.7-本書實驗環境https://www.cnblogs.com/ztguang/p/12828764.html主編：張同光ISBN號： 978-7-121-42303-1 9787121423031出版日期： 2021-11-20出

資訊保安技術實用教程-第4版---張同光---ISBN-9787121423031---5.4.2例項——緩衝區溢位攻擊WindowsXPSP3

資訊保安技術實用教程-第4版---張同光---ISBN-9787121423031---5.4.2例項——緩衝區溢位攻擊WindowsXPSP3https://www.cnblogs.com/ztguang/p/12828764.html主編：張同光ISBN號： 978-7-121-42303-1 9787121423031

資訊保安技術實用教程-第4版---張同光---ISBN-9787121423031---4.4例項——入侵Windows10

資訊保安技術實用教程-第4版---張同光---ISBN-9787121423031---4.4例項——入侵Windows10https://www.cnblogs.com/ztguang/p/12828764.html主編：張同光ISBN號： 978-7-121-42303-1 9787121423031出版日期： 2021

資訊保安技術實用教程-第4版---張同光---ISBN-9787121423031---3.4.3例項——用非對稱加密演算法加密檔案

資訊保安技術實用教程-第4版---張同光---ISBN-9787121423031---3.4.3例項——用非對稱加密演算法加密檔案https://www.cnblogs.com/ztguang/p/12828764.html主編：張同光ISBN號： 978-7-121-42303-1 9787121423031

資訊保安技術實用教程-第4版---張同光---ISBN-9787121423031---7.5例項——KaliLinux中建立WiFi熱點

資訊保安技術實用教程-第4版---張同光---ISBN-9787121423031---7.5例項——KaliLinux中建立WiFi熱點https://www.cnblogs.com/ztguang/p/12828764.html主編：張同光ISBN號： 978-7-121-42303-1 9787121423031出版日

Java面試題【4】

28）Java 棧和堆的區別 1 棧：為編譯器自動分配和釋放，如函式引數、區域性變數、臨時變數等等

生物資訊學技能面試題(第4題)-多個同樣的行列式檔案合併起來

相關推薦