得到一個物種所有基因的TSS(轉錄起始位點)區域的bed檔案。

阿新 • • 發佈：2022-05-03

首先在UCSC的table browser 裡面下載下面這個檔案：

可以看到我這裡選擇的mm10的refseq系統的所有基因，共有29037個不同的tss，36872個轉錄本，只有24540個基因，說明有部分基因有多個tss，這個其實挺麻煩的。

#bin    name    chrom   strand  txStart txEnd   cdsStart    cdsEnd  exonCount   exonStarts  exonEnds    score   name2   cdsStartStat    cdsEndStat  exonFrames0    NM_001282945    chr1    -   134199214   134235457   134202950   134234355   3   134199214,134234014,134235227,  134203590,134234446,134235457,  0   Adora1  cmpl    cmpl    2,0,-1,0    NM_001039510    chr1    -   134199214   134235457   134202950   134234355   3   134199214,134234014,134235227,  134203590,134234412,134235457,  0   Adora1  cmpl    cmpl    2,0,-1,0    NM_001291930    chr1    -   134199214   134235457   134202950   134203505   2   134199214,134235227,    134203590,134235457,    0   Adora1  cmpl    cmpl    0,-1,0    NM_001291928    chr1    -   134199214   134234856   134202950   134234733   2   134199214,134234662,    134203590,134234856,    0   Adora1  cmpl    cmpl    2,0,0    NM_001008533    chr1    -   134199214   134235457   134202950   134234355   2   134199214,134234014,    134203590,134235457,    0   Adora1  cmpl    cmpl    2,0,

其實裡面可以設定直接下載所有基因的TSS區域的bed檔案，可是我不會設定各種引數，也懶得去摸索，直接對上面的檔案我可以寫指令碼處理得到需要的資料形式。需要輸出的是bed格式檔案，如下： chrom / chromStart /chromEnd /name /score /strand 我這裡定義的TSS(轉錄起始位點)區域上下游2.5kb，所以程式碼如下：

perl -alne '{next if /^#/;if($F[3] eq "+"){$start=$F[4]-2500;$end=$F[4]+2500}else{$start=$F[5]-2500;$end=$F[5]+2500}print join("t",$F[2],$start,$end,$F[12],0,$F[3])}' ucsc.refseq.txt |sort -u >ucsc.refseq.tss.bed

最後得到的檔案如下：

tail ucsc.refseq.tss.bed chrY    816212  821212  Uba1y   0   +chrY    81798997    81803997    Gm20747 0   -chrY    82222714    82227714    Gm20736 0   +chrY    83925411    83930411    Gm20854 0   -chrY    85527019    85532019    Gm20854 0   -chrY    8832669 8837669 Gm20815 0   -chrY    895287  900287  Kdm5d   0   +chrY    90752550    90757550    G530011O06Rik   0   -chrY    90782941    90787941    Erdr1   0   +chrY    90836906    90841906    G530011O06Rik   0

這裡面會有一個問題，對於部分基因在非正常染色體的，會出現如下詭異的結果，建議乾脆刪除掉。

chr4_GL456216_random    13380   18380   Dhrsx   0   +chr4_GL456350_random    -1369   3631    Ccl21c  0   -chr4_GL456350_random    -1369   3631    Gm10591 0   -chr4_GL456350_random    -1369   3631    Gm13304 0   -

記住，這個時候，部分基因還有多個tss哦，反正取決於你的下游分析流程啦。

得到一個物種所有基因的TSS(轉錄起始位點)區域的bed檔案。

首先在UCSC的table browser 裡面下載下面這個檔案：可以看到我這裡選擇的mm10的refseq系統的所有基因，共有29037個不同的tss，36872個轉錄本，只有24540個基因，說明有部分基因有多個tss，這個其實挺麻煩的。

一個植物轉錄組專案的實戰

轉錄組轉錄組測序的研究物件為特定細胞在某一功能狀態下所能轉錄出來的所有 RNA 的總和，包括 mRNA 和非編碼 RNA 。通過轉錄組測序，能夠全面獲得物種特定組織或器官的轉錄本資訊，從而進行轉錄本結構研究

生物資訊學技能面試題(第5題)-根據GTF畫基因的多個轉錄本結構

可以下載各種gtf，從NCBI,ENSEMBL,UCSC,GENCODE都可以！(記住，你下載什麼樣的gtf就需要修改成什麼樣的程式碼！！！)本文來源於我的個人部落格：

比較不同的對單細胞轉錄組資料尋找差異基因的方法

背景介紹如果是bulk RNA-seq，那麼現在最流行的就是DESeq2 和 edgeR啦，而且有很多經過了RT-qPCR 驗證過的真實測序資料可以來評價不同的差異基因演算法的表現。

專案文章 | 90天見刊，易基因m6A RNA甲基化(MeRIP)+轉錄組組學研究

喜報！易基因m6A RNA甲基化測序（MeRIP-seq）研究快速出成果，自送樣到見刊僅90天

手寫一個React-Redux，玩轉React的Context API

上一篇文章我們手寫了一個Redux，但是單純的Redux只是一個狀態機，是沒有UI呈現的，所以一般我們使用的時候都會配合一個UI庫，比如在React中使用Redux就會用到React-Redux這個庫。這個庫的作用是將Redux的狀態機和Re

Azure 解決方案：藉助Media Service實現實時轉錄

51CTO 部落格地址：https://blog.51cto.com/14669127 部落格園部落格地址：https://www.cnblogs.com/Nancy1983

聯想為Win10 PC推出Lenovo Voice Pro數字語音助理：支援轉錄視訊字幕

10 月 13 日訊息近日，聯想宣佈推出全球首款可摺疊 PC——ThinkPad X1 Fold。ThinkPad X1 Fold 採用輕質合金和碳纖維材質，而且採用了英特爾酷睿處理器與英特爾混合技術。

高階轉錄組分析和R語言資料視覺化第十二期（線上線下同時開課）

“ 福利公告：為了響應學員的學習需求，經過易生信培訓團隊的討論籌備，現決定安排擴增子16S分析、巨集基因組、Python課程線上直播課。報名參加線上直播課的老師可在1年內選擇參加同課程的一次線下課。期

SC2disease：人類疾病的單細胞轉錄組的人工收集資料庫

SC2disease：人類疾病的單細胞轉錄組的人工收集資料庫近日，國際權威學術期刊《核酸研究》（Nucleic Acids Research）發表了西北工業大學、西安交通大學、哈爾濱工業大學、復旦大學、天津大學等團隊合作開

查詢oracle中所有使用者資訊(轉)

----查詢oracle中所有使用者資訊 ----1、查詢資料庫中的表空間名稱 ----1)查詢所有表空間

將一個64位整數U64轉變為4個16位整數U16（或U32轉為4個U8）

技術標籤：C++ 今天需要將一個U64時間戳轉化為4個U16，記錄一下 #include<stdio.h>

Postgresql 實現查詢一個表/所有表的所有列名

假設postgres有資料庫testdb 在testdb下執行下列sql語句，得到所有表的資訊 select * from information_schema.columns

Rosalind第二題：將DNA轉錄為RNA

技術標籤：控制科學與工程python http://rosalind.info/problems/rna/ 問題的RNA串是字串從形成的字母含有“A”，“C”，“G”，和“U”。

doccano標註後的序列標註任務資料轉錄為BIO形式

技術標籤：自然語言處理python自然語言處理深度學習掃碼關注公眾號“自然語言處理與演算法”，帶你搞NLP~ 今兒是2020年12月31日，本年度最後一更，盆友們，2021再見！繼續努力鴨~

微軟 Teams 上線實時語音轉錄功能，可在視訊會議時轉錄字幕

3 月 9 日訊息微軟近日更新了 Microsoft 365 路線圖，表示實時語音轉錄功能正在 Windows 和 macOS 平臺的 Teams 應用中推出。

微軟推出 Group Transcribe 應用：多人多語言會議，免費實時語音到文字轉錄並翻譯

3 月 19 日訊息近期，微軟針對面對面對話和會議推出了免費實時語音到文字轉錄和翻譯應用程式——Group Transcribe。一方面，Group Transcribe 可以通過手機把會議的語音內容實時轉錄為文字，供與會者閱讀和瀏覽。另

js 分享一個js的hex字串轉數字,數字轉hex字串的案例(通用與u64,s64,u32,s32,u16,s16,u8,s8,大小端)

<!DOCTYPE html> <html> <head> <meta charset=\"utf-8\"> <title>菜鳥教程(runoob.com)</title>

如何求一個集合所有的子集

記求一個集合的所有子集的三種方法來源：記求一個集合的所有子集的三種方法-zhyjc6\'s Blog

// 01、封裝一個方法，要求把給定的任意的 IP 字串，轉化成 32 位的二進位制字串。

得到一個物種所有基因的TSS(轉錄起始位點)區域的bed檔案。

相關推薦