R語言 Julia以及全基因組選擇

阿新 • • 發佈：2018-11-03

小編著：
最近在學Julia語言，想測試一下和R的區別，發現前輩的部落格，翻譯時不禁感慨，這是2018年了，部落格是2010年的，8年已過，我才聽說Julia。但……不晚！

文章來源： https://www.r-bloggers.com/r-julia-and-genome-wide-selection/

我想起一些瑣事的事情，以及一些斷裂的程式碼，在2010年我參加了基因組選擇的summer school（http://taurus.ansci.iastate.edu/wiki/pages/E4o0S0C7/Course_materials.html），共有2000個個體，20000個SNP（0,1,2），然後使用MCMC 計算育種值，使用的是R語言。

nmarkers = 2000;    # number of markers
startMarker = 1981; # set to 1 to use all
numiter  = 2000;    # number of iterations
vara     = 1.0/20.0; 

# input data
data     = matrix(scan("trainData.out0"),ncol=nmarkers+2,byrow=TRUE);
nrecords = dim(data)[1];

beg = Sys.time()

# x has the mean followed by the markers 

x = cbind(1,data[,startMarker:nmarkers]);
y = data[,nmarkers+1];
a =  data[,nmarkers+2];
# inital values

nmarkers = nmarkers - startMarker + 1;
mean2pq = 0.5;                          # just an approximation
scalea  = 0.5*vara/(nmarkers*mean2pq);  # 0.5 = (v-2)/v for v=4

size = dim(x)[2];
b = array(0.0,size);
meanb = b;
b[1 
] = mean(y);
var  = array(0.0,size);

# adjust y
 ycorr = y - x%*%b;                  

# MCMC sampling
for (iter in 1:numiter){
  # sample vare
  vare = ( t(ycorr)%*%ycorr )/rchisq(1,nrecords + 3);

  # sample intercept
  ycorr = ycorr + x[,1]*b[1];
  rhs = sum(ycorr)/vare;
  invLhs = 1.0/(nrecords/vare);
  mean = rhs*invLhs;
  b[1] = rnorm(1,mean,sqrt(invLhs));
  ycorr = ycorr - x[,1]*b[1];
  meanb[1] = meanb[1] + b[1];

  # sample variance for each locus
  for (locus in 2:size){
    var[locus] = (scalea*4+b[locus]*b[locus])/rchisq(1,4.0+1)
  }

# sample effect for each locus
  for (locus in 2:size){
    # unadjust y for this locus
    ycorr = ycorr + x[,locus]*b[locus];
    rhs = t(x[,locus])%*%ycorr/vare;
    lhs = t(x[,locus])%*%x[,locus]/vare + 1.0/var[locus];
    invLhs = 1.0/lhs;
    mean = invLhs*rhs;
    b[locus]= rnorm(1,mean,sqrt(invLhs));
    #adjust y for the new value of this locus
    ycorr = ycorr - x[,locus]*b[locus];
    meanb[locus] = meanb[locus] + b[locus];
  }
}

Sys.time() - beg

meanb = meanb/numiter;
aHat  = x %*% meanb;

然後，我們需要定義幾個新的變數，將基因組資料，表型資料以及育種值資料讀進矩陣裡面，簡歷幾個迴圈，進行向量的運算。

我使用Julia去做類似的事情：

nmarkers = 2000    # Number of markers
startmarker = 1981 # Set to 1 to use all
numiter = 2000     # Number of iterations

data = dlmread("markers.csv", ',')
(nrecords, ncols) = size(data)

tic()

#this is the mean and markers matrix
X = hcat(ones(Float64, nrecords), data[:, startmarker:nmarkers])
y = data[:, nmarkers + 1]
a = data[:, nmarkers + 2]

nmarkers = nmarkers - startmarker + 1
vara = 1.0/nmarkers
mean2pq = 0.5

scalea  = 0.5*vara/(nmarkers*mean2pq) # 0.5 = (v-2)/v for v=4

ndesign = size(X, 2)
b = zeros(Float64, ndesign)
meanb = zeros(Float64, ndesign)
b[1] = mean(y)
varian  = zeros(Float64, ndesign)

# adjust y
ycorr = y - X * b                  

# MCMC sampling
for i = 1:numiter
  # sample vare
  vare = dot(ycorr, ycorr )/randchi2(nrecords + 3)

  # sample intercept
  ycorr = ycorr + X[:, 1] * b[1];
  rhs = sum(ycorr)/vare;
  invlhs = 1.0/(nrecords/vare);
  mn = rhs*invlhs;
  b[1] = randn() * sqrt(invlhs) + mn;
  ycorr = ycorr - X[:, 1] * b[1];
  meanb[1] = meanb[1] + b[1];

  # sample variance for each locus
  for locus = 2:ndesign
      varian[locus] = (scalea*4 + b[locus]*b[locus])/randchi2(4.0 + 1);
  end

  # sample effect for each locus
  for locus = 2:ndesign
      # unadjust y for this locus
      ycorr = ycorr + X[:, locus] * b[locus];
      rhs = dot(X[:, locus], ycorr)/vare;
      lhs = dot(X[:, locus], X[:, locus])/vare + 1.0/varian[locus];
      invlhs = 1.0/lhs;
      mn = invlhs * rhs;
      b[locus] = randn() * sqrt(invlhs) + mn;
      #adjust y for the new value of this locus
      ycorr = ycorr - X[:, locus] * b[locus];
      meanb[locus] = meanb[locus] + b[locus];
  end
end

toc()

meanb = meanb/numiter;
aHat  = X * meanb;

這兩個程式碼比較相似，但是也有一些不同：

第一個讀入的資料是二進位制的，我不知道Julia如何操作，所以我就將其轉為csv，然後讀取。
為了防止名稱重複，R中可以隨意命名，但是Julia不行，所以我在Julia程式中進行了修改。
R中可以賦值，a=b，你改變a和b都沒問題，但是Julia中你動了b，a也變了。語法不太一樣。
Julia中向量和陣列不太一樣，太令人困惑了。

比較有意思的是，Julia的程式碼在速度上不是很突出，因為我的程式碼太粗糙了。我變化了marker的數目，發現Julia的運算速度大約是R的2.8倍。Julia在官網上稱進行數值運算時，速度是R的100倍，但是我的沒有達到這麼高。

在1996年或者1997年是，我由SAS轉到了ASReml進行基因組資料分析，它大約提高了1~2倍的速度，而且支援了更多的模型。

現在，又到了更換軟體的時候了，由R轉到Julia，特別是基因組選擇方面，Julia的速度是R的3倍，Julia效能非常優秀。

R語言 Julia以及全基因組選擇

小編著：最近在學Julia語言，想測試一下和R的區別，發現前輩的部落格，翻譯時不禁感慨，這是2018年了，部落格是2010年的，8年已過，我才聽說Julia。但……不晚！文章來源： https://www.r-bloggers.com/r-julia-and-genome-

科學算命以及全基因組選擇的討論

手相資料想知道教科書似的事業線長什麼樣子麼? 大家都對自己的手相感興趣, 主要因為大家只對自己感興趣, 而看手相是激發大家對自己感興趣的方法所用的術語也很簡單, 橫的三條分別是感情線, 智力線和生命線, 豎的一條是事業線. 另外還有婚姻線以及財富線我們的理論假定: 手

全基因組選擇中準確性的影響因素

文章目的: 比較全基因組選擇中準確性的影響因素 https://www.researchgate.net/publication/326489349_Prediction_accuracies_of_genomic_selection_in_American_mink_a_sim

初識R語言介紹以及常見的問題

R語言是用於統計分析，圖形表示和報告的程式語言和軟體環境。 R語言由Ross Ihaka和Robert Gentleman在紐西蘭奧克蘭大學建立，目前由R語言開發核心團隊開發。 R語言的核心是解釋計算機語言，其允許分支和迴圈以及使用函式的模組化程式設計。 R語言允許與以C，

R語言用nls做非線性回歸以及函數模型的參數估計

nes 線性 -s legend 最小值 fun des and start 非線性回歸是在對變量的非線性關系有一定認識前提下，對非線性函數的參數進行最優化的過程，最優化後的參數會使得模型的RSS（殘差平方和）達到最小。在R語言中最為常用的非線性回歸建模函數是nls，下面以

R語言-選擇樣本數量

差分 1=1 水平 title lte info grey 標題相關功效分析:可以幫助在給定置信度的情況下,判斷檢測到給定效應值時所需的樣本量,也可以在給定置信水平的情況下,計算某樣本量內可以檢測到的給定效應值的概率 1.t檢驗　　案例:使用手機和司機反應時間的實驗

用一個簡單的例子比較SVM，MARS以及BRUTO（R語言）

err r語模型訓練 n! 也有 kernel 訓練 tps mea 背景重述本文是ESL: 12.3 支持向量機和核中表12.2的重現過程。具體問題如下：在兩個類別中產生100個觀測值。第一類有4個標準正態獨立特征\(X_1,X_2,X_3,X_4\)。第二類也有四

Python、Matlab和R語言我該如何選擇？

2018Python學習資料下載做資料分析、科學計算等離不開工具、語言的使用，目前最流行的資料語言，無非是MATLAB，R語言，Python這三種語言，但今天大聖眾包（www.dashengzb.cn）小編簡單總結了python語言的一些特點及平常使用的工具等。為什麼Python

資料分析，你是選擇R語言還是excel呢？

我從事資料分析工作已經有十年之久。最初是出於工作需要，我的經理給我一堆資料，我需要處理這些資料。當時我一直使用的工具是Excel，因為這是我熟練掌握的一款工具。三年前，我開始接觸到R，一開始因為功能太多而堅決抵制使用。後來我開始琢磨如何使用。現在我基本不怎麼使用Excel

R語言讀CSV、txt檔案方式以及read.table read.csv 和readr（大資料讀取包）

首先準備測試資料*(mtcars)分別為CSV. TXT 歡迎加入Python快速進階QQ群：867300100 R語言資料分析案例：直通車 read.table 預設形式讀取CSV（×）與TXT(效果理想) ① > test<-read.t

R語言繪圖、高清儲存、以及顏色系統

由於R語言基礎作圖部分內容簡單直接，但引數繁多，因此這裡不做系統介紹，只挑出幾個點來講一講。主要介紹R中的顏色系統。目錄一個作圖示例圖片的高清儲存 par函式使用技巧顏色系統作圖使用中文亂碼基礎作圖和數學公式的演示一個作圖示

如何檢視R語言package中自帶哪些資料集以及各個資料集的描述

當有新方法時，找不到相應的資料時，可到R語言中package中自帶的資料集中找一找。那麼，怎麼看某個特定的package中包含哪些資料集呢？可採用如下命令：print（data(package='具體的package名')）例如：print（data（package='fda

R語言利用caret包對變數重要程度排序與選擇特性

說明得到監督模型後，我們可以改變輸入值，比較給定模型輸出效果的變化敏感程度來評估不同特徵對模型的的重要性。操作利用caret完成對重要變數有排序 library(lattice) library(ggplot2) library(car

R語言-資料操作之選擇

#簡單邏輯判定，更新向量中的元素 > A <- c(10, 20, 30, 40 ,50, 60, 70, 80, 90) > A <- c(NA, A, NA) > A [1] NA 10 20 30 40 50 60 70 80 90 NA > A[is.na(A)

我為什麼選擇Python而不是Matlab和R語言呢？

　做資料分析、科學計算等離不開工具、語言的使用，目前最流行的資料語言，無非是MATLAB，R語言，Python這三種語言，但今天大聖眾包（www.dashengzb.cn）小編簡單總結了python語言的一些特點及平常使用的工具等。　　為什麼Python比MATL

Coursera-Getting and Cleaning Data-week4-R語言中的正則表示式以及文字處理

補上第四周筆記，以及本次課程總結。第四周課程主要針對text進行處理。裡面包括 1.變數名的處理 2.正則表示式 3.日期處理（參見swirl lubridate包練習）首先，變數名的處理，奉行兩個原則，1）統一大小寫tolower/toupper；2）去掉在匯入資料時，因為特殊字元導致的合併變

R語言-kmeans聚類理論篇K的選擇（輪廓係數）

kmeans是最簡單的聚類演算法之一，但是運用十分廣泛。最近在工作中也經常遇到這個演算法。kmeans一般在資料分析前期使用，選取適當的k，將資料分類後，然後分類研究不同聚類下資料的特點。本文記錄學習kmeans演算法相關的內容，包括演算法原理，收斂性，效果評估聚，

R語言選擇匯入文字資料部分欄位

背景：文字資料欄位太多，只需要讀取有用欄位，以此降低記憶體壓力方便分析方法一：read.table、read.csv 直接使用自帶函式設定適當的引數（colClasses），該引數需要指定每列資料的型別（可以使用nrows引數讀取幾行檢視class），不

R語言資料讀取以及資料儲存

一、R語言讀取文字檔案：1、檔案目錄操作：getwd() : 返回當前工作目錄setwd("d:/data") 更改工作目錄2、常用的讀取指令readread.table() : 讀取文字檔案read.csv(): 讀取csv檔案如果出現缺失值，read.table()會報

R+tmcn筆記︱tmcn包的基本內容以及李艦老師R語言大會展示內容摘錄

每每以為攀得眾山小，可、每每又切實來到起點，大牛們，緩緩腳步來俺筆記葩分享一下吧，please~———————————————————————————install.packages("tmcn", r

R語言 Julia以及全基因組選擇

相關推薦