基因資料處理116之重新執行SparkBWA Yarn叢集模式

阿新 • • 發佈：2018-12-25

基因資料處理系列

1.解釋

很久沒執行SparkBWA了，系統檔案有點多，重新執行。

2.程式碼：

end
[email protected]:~/disk2/xubo/project/alignment/sparkBWA$ vi g38L100c100000Nhs20Paired12SparkBWAYarnPartition0.sh 

echo "start"
startTime4=`date +"%s.%N"`
        time4=`date +"%Y%m%d%H%M%S"`
         #spark-submit --class org.apache.spark.examples.SparkPi     --master spark://219.219.220.149:7077     /home/hadoop/cloud/spark-1.5.2/lib/spark-examples*.jar     $i

echo $startTime4
j=0
output2='/xubo/project/alignment/sparkBWA/output/AAg38L100c100000Nhs20Paired12SparkBWAYarnPartition0shell'$j



spark-submit --class SparkBWA \
--master yarn-client \
--executor-memory 7G \
--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/disk2/xubo/tools/SparkBWA/build" \
SparkBWA.jar \
-algorithm mem -reads paired \
-index /home/hadoop/disk2/xubo/ref/GRCH38L1Index/GRCH38chr1L3556522.fasta \
-partitions $j \
/xubo/project/alignment/sparkBWA/input/g38/g38L100c100000Nhs20Paired1.fastq /xubo/project/alignment/sparkBWA/input/g38/g38L100c100000Nhs20Paired2.fastq \
$output2

        endTime4=`date +"%s.%N"`
   echo $k"=>"`awk -v x1="$(echo $endTime4 | cut -d '.' -f 1)" -v x2="$(echo $startTime4 | cut -d '.' -f 1)" -v y1="$[$(echo $endTime4 | cut -d '.' -f 2) / 1000]" -v y2="$[$(echo $startTime4 | cut -d '.' -f 2) /1000]"  'BEGIN{printf " g38L100c10000000Nhs20Paired12SparkBWAYarnPartition0 RunTime:%.6f s",(x1-x2)+(y1-y2)/1000000}'`

echo "end"

3.結果：

3.1 terminal

[email protected]:~/disk2/xubo/project/alignment/sparkBWA$ ./g38L100c100000Nhs20Paired12SparkBWAYarnPartition0.sh 
start
1479306305.415351298
=> g38L100c10000000Nhs20Paired12SparkBWAYarnPartition0 RunTime:98.942027 s
end

3.2 檔案

參考

【1】https://github.com/xubo245
【4】http://blog.csdn.net/xubo245/

基因資料處理116之重新執行SparkBWA Yarn叢集模式

基因資料處理系列 1.解釋很久沒執行SparkBWA了，系統檔案有點多，重新執行。 2.程式碼： end [email protected]:~/disk2/xubo/

基因資料處理115之重新執行SparkBWA本地模式

基因資料處理系列 1.記錄 [email protected]:~/disk2/xubo/tools/SparkBWA/build$ ./pairedGRCH38L1Local.sh [Stage 3:>

基因資料處理117之重新多次執行SparkBWA Yarn叢集

基因資料處理系列 1.解釋重新執行，跟換了檔案地址後來終端，需要執行其他的 2.程式碼： [email protected]:~/disk2/xubo/project/alignment/sparkBWA$ vi sparkB

基因資料處理118之SSW執行

基因資料處理系列 1.解釋 SSW是一個更快的SW演算法，並且提供了c語言lib和java的呼叫程式碼： https://github.com/mengyao/Complete-Str

基因資料處理119之java呼叫SSW在linux下執行

基因資料處理系列 1.解釋測試自帶Example： [email protected]:~/xubo/tools/Complete-Striped-Smith-Waterman

基因資料處理120之scala呼叫SSW在linux下執行

基因資料處理系列 1.解釋先有java提供轉換，使用jni呼叫c 然後scala呼叫java 2.程式碼： 2.1 java： package ssw; /** * Created by xubo on 2016/11/25.

基因資料處理113之對avocado識別的SparkBWA變異資料進行疾病分析_

（一）問題問題1：avocado資料讀取： avocado存到磁碟是：RDD[Genotype] val processedGenotypes: RDD[Genotype] = postProcessVariants(calledVariants, st

基因資料處理122之SSW和SparkSW評分不一致，query為Q9

基因資料處理系列 1.解釋 RT,但是順序一致 2.程式碼： [email protected]:~/disk2/xubo/project/alignment/SparkSW/SparkSW20161114/alluxio-1.3.

基因資料處理123之SSW程式碼不正確，到時比SparkSW時間長

基因資料處理系列 1.解釋由於要生成新的score matrix：blosum50，第一次使用靜態方法，直接傳給align，到時每次執行都需要進行一次score matrix的計算，而這個是將blosum50的矩陣轉換成128*128的矩陣，當計算

基因資料處理114之BWA建立全基因組索引成功

執行記錄 [email protected]:~/disk2/home/hadoop/xubo/ref/buildIndex$ bwa index GCA_000001405.15_GRCh38_full_analysis_set.fna [bwa

基因資料處理121之SSW的score matrix調整，使得與SparkSW評分一致

基因資料處理系列 1.解釋 SSW的評分矩陣是128*128的，是按char的int值來進行計算的。而blosum50是蛋白質的，而且不是按ABC順序來的，所以需要轉換。 java中無法執行128*128的String矩陣，所以需要提供blosum

基因資料處理5之GRCH38資料來源和檢視資訊

資料來源： ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_full_

基因資料處理6之BWA_MEM無法分配記憶體

基因資料處理之BWA_MEM無法分配記憶體：建立BWA索引的時候記憶體不足，現在用BWA-MEM又記憶體不足，真耗記憶體 [email protected]:~/cloud/

大資料處理框架之:Storm + Kafka + zookeeper 叢集

Storm kafka zookeeper 叢集我們知道storm的作用主要是進行流式計算，對於源源不斷的均勻資料流流入處理是非常有效的，而現實生活中大部分場景並不是均勻的資料流，而是時而多時而少的資料流入，這種情況下顯然用批量處理是不合適的，如果使用storm做實時計算的話可能因為資

大資料處理基礎之利用hadoop寫的簡單mapreduce案例

案例：需要處理的資料： 13877779999 bj zs 2145 13766668888 sh ls 1028 13766668888 sh ls 9987 13877779999 bj zs 5678 13544445555 sz ww 10577 1387777999

大資料處理過程之核心技術ETL詳解

核心技術架構挑戰： 1、對現有資料庫管理技術的挑戰。 2、經典資料庫技術並沒有考慮資料的多類別（variety）、SQL（結構化資料查詢語言），在設計的一開始是沒有考慮到非結構化資料的儲存問題。 3、實時性技術的挑戰：一般而言，傳統資料倉庫系統，BI應用，對處理時間的要求

數學建模資料處理模型之變數相關性類（灰色相關聯、相關性分析）

相關類灰色關聯 1作用：系統分析主要因素；次要因素，因素對系統發展的影響，以便對各因素強化發展或者抑制發展。 2 灰色關聯分析的基本思想：根據序列曲線的幾何形狀的相似程度判斷其聯絡緊密性 3 具體操作步驟：（1）繪圖：各指標，各系統的發展趨勢（2）確定分析數列：母序列：能反映系統行為特徵的資料序列。（

大資料教程（9.3）MR執行在yarn叢集流程分析&&本地模式除錯MR程式_

mapreduce在yarn叢集中流程分析：在windows本地環境的除錯需要先安裝好windows環境，具體請看windows安裝篇；

大資料教程（9.3）MR執行在yarn叢集流程分析&&本地模式除錯MR程式_

mapreduce在yarn叢集中流程分析：在windows本地環境的除錯需要先安裝好windows環境，具體請看windows安裝篇；

Spark程式設計指南之四：Spark分散式叢集模式的執行時系統架構

文章目錄官方叢集模式介紹 Cluster Manager有哪些？ Standalone Apache Mesos Hadoop YARN Kubernetes Standalone模

基因資料處理116之重新執行SparkBWA Yarn叢集模式

1.解釋

2.程式碼：

3.結果：

3.1 terminal

3.2 檔案

相關推薦