hdp2.4整合spark2.X

阿新 • • 發佈：2018-12-30

Hdp2.4整合spark2

整合步驟

1. 從官網下載http://spark.apache.org/downloads.html 下載spark2.3 包

2. 把spark2.3包上傳到需要安裝的機器上。

cd /usr/hdp/2.4.0.0-169

tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz

mv spark-2.3.0-bin-hadoop2.7 spark2

3. 修改spark2 的使用者名稱和使用者組chown -R root:root *

4. 建立軟連線指向spark2實際目錄。

ln -s spark2-client /usr/hdp/2.4.0.0-169/spark2

ln -s spark2-historyserver /usr/hdp/2.4.0.0-169/spark2

ln -s spark2-thriftserver /usr/hdp/2.4.0.0-169/spark2

5. 進入spark2修改conf目錄下的配置檔案。

cd conf

cp spark-env.sh.template spark-env.sh

cp spark-defaults.conf.template spark-defaults.conf

6修改檔案 vi spark-env.sh 。在起檔案末尾新增內容

# Alternate conf dir. (Default: ${SPARK_HOME}/conf)

export SPARK_CONF_DIR=${SPARK_CONF_DIR:-/usr/hdp/current/spark2-historyserver/conf}

# Where log files are stored.(Default:${SPARK_HOME}/logs)

#export SPARK_LOG_DIR=${SPARK_HOME:-/usr/hdp/current/spark2-historyserver}/logs

export SPARK_LOG_DIR=/var/log/spark2

# Where the pid file is stored. (Default: /tmp)

export SPARK_PID_DIR=/var/run/spark2

#Memory for Master, Worker and history server (default: 1024MB)

export SPARK_DAEMON_MEMORY=1024m

# A string representing this instance of spark.(Default: $USER)

SPARK_IDENT_STRING=$USER

# The scheduling priority for daemons. (Default: 0)

SPARK_NICENESS=0

export HADOOP_HOME=${HADOOP_HOME:-/usr/hdp/current/hadoop-client}

export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-/usr/hdp/current/hadoop-client/conf}

# The java implementation to use.

export JAVA_HOME=/usr/jdk64/jdk1.8.0_60

7修改vi spark-defaults.conf 的配置檔案內容。在檔案結尾新增如下內容

spark.driver.extraLibraryPath /usr/hdp/current/hadoop-client/lib/native

spark.executor.extraLibraryPath /usr/hdp/current/hadoop-client/lib/native

spark.eventLog.dir hdfs:///spark2-history

spark.eventLog.enabled true

# Required: setting this parameter to 'false' turns off ATS timeline server for Spark

spark.hadoop.yarn.timeline-service.enabled false

spark.driver.extraJavaOptions -Dhdp.version=2.4.0.0-169

spark.yarn.am.extraJavaOptions -Dhdp.version=2.4.0.0-169

spark.history.fs.logDirectory hdfs:///spark2-history

#spark.history.kerberos.keytab none

#spark.history.kerberos.principal none

#spark.history.provider org.apache.spark.deploy.history.FsHistoryProvider

#spark.history.ui.port 18080

spark.yarn.containerLauncherMaxThreads 25

spark.yarn.driver.memoryOverhead 200

spark.yarn.executor.memoryOverhead 200

#spark.yarn.historyServer.address sandbox.hortonworks.com:18080

spark.yarn.max.executor.failures 3

spark.yarn.preserve.staging.files false

spark.yarn.queue default

spark.yarn.scheduler.heartbeat.interval-ms 5000

spark.yarn.submit.file.replication 3

spark.ui.port 4041

8. 在ambari介面修改yarn的引數。

yarn.scheduler.maximum-allocation-mb = 2500MB

yarn.nodemanager.resource.memory-mb = 7800MB

9測試hdp整合spark2

提交job測試

spark2執行測試：

export SPARK_MAJOR_VERSION=2

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn-client \

--num-executors 3 \

--driver-memory 512m \

--executor-memory 512m \

--executor-cores 1 \

examples/jars/spark-examples*.jar 10

./bin/spark-submit \

--class org.apache.spark.examples.SparkTC \

--master yarn-client \

--num-executors 3 \

--driver-memory 512m \

--executor-memory 512m \

--executor-cores 1 \

examples/jars/spark-examples*.jar 10

10.在ambari頁面yarn 參考job執行狀態。

參考連結：

Ps:

如果遇到HDFS寫許可權問題，可以轉換角色。或者在設定許可權

dfs.permissions.enabled=false

Over

2018.6.11

hdp2.4整合spark2.X

Hdp2.4整合spark2整合步驟1. 從官網下載http://spark.apache.org/downloads.html 下載spark2.3 包2. 把spark2.3包上傳到需要安裝的機器上。cd /usr/hdp/2.4.0.0-169 tar -zxvf

spark2.4 整合 hadoop2.6.0-cdh5.7.0 原始碼編譯

1.前置要求 java 8 + maven 3.5.4 + scala 2.11 2.下載 spark2.4 原始碼包在spark官網下載頁面中選擇對應的spark版本和原始碼包 [[email protected] softwore

Ambari在不升級情況下整合高版本spark2.x框架

一.背景介紹大家都知道spark在2.x之後實現了一系列更方便快捷的改進，spark目前社群已經更新到了2.3.1版本，筆者發現spark在2.2.x版本之後，對於spark-ml的功能有顯著增強。而筆者用的大資料實驗環境是基於Ambari搭建的，版本為2.2.2，對應採

Spark2.x 新特性

引入 ant 版本 eight 執行次數調用出了 afr 二、Spark2.x 介紹 2.1 Spark2.x 與 Spark1.x 關系 Spark2.x 引入了很多優秀特性，性能上有較大提升，API 更易用。在“編程統一”方面非常驚艷，實現了離線計算和流計算 AP

Spark2.x 與 Spark1.x 關系

性能提升 courses structure tex data frame datasets spark1.x 基本 Spark2.x 引入了很多優秀特性，性能上有較大提升，API 更易用。在“編程統一”方面非常驚艷，實現了離線計算和流計算 API 的統一，實現了 Spar

java及spark2.X連接mongodb3.X單機或集群的方法（帶認證及不帶認證）

連接通過 ava 更新數據 ati out client data 插入數據首先，我們明確的是訪問Mongos和訪問單機Mongod並沒有什麽區別。接下來的方法都是既可以訪問mongod又可以訪問Mongos的。另外，讀作java寫作scala，反正大家都看得懂...

構建ASP.NET MVC5+EF6+EasyUI 1.4.3+Unity4.x註入的後臺管理系統（66）-MVC WebApi 用戶驗證 (2)

簡單權限管理 mark 調用接口 cat pps 總結回顧 bsp 前言：構建ASP.NET MVC5+EF6+EasyUI 1.4.3+Unity4.x註入的後臺管理系統（65）-MVC WebApi 用戶驗證 (1) 回顧上一節，我們利用w

spark2.x由淺入深深到底系列六之RDD java api詳解二

spark 大數據 javaapi 老湯 rdd package com.twq.javaapi.java7; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.

spark2.x由淺入深深到底系列六之RDD java api調用scala api的原理

spark 大數據 javaapi 老湯 rdd RDD java api其實底層是調用了scala的api來實現的，所以我們有必要對java api是怎麽樣去調用scala api，我們先自己簡單的實現一個scala版本和java版本的RDD和SparkContext一、簡單實現scal

spark2.x由淺入深深到底系列六之RDD java api詳解三

老湯 spark 大數據 javaapi rdd 學習任何spark知識點之前請先正確理解spark，可以參考：正確理解spark本文詳細介紹了spark key-value類型的rdd java api一、key-value類型的RDD的創建方式1、sparkContext.parall

spark2.x由淺入深深到底系列六之RDD java api詳解四

spark 大數據 javaapi 老湯 rdd 學習spark任何的知識點之前，先對spark要有一個正確的理解，可以參考：正確理解spark本文對join相關的api做了一個解釋SparkConf conf = new SparkConf().setAppName("appName")

spark2.x由淺入深深到底系列六之RDD 支持java8 lambda表達式

spark lambda java8 老湯 rdd 學習spark任何技術之前，請正確理解spark，可以參考：正確理解spark我們在 http://7639240.blog.51cto.com/7629240/1966131 中已經知道了，一個scala函數其實就是java中的一個接口

spark2.x由淺入深深到底系列六之RDD java api用JdbcRDD讀取關系型數據庫

spark 大數據 javaapi rdd jdbcrdd 學習任何的spark技術之前，請先正確理解spark，可以參考：正確理解spark以下是用spark RDD java api實現從關系型數據庫中讀取數據，這裏使用的是derby本地數據庫，當然可以是mysql或者oracle等關

spark2.x由淺入深深到底系列五之python開發spark環境配置

spark 大數據 rdd 開發環境 python 學習spark任何的技術前，請先正確理解spark，可以參考: 正確理解spark以下是在mac操作系統上配置用python開發spark的環境一、安裝pythonspark2.2.0需要python的版本是Python2.6+ 或者 P

spring boot 1.5.4 整合rabbitMQ（十七）

rabbitmq springboot springboot1.5.4 springboot整合jsp springboot整合rabbitmq 上一篇：spring boot 1.5.4 整合redis、攔截器、過濾器、監聽器、靜態資源配置（十六）關於rabbitMQ原理，請參閱博客：

spark2.x任務提交過程

關系 shell img com mit 2.x sub .com submit spark-shell/spark-submit/pyspark等關系如下： spark2.x任務提交過程

SpringBoot2.0.4 整合Zuul

SpringBoot2.0.4整合Zuul <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>s

《機器學習》筆記--4 整合學習boosting and bagging

Boosting 特點：個體學習器之間存在強依賴關係、必須序列生成的方法。關注偏差的降低。方法：先從初始訓練集選練出一個弱學習器，再根據弱學習器的表現進行樣本分佈的調整，提高那些被錯誤學習的樣本的權值，降低那些被正確學習的樣本的權值，然後繼續訓練下一個弱學習器。最後將一

elasticsearch6.4.2 破解X-Pack外掛license

說明：我的elasticsearch（後文簡稱ES）版本為6.4.2，安裝方式為安裝包直接解壓安裝，安裝包地址：https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.2.tar.gz 1，安裝ES，在此不在詳述，可參考官

三、Springboot學習4-整合session共享-2018-11-13

1. 引入依賴： <dependency> <groupId>org.springframework.session</groupId> <artifactId>spring-session-data-redis</a

hdp2.4整合spark2.X

相關推薦