Spark on hive編譯以及簡單使用

阿新 • • 發佈：2018-08-31

com nbsp http imp 列表需要 -a rift usr

分別下載了spark 和hive 配置好發現在元數據庫裏面這2個是不通的是需要編譯spark的源碼以支持hive的

在這裏我用的是一臺centos7的虛擬機

準備工作：

jdk的安裝配置

hadoop的安裝配置

maven的配置我這用的是apache-maven-3.5.4 maven列表：https://archive.apache.org/dist/maven/maven-3/

spark的版本spark-2.3.1這個版本支持到hive1.2.1 我本機用1.2.2好像也闊以

配置好環境變量就開幹，我這裏的環境變量是：

export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
#hadoop env
export HADOOP_HOME=/opt/env/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin
#hive env
export HIVE_HOME=/opt/env/apache-hive-1.2.2-bin
export PATH=$PATH:$HIVE_HOME/bin
#maven
export M2_HOME=/opt/env/maven3
export PATH=$PATH:$JAVA_HOME/bin:$M2_HOME/bin
#scala
export SCALA_HOME=/opt/env/scala-2.11.6
export PATH=$PATH:$SCALA_HOME/bin

其中這幾個必須安裝吧 java，spark是scala寫的所以也必須安裝下載源代碼

技術分享圖片

下載 spark-2.3.1.tgz

然後解壓

cd spark-2.3.1 進dev目錄

cd dev

vi make-distribution.sh 把 MVN=的值改成我們下載的mvn配置目錄

技術分享圖片

在進入 spark-2.3.1目錄

mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.5 -Phive -Phive-thriftserver -DskipTests

編譯中。。。。大概有26個task

技術分享圖片

編譯完成：

技術分享圖片

編譯了這麽多個模塊要了個把小時。。。。

編譯成功後然後打包打成 2.7.5hive.tar包---------------------下面打包的步驟花了2個半小時。。。。

./dev/./make-distribution.sh --name 2.7.5hive --tgz -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.5 -Phive -Phive-thriftserver -DskipTests

然後捏配置好spark vi /etc/profile

增加環境變量

export SPARK_HOME=/opt/env/spark-2.3.1-bin-h27hive
export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile

寫個腳本用spark執行一下然後去hive查詢一把看是在spark創建的表在hive也能直接看到命名

from pyspark import SparkContext
from pyspark.sql import HiveContext
sc=SparkContext.getOrCreate()
sqlContext = HiveContext(sc)
sqlContext.sql(‘use default‘)
sqlContext.sql(‘CREATE TABLE IF NOT EXISTS test(key INT, value STRING)‘)
sqlContext.sql(‘show tables‘).show()

在spark用pyspark執行下看：

技術分享圖片

在hive下看看表

當然先啟動hadoop

到hadoop/sbin/start-dfs.sh

技術分享圖片

參考網站

Spark on hive編譯以及簡單使用

com nbsp http imp 列表需要 -a rift usr 分別下載了spark 和hive 配置好發現在元數據庫裏面這2個是不通的是需要編譯spark的源碼以支持hive的在這裏我用的是一臺centos7的虛擬機準備工作： jdk的安裝配置 hado

Spark on hive編譯以及簡單使用

Spark on hive編譯以及簡單使用

Spark On Hive配置

spark學習記錄（十一、Spark on Hive配置）

SparkSQL & Spark on Hive & Hive on Spark

SparkSQL建立RDD：建立DataFrame的方式，配置Spark on Hive【文字說明+關鍵程式碼】

spark on hive原理與環境搭建 spark研習第三季

Spark的環境搭建以及簡單的eclipse的兩種執行方式--standalone和yarn

Spark on Yarn with Hive實戰案例與常見問題解決

Spark Streaming介紹以及簡單使用

重新編譯並安裝Tez on hive（Tez 0.8.5,Hive 2.3.3)

HIVE分割槽以及分桶的簡單概念

Spark任務提交 yarn-cluster模式解決jvm記憶體溢位問題以及簡單概述jdk7方法區和jdk8元空間

首頁 Hadoop Spark Hive Kafka Flume 大資料平臺 Kylin 專題文章 Spark運算元一起學Hive Hive儲存過程 Hive分析函式 Spark On Yarn 資料

SparkSQL On Hive和spark的記憶體分配問題

CDH安裝配置zeppelin-0.7.3以及配置spark查詢hive表

Spark on yarn Intellij ide 安裝，編譯，打包，叢集執行詳解

spark操作hive簡單程式碼

Google Protobuf的安裝、配置、以及簡單demo編譯

Mark ：Hive使用Spark on Yarn作為執行引擎

Hive on Spark and Spark sql on Hive

Spark on hive編譯以及簡單使用

相關推薦