Hive On Spark 安裝成功之後的總結

阿新 • • 發佈：2019-01-18

Hive On Spark官方文件：https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

首先，之前憑藉自己的錯覺以為使用官網提供好的安裝包之後就可以，後來各種實驗各種問題。最後下決心進行自己編譯原始碼進行安裝。經過兩天的摸索最終還是成功了！！功夫還是不負有心人的，以後要多多有耐心，細心做事。

接下來言歸正傳，正如hive官網說的hive on spark，hive的版本要without hadoop，所以需要自行編譯spark。此處沒有想象那麼困難，要有動手的勇氣和激情，很多問題都會迎刃而解，編譯原始碼，第一步就是下載原始碼，個人推薦去GitHub上下載需要的原始碼包，因為這個更新的及時，官網下載的原始碼有時候沒有及時更新，會讓你走很多彎路。下面就說一下原始碼編譯過程：

由於國內使用maven非常卡，所以推薦maven倉庫配置成阿里巴巴的倉庫，速度非常給力的。

倉庫地址如下：

      <mirror>
            <id>alimaven</id>
            <mirrorOf>central</mirrorOf>
            <name>aliyun maven</name>
            <url>http://maven.aliyun.com/nexus/content/repositories/central/</url>
        </mirror>

編譯Spark原始碼一定要參考官網文件，網上部落格有時候老舊可能讓你陷入困境。筆者深有體會。

如果想修改Spark的scala類庫版本等可以修改Saprk-source根目錄的pom檔案。

配置一下maven的引數，防止編譯過程記憶體溢位。

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

使用如下指令碼：

make-distribution.sh --name custom-spark --tgz  --mvn ${MAVEN_HOME}/bin/mvn -Phadoop-2.4 -Phive -Phive-thriftserver -Pmesos -Pyarn

其中引數含義分別為:

--name custom-spark //指定壓縮包名字

--tgz   //生成tgz的部署包

--mvn ${MAVEN_HOME}/bin/mvn   //指定使用自己本地配置的mvn，不指定預設使用spark-source/build下面的mvn

最後生成的安裝包早Spark原始碼根目錄。

到此，假設你已經編譯好了Spark安裝包，部署即可。

接下來，Github下載hive原始碼，此處要修改Hive依賴的Spark版本和Hadoop以及Scala類庫版本。

修改好版本（修改pom.xml）之後便可以進行編譯，使用mvn clean package -Pdist -Dmaven.test.skip=true編譯即可。（可以跳過測試步驟，否則太慢）

Hive官方編譯文件：

  $ git clone https://git-wip-us.apache.org/repos/asf/hive.git
  $ cd hive
  $ mvn clean package -Pdist
  $ cd packaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin
  $ ls
  LICENSE
  NOTICE
  README.txt
  RELEASE_NOTES.txt
  bin/ (all the shell scripts)
  lib/ (required jar files)
  conf/ (configuration files)
  examples/ (sample input and query files)
  hcatalog / (hcatalog installation)
  scripts / (upgrade scripts for hive-metastore)

最後輸出目錄：

packaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin

例如我的輸出目錄：

/home/daxin/installData/source/hive-2.1.1/packaging/target/apache-hive-2.2.0-SNAPSHOT-bin/apache-hive-2.2.0-SNAPSHOT-bin

（Hive編譯遇見的問題‘參見：http://blog.csdn.net/dax1n/article/details/58594789）

假定此時你已經編譯好Hive原始碼。

安裝MySQL資料庫，建立資料庫，同時安裝Hive（安裝過程另寫博文補充）。

安裝好執行：schematool -dbType MySQL -initSchema 把之前建立的元資料都同步到mysql 裡。

此處遇見的：“schematool -dbType MySQL -initSchema ” 命令直接複製輸入進去之後，竟然報錯。

File /home/daxin/bigdata/Hive/scripts/metastore/upgrade/MySQL/upgrade.order.MySQLnot found

參見：http://blog.csdn.net/dax1n/article/details/58614516

後來去 /home/daxin/bigdata/Hive/scripts/metastore/upgrade/MySQL/看檔案也確實存在，只不過檔名字大小寫不一致，後來

懷疑schematool -dbType MySQL -initSchema中MySQL的問題，自己改成：schematool -dbType mysql -initSchema

最後元資料同步資料庫完畢之後啟動元資料服務，之後啟動Hive指令碼設定set hive.execution.engine=spark;

啟動元資料服務：hive --service metastore &

建立表：

create table t_u(id string,age int ,salary double) row format delimited fields terminated by ' ' lines terminated by '\n' stored as textfile ;

create table t_s(id string,age int ,salary double) row format delimited fields terminated by ' ' lines terminated by '\n' stored as textfile ;

匯入資料：

load data inpath '/uu' into table t_s;

load data inpath '/uu' into table t_u;

之後寫一個查詢測試：select u.age from t_u u ,t_s s where u.age =s.age;

竟然又報錯了：

Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/Iterable

此時不過還是喜悅的，感覺離success已經不遠了。最後發現是hive沒有載入spark jars原因，解決方案：在hive指令碼中載入spark jars即可，具體步驟參見：

http://blog.csdn.net/dax1n/article/details/58252094

此時在輸入：select u.age from t_u u ,t_s s where u.age =s.age;

Hadoop YARN 介面：

Spark Job介面：

到此已經完成安裝！

Hive On Spark 安裝成功之後的總結

Hive On Spark 安裝成功之後的總結

Hive on Spark安裝配置詳解（都是坑啊）

hive on spark安裝

hive on spark通過YARN-client提交任務不成功

hive on spark的安裝及問題

spark 2.0.0集群安裝與hive on spark配置

Hive On Spark執行計劃總結

SparkSQL與Hive on Spark的比較

hive on spark VS SparkSQL VS hive on tez

hive on spark

sparksql\hive on spark\hive on mr

hive on spark 效能引數調優

Hive on Spark調優

第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark

SparkSQL和hive on Spark

Hive on spark 報錯FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark

大資料利用hive on spark程式操作hive

Hive on Spark 偽分散式環境搭建過程記錄

hive on spark開發demo

基於Spark2.0搭建Hive on Spark環境(Mysql本地和遠端兩種情況)

Hive On Spark 安裝成功之後的總結

相關推薦