編譯支援hive的spark assembly

阿新 • • 發佈：2019-01-29

原生的spark assembly jar是不依賴hive的，如果要使用spark hql必須將hive相關的依賴包打到spark assembly jar中來。打包方法：

假設已經裝好了maven,

1新增環境變數，如果jvm的這些配置太小的話，可能導致在編譯過程中出現OOM，因此放大一些：

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

2 cd到spark原始碼目錄，執行：

mvn -Pyarn -Dhadoop.version=2.5.0-cdh5.3.0 -Dscala-2.10.4 -Phive -Phive-thriftserver -DskipTests clean package

(其實好像用cdh版本的只要寫 mvn -Pyarn -Phive -Phive-thriftserver -DskipTests clean package就可以了)

注意hadoop.version和scala的版本設定成對應的版本

經過漫長的編譯過程（我編譯了2個半小時），最終成功了，在assembly/target/scala-2.10目錄下面有spark-assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar檔案，用rar開啟看看hive jdbc package有沒有包含在裡面，有的話說明編譯成功了。

原始碼目錄下面有make-distribution.sh，可以用來打bin包：

./make-distribution.sh --name custom-spark --skip-java-test --tgz -Pyarn -Dhadoop.version=2.5.0-cdh5.3.0 -Dscala-2.10.4 -Phive -Phive-thriftserver
If you want IDEA compile your spark project (version 1.0.0 and above), you should do it with following steps. 1 clone spark project 2 use mvn to compile your spark project ( because you need the generated avro source file

in flume-sink module) 3 open spark/pom.xml with IDEA 4 check profiles you need in “maven projects” window 5 modify the source path of flume-sink module, make “target/scala-2.10/src_managed/main/compiled_avro” as a source path 6 if you checked yarn profile, you need to remove the module "spark-yarn_2.10” add “spark/yarn/common/src/main/scala” and “spark/yarn/stable/src/main/scala” the source path of module “yarn-parent_2.10" 7 then you can run "Build -> Rebuild Project" in IDEA. PS: you should run “rebuild” after you run mvn or sbt command to spark project.

編譯支援hive的spark assembly

編譯支援hive的spark assembly

Boost 1.59.0 編譯支援Python3的連結庫，生成vc120或vc140

VTK原始碼編譯（VS2013編譯支援Qt的VTK庫）

WebRTC Windows版編譯(支援H264+OpenSSL)

xmake新增對Cuda程式碼編譯支援

為Android平臺編譯支援OpenCL的Opencv靜態庫

給Tengine新增模組編譯支援http2協議

編譯支援https的curl

linux下編譯支援librtmp、libx264、libfaac的ffmpeg

Ubuntu+NDK編譯支援HTTPS的libcurl

開啟Jasper的JSP預編譯支援

Hadoop2.7.3 編譯支援5種壓縮

Spark 2.2原始碼編譯 & 支援hadoop-2.6.0-cdh5.7.0

NDK編譯支援C++11

caffe 02 win10 vs2015 編譯(支援GPU)

重新編譯、安裝spark assembly，使CDH5.5.1支援sparkSQL

sbt assembly編譯打包時報: deduplicate: different file contents found in the following:

android全平臺編譯ffmpeg支援命令列實踐

linux之讓終端支援C++11/14編譯cpp檔案

Ubuntu 14 04 64位機上不帶CUDA支援的Caffe配置編譯操作過程

編譯支援hive的spark assembly

相關推薦