使用Docker執行spark
獲取docker映象
sudo docker pull sequenceiq/spark:1.6.0
執行docker容器
sudo docker run -it --name spark --rm sequenceiq/spark:1.6.0 /bin/bash
執行作業
$ cd /usr/local/spark
$ bin/spark-submit --master yarn-client --class org.apache.spark.examples.JavaWordCount lib/spark-examples-1.6.0-hadoop2.6.0.jar file:/usr/local /hadoop/input/
我們也可以把啟動容器和執行作業放在一起,比如:
sudo docker run -it --name spark --rm sequenceiq/spark:1.6.0 sh -c "\"spark-submit --master yarn-client --class org.apache.spark.examples.JavaWordCount /usr/local/spark/lib/spark-examples-1.6.0-hadoop2.6.0.jar file:/usr/local/hadoop/input/\""
相關推薦
使用Docker執行spark
獲取docker映象 sudo docker pull sequenceiq/spark:1.6.0 執行docker容器 sudo docker run -it --name spark --rm sequenceiq/spark:1.6.0 /bin/bash 執行作
【Docker】Docker執行單機版Spark
機器環境 centos7 記憶體4G 拉取映象 映象有2G多,下載時間比較長 = =! docker pull sequenceiq/spark:1.6.0 啟動映象 啟動
利用docker 部署 spark項目的端口問題
spark 大數據 hadoop docker利用Docker 安裝項目:local模式要設置sparklocal.spark.driver.hostyarn模式中只設置sparklocal.spark.driver.host和可以啟動,但是無法執行任何語句,需要再設置sparkyarn.spark.dri
GIS+=地理信息+容器技術(4)——Docker執行
ros log height via trac hostname ash data- ps命令 -----------------------------------------------------------------------------
windows系統上執行spark、hadoop報錯Could not locate executable null\bin\winutils.exe in the Hadoop binaries
1.下載 winutils.exe:https://download.csdn.net/download/u010020897/10745623 2.將此檔案放置在某個目錄下,比如C:\winutils\bin\中。 3.在程式的一開始宣告:System.s
redash docker 執行
redash 、superset 、metabase 都是很不錯的資料分析工具,支援多種資料來源,同時可以方便的生成報表 基本上都支援定製化報表介面、通知(定時),metabase 有點偏產品,superset 使用上,也挺不錯,同時 已經在apache 進行孵化 使用docker compose 執
docker for spark
專案需求,有一個spark-streaming的程式,讀kafka的資料,需要構建一個不使用hadoop的spark 以下建立的映象參考網路,可以稍加修改就可以使用不同的版本。 可單獨啟動master,worker來構建一個standaline的叢集。 也可以預設啟動,啟動後,構建的是一個master,
Docker執行tracker,The path /var/fdfs/tracker is not shared from OS X and is not known to Docker
Docker裝FastDFS,執行tracker,錯誤:The path /var/fdfs/tracker is not shared from OS X and is not known to Docker 執行如下命令開啟tracker 服務 docker run -dti -
eclipse執行spark的scala程式console配置日誌log4j輸出級別
預設輸出info級別,結果都淹沒在info海洋裡 先看看自己的eclipse輸出的第一行 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 然後再找找spark的import
以yarn client和分散式叢集方式執行spark-2.3.2-bin-hadoop2.6
一以分散式叢集執行 修改配置檔案/hadoop_opt/spark-2.3.2-bin-hadoop2.6/conf/spark-env.sh export HADOOP_CONF_DIR=/hadoop_opt/hadoop-2.6.1/etc/hadoop expo
在Yarn上執行spark-shell和spark-sql命令列
spark-shell On Yarn 如果你已經有一個正常執行的Hadoop Yarn環境,那麼只需要下載相應版本的Spark,解壓之後做為Spark客戶端即可。 需要配置Yarn的配置檔案目錄,export HADOOP_CONF_DIR=/etc/hadoop/conf &n
使用Docker執行hadoop
獲取docker映象 sudo docker pull sequenceiq/hadoop-docker:2.7.0 執行docker容器 sudo docker run -it --name hadoop --rm sequenceiq/hadoop-docker:2.7.
後臺執行spark-submit命令的方法
在使用spark-submit執行工程jar包時常常會出現一下兩個問題: 1.在程式中手打的log(如System.out.println(“***testRdd.count=”+testRdd.count()))常常會因被下一個Job的執行日誌覆蓋掉而無法檢視日誌; 2.一旦命令視窗被關閉或者電腦
docker 執行一個二進位制檔案(部署go web)
在搜尋引擎中,搜尋了一下如何部署一個go的程式, 發現都是基於golang的映象部署go原始碼的方案 而基於golang原始碼部署 docker image的大小有700MB, 有時候並不需要這麼大,我們生成二進位制檔案後 只需要基於centos來製作image就可以了, 當然如果對
docker 執行java程式時區問題
如果 docker 上面 java 的當前時間比,真實時間慢了8 小時,那估計就是時區問題了, 需要在 打包docker映象的時候 帶上 localtime 和 timezone。(這2 個檔案後面附件裡面有) Dockerfile 裡面也要把 這個檔
執行spark-shell報錯:
執行spark-shell報錯: [ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.NoClassDefFoundError: Could not initialize class scala.tools
基於Docker的Spark環境搭建理論部分
1.映象製作方案 我們要使用Docker來搭建hadoop,spark,hive及mysql叢集,首先使用Dockerfile製作映象,把相關的軟體拷貝到約定好的目錄下,把配置檔案在外面先配置好,再使用docker and / docker run,拷貝移動到hadoop,spark
idae執行spark程式碼報錯ERROR MetricsSystem: Sink class org.apache.spark.metrics.sink.MetricsServlet cannot b
1.問題描述 在idea中編寫,streaming處理伺服器socket傳遞的資料,結果報錯: "C:\Program Files\Java\jdk1.8.0_91\bin\java" -Didea.launcher.port=7534 "-Didea.launcher.bin.path=C
docker 執行 go語言二進位制程式
1、創件dockerfile檔案命名為“Dockerfile.scratch" # 使用scratch開啟 FROM scratch # 拷貝編譯程式 COPY main main # 開啟8080埠 EXPOSE 8080 # 執行! CMD ["./main"] 2、使用go程式編寫
scala eclipse執行spark 2.2.0
工具: IDE SCALA 4.7 eclipse spark 2.2.0 1新建一個scala 工程, 2新增庫(這裡採用在建工程的時候增加庫),點選Next,進入下一個介面: 3點選Add External JARS按鈕,新增庫,將spark下的jars包全部新增進去