使用Docker執行spark

阿新 • • 發佈：2018-11-12

獲取docker映象

sudo docker pull sequenceiq/spark:1.6.0

執行docker容器

sudo docker run -it --name spark --rm sequenceiq/spark:1.6.0 /bin/bash

執行作業

$ cd /usr/local/spark
$ bin/spark-submit --master yarn-client --class org.apache.spark.examples.JavaWordCount lib/spark-examples-1.6.0-hadoop2.6.0.jar file:/usr/local 
/hadoop/input/

我們也可以把啟動容器和執行作業放在一起，比如：

sudo docker run -it --name spark --rm sequenceiq/spark:1.6.0 sh -c "\"spark-submit --master yarn-client --class org.apache.spark.examples.JavaWordCount /usr/local/spark/lib/spark-examples-1.6.0-hadoop2.6.0.jar file:/usr/local/hadoop/input/\""

使用Docker執行spark

獲取docker映象 sudo docker pull sequenceiq/spark:1.6.0 執行docker容器 sudo docker run -it --name spark --rm sequenceiq/spark:1.6.0 /bin/bash 執行作

【Docker】Docker執行單機版Spark

機器環境 centos7 記憶體4G 拉取映象映象有2G多，下載時間比較長 = =！ docker pull sequenceiq/spark:1.6.0 啟動映象啟動

利用docker 部署 spark項目的端口問題

spark 大數據 hadoop docker利用Docker 安裝項目：local模式要設置sparklocal.spark.driver.hostyarn模式中只設置sparklocal.spark.driver.host和可以啟動，但是無法執行任何語句，需要再設置sparkyarn.spark.dri

GIS+=地理信息+容器技術（4）——Docker執行

ros log height via trac hostname ash data- ps命令 -----------------------------------------------------------------------------

windows系統上執行spark、hadoop報錯Could not locate executable null\bin\winutils.exe in the Hadoop binaries

1.下載 winutils.exe：https://download.csdn.net/download/u010020897/10745623 2.將此檔案放置在某個目錄下，比如C:\winutils\bin\中。 3.在程式的一開始宣告：System.s

redash docker 執行

redash 、superset 、metabase 都是很不錯的資料分析工具，支援多種資料來源，同時可以方便的生成報表基本上都支援定製化報表介面、通知（定時），metabase 有點偏產品，superset 使用上，也挺不錯，同時已經在apache 進行孵化使用docker compose 執

docker for spark

專案需求，有一個spark-streaming的程式，讀kafka的資料，需要構建一個不使用hadoop的spark 以下建立的映象參考網路，可以稍加修改就可以使用不同的版本。可單獨啟動master,worker來構建一個standaline的叢集。也可以預設啟動，啟動後，構建的是一個master,

Docker執行tracker，The path /var/fdfs/tracker is not shared from OS X and is not known to Docker

Docker裝FastDFS，執行tracker，錯誤：The path /var/fdfs/tracker is not shared from OS X and is not known to Docker 執行如下命令開啟tracker 服務 docker run -dti -

eclipse執行spark的scala程式console配置日誌log4j輸出級別

預設輸出info級別，結果都淹沒在info海洋裡先看看自己的eclipse輸出的第一行 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 然後再找找spark的import

以yarn client和分散式叢集方式執行spark-2.3.2-bin-hadoop2.6

一以分散式叢集執行修改配置檔案/hadoop_opt/spark-2.3.2-bin-hadoop2.6/conf/spark-env.sh export HADOOP_CONF_DIR=/hadoop_opt/hadoop-2.6.1/etc/hadoop expo

在Yarn上執行spark-shell和spark-sql命令列

spark-shell On Yarn 如果你已經有一個正常執行的Hadoop Yarn環境，那麼只需要下載相應版本的Spark，解壓之後做為Spark客戶端即可。需要配置Yarn的配置檔案目錄，export HADOOP_CONF_DIR=/etc/hadoop/conf &n

使用Docker執行hadoop

獲取docker映象 sudo docker pull sequenceiq/hadoop-docker:2.7.0 執行docker容器 sudo docker run -it --name hadoop --rm sequenceiq/hadoop-docker:2.7.

後臺執行spark-submit命令的方法

在使用spark-submit執行工程jar包時常常會出現一下兩個問題： 1.在程式中手打的log（如System.out.println（“***testRdd.count=”+testRdd.count()））常常會因被下一個Job的執行日誌覆蓋掉而無法檢視日誌； 2.一旦命令視窗被關閉或者電腦

docker 執行一個二進位制檔案(部署go web)

在搜尋引擎中,搜尋了一下如何部署一個go的程式, 發現都是基於golang的映象部署go原始碼的方案而基於golang原始碼部署 docker image的大小有700MB, 有時候並不需要這麼大,我們生成二進位制檔案後只需要基於centos來製作image就可以了, 當然如果對

docker 執行java程式時區問題

如果 docker 上面 java 的當前時間比，真實時間慢了8 小時，那估計就是時區問題了，需要在打包docker映象的時候帶上 localtime 和 timezone。（這2 個檔案後面附件裡面有） Dockerfile 裡面也要把這個檔

執行spark-shell報錯：

執行spark-shell報錯： [ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.NoClassDefFoundError: Could not initialize class scala.tools

基於Docker的Spark環境搭建理論部分

1.映象製作方案我們要使用Docker來搭建hadoop,spark,hive及mysql叢集，首先使用Dockerfile製作映象，把相關的軟體拷貝到約定好的目錄下，把配置檔案在外面先配置好，再使用docker and / docker run，拷貝移動到hadoop,spark

idae執行spark程式碼報錯ERROR MetricsSystem: Sink class org.apache.spark.metrics.sink.MetricsServlet cannot b

1.問題描述在idea中編寫，streaming處理伺服器socket傳遞的資料，結果報錯： "C:\Program Files\Java\jdk1.8.0_91\bin\java" -Didea.launcher.port=7534 "-Didea.launcher.bin.path=C

docker 執行 go語言二進位制程式

1、創件dockerfile檔案命名為“Dockerfile.scratch" # 使用scratch開啟 FROM scratch # 拷貝編譯程式 COPY main main # 開啟8080埠 EXPOSE 8080 # 執行! CMD ["./main"] 2、使用go程式編寫

scala eclipse執行spark 2.2.0

工具： IDE SCALA 4.7 eclipse spark 2.2.0 1新建一個scala 工程， 2新增庫（這裡採用在建工程的時候增加庫），點選Next,進入下一個介面： 3點選Add External JARS按鈕，新增庫，將spark下的jars包全部新增進去

使用Docker執行spark

獲取docker映象

執行docker容器

執行作業

相關推薦