1. 程式人生 > >Ubuntu 16.04安裝Spark

Ubuntu 16.04安裝Spark

在阿里雲ECS伺服器的Ubuntu中安裝Spark

安裝Spark

  • 安裝spark
  • 從官網下載安裝包並解壓。
  • 修改Spark配置檔案
$ cd /usr/local/spark
$ cp cp ./conf/spark-env.sh.template ./conf/spark-env.sh

編輯spark-env.sh檔案,在第一行新增: export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath) 。這樣Spark就可以從HDFS中讀寫資料。

測試Spark能否正常訪問Hadoop中的HDFS

  • 啟動Spark-shell互動式環境
# cd /usr/local/spark
# ./bin/spark-shell
  • 啟動HDFS
# cd /usr/local/hadoop
# ./sbin/start-dfs.sh

執行 jps 檢視是否啟動成功:

[image:A0A31292-1FC3-4160-9498-09C38F57741E-15881-0000B042830E5150/A3111CEF-264C-436A-BFD9-396C4B9D3F50.png]

如果看到了至少上述4個程序,則表示HDFS啟動成功。
進入Spark-shell互動式環境後,執行

val line = sc.textFile("/user/meow/word.txt")
println(line.count())

可以輸出word.txt檔案中的文字行數。
注: 1. textFile() 函式的引數是HDFS裡面的相對路徑。
2. 使用公網IP、私網IP和本地IP都會無法訪問。
3. 如果使用Intellij IDEA來訪問HDFS,則需要使用伺服器的私網IP。