Ubuntu 16.04安裝Spark
阿新 • • 發佈:2018-12-08
在阿里雲ECS伺服器的Ubuntu中安裝Spark
安裝Spark
- 安裝spark
- 從官網下載安裝包並解壓。
- 修改Spark配置檔案
$ cd /usr/local/spark
$ cp cp ./conf/spark-env.sh.template ./conf/spark-env.sh
編輯spark-env.sh檔案,在第一行新增: export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
。這樣Spark就可以從HDFS中讀寫資料。
測試Spark能否正常訪問Hadoop中的HDFS
- 啟動Spark-shell互動式環境
# cd /usr/local/spark
# ./bin/spark-shell
- 啟動HDFS
# cd /usr/local/hadoop
# ./sbin/start-dfs.sh
執行 jps
檢視是否啟動成功:
[image:A0A31292-1FC3-4160-9498-09C38F57741E-15881-0000B042830E5150/A3111CEF-264C-436A-BFD9-396C4B9D3F50.png]
如果看到了至少上述4個程序,則表示HDFS啟動成功。
進入Spark-shell互動式環境後,執行
val line = sc.textFile("/user/meow/word.txt") println(line.count())
可以輸出word.txt檔案中的文字行數。
注: 1. textFile()
函式的引數是HDFS裡面的相對路徑。
2. 使用公網IP、私網IP和本地IP都會無法訪問。
3. 如果使用Intellij IDEA來訪問HDFS,則需要使用伺服器的私網IP。