05、Spark
阿新 • • 發佈:2018-08-27
count -c atm 模式 一個 技術 src www 作業
05、Spark shell連接到Spark集群執行作業
5.1 Spark shell連接到Spark集群介紹
Spark shell可以連接到Spark集群,spark shell本身也是spark的一個應用,是和Spark集群的一種交互方式。每次action動作的執行,都會對應一個job。
5.2 連接方式指定
#進入Spark bin目錄
$>cd /soft/spark/bin
#連接到Spark master的RPC端口
$>spark-shell --master spark://s101:7077
註意:spark://s101:7077地址是在spark webui中顯式的Spark master RPC端口,如下圖所示:
連接成功,進入如下畫面:
5.3 在集群上實現word count
啟動spark-shell後,讀取hdfs上的文件,實現word count。操作步驟和在local模式下沒有本質的不同,除了文件路徑指定的是hdfs路徑之外,其他部分均是相同的。shell操作如下:
$scala>sc.textFile("hdfs://mycluster/user/centos/1.txt")
.flatMap(_.split(" "))
.map((_,1))
.reduceByKey(_+_)
.collect
執行之後,運算結果如下圖所示:
查看spark webui界面顯示結果如下圖所示:
05、Spark