Spark環境安裝部署及詞頻統計例項

阿新 • • 發佈：2018-12-14

Spark是一個高效能的分散式計算框架，由於是在記憶體中進行操作，效能比MapReduce要高出很多．在這裡插入圖片描述具體的我就不介紹了，直接開始安裝部署並進行例項測試首先在官網下載http://spark.apache.org/downloads.html 注意要根據你的hadoop版本選擇，2.7極以後可以選這個如果選Source Code的話後面啟動spark-shell會報這樣的錯在這裡插入圖片描述下好解壓縮，進入bin目錄，啟動spark-shell 參考官網快速啟動教程http://spark.apache.org/docs/latest/quick-start.html

./spark-shell --master local[ 
2]

2代表開兩個執行緒，*代表開本地所有執行緒在這裡插入圖片描述下面開始詞頻統計小案例，我感覺spark比MapReduce操作更簡單，速度和效率更快更好．先準備一個原始檔(用於統計)，為了簡單，我直接把原始檔放在桌面上按照如下命令一步一步來 spark.read.textFile("")和sc.textFile("")都行

var file = sc.textFile("file:///home/zq/Desktop/test.txt")
file.collect
file.count
file.first()
val a = file.flatMap(line=>line.split(" "))
val b = 
 a.map(word=>(word,1))
val c = b.reduceByKey(_ + _)
c.collect

在這裡插入圖片描述簡化操作(效果一致)：

sc.textFile("file:///home/zq/Desktop/test.txt").flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey(_ + _).collect

在啟動的時候發現一條語句顯示如下 Spark context Web UI available at http://zq:4040 可知本地瀏覽器訪問http://zq:4040,可以看到Web UI介面在這裡插入圖片描述

上面演示的first,count,map,collect操作在這上面都有歷史記錄，點選進去即可看到具體情況

你們可以參考一下我的前面幾篇部落格，是通過Hadoop裡面的MapReduce來做的單詞統計的程式，和spark的效果一對比，我個人感覺spark更快更方便，效率更高！有興趣可以閱讀我的這兩篇系列部落格基於MapReduce的詞頻統計程式WordCountApp(一) 基於MapReduce的詞頻統計程式WordCount2App(二) 再通過這篇spark的操作，你會發現它們之間的差別與各自的優缺點

Spark環境安裝部署及詞頻統計例項

Spark環境安裝部署及詞頻統計例項

Flink環境安裝部署、詞頻統計例項、WordCount原始碼分析

Sonar 本地開發環境安裝部署及應用

SparkR安裝部署及資料分析例項

Spark環境安裝部署教程

zookeeper與kafka安裝部署及java環境搭建

Python 介紹及環境安裝部署

centos7上mariadb10.3多例項安裝部署及主從複製

環境篇：DolphinScheduler-1.3.1安裝部署及使用技巧

python3.6.1+selenium3.0環境安裝問題及解決方法

ELK部署logstash安裝部署及應用（二）

Hbase 分布式環境安裝部署

Ansible安裝部署及常用模塊詳解

redis-rdb-tools安裝部署及使用

linux環境安裝redis及擴展

Spark筆記整理（一）：spark單機安裝部署、分布式集群與HA安裝部署+spark源碼編譯

Pyenv環境安裝部署

Zabbix服務安裝部署及監控配置

MySQL-5.6.38 安裝部署及介紹

測試環境安裝部署文檔

Spark環境安裝部署及詞頻統計例項

相關推薦