scala wordcount

阿新 • • 發佈：2018-12-23

一.不使用spark

 1 package cn.scala_base.collection
 2 import scala.io.Source.fromFile;
 3 import scala.io.Source
 4 import scala.collection.mutable.Map
 5 
 6 /**
 7  * 藉助scala實現wordcount
 8  */
 9 object WordCount {
10   val wordMap = Map[String, Int]();
11 
12   def putMap(tuple: Tuple2[Array[String], Int]) {
 
13     val arr = tuple._1;
14     for (x <- arr) {
15       if (wordMap.contains(x)) {
16         var count = wordMap(x).toInt + 1;
17         wordMap(x) = count;
18       } else {
19         wordMap += (x -> 1);
20       }
21     }
22 
23   }
24 
25   def putMap2(tuple: Tuple2[String, Int]) {
 
26     val str = tuple._1;
27     if (wordMap.contains(str)) {
28       var count = wordMap(str).toInt + 1;
29       wordMap(str) = count;
30     } else {
31       wordMap += (str -> 1);
32     }
33 
34   }
35 
36   def main(args: Array[String]): Unit = {
37 
38     //讀取文字
39     val text1 = Source.fromFile(" 
D:/inputword/hello.txt", "gbk").getLines();
40     val text2 = Source.fromFile("D:/inputword/one.txt", "gbk").getLines();
41     val text3 = Source.fromFile("D:/inputword/two.txt", "gbk").getLines();
42 
43     /**
44      * 單詞總數;35
45      * atguigu    12
46      * hadoop    7
47      * hello    5
48      * spark    6
49      * world    5
50      *
51      */
52 
53     /* //統計每個檔案的總單詞數
54     val res1 = List(text1,text2,text3).map(_.map(_.mkString).flatMap(_.split(" ")).map((_,1)).map(_._2).reduceLeft(_+_));
55     println(res1);//List(18, 10, 7)*/
56 
57     //精確統計三個檔案中每個單詞出現的總次數
58 
59     //如果資料來源是iternator,最後一步應該使用foreach對元素進行操作
60     val res = List(text1, text2, text3).map(_.map(_.split(" ")).map((_, 1)).foreach(putMap(_)));
61 
62     //或者 flatMap把切割後的陣列中的元素取出,變成單個的字串
63     // val res = List(text1,text2,text3).map(_.flatMap(_.split(" ")).map((_,1)).foreach(putMap2(_)) )
64 
65     //遍歷
66     for (key <- wordMap.keySet) {
67       println(key + ":" + wordMap(key));
68     }
69 
70   }
71 
72 }

二.在spark叢集上執行wordcount

新建一個maven工程

pom.xml

 1 <dependencies>
 2           <dependency>
 3             <groupId>junit</groupId>
 4             <artifactId>junit</artifactId>
 5             <version>4.9</version>
 6         </dependency>
 7   
 8         <dependency>
 9             <groupId>org.apache.spark</groupId>
10             <artifactId>spark-core_2.11</artifactId>
11             <version>2.0.2</version>
12         </dependency>
13           
14         <dependency>
15             <groupId>org.apache.spark</groupId>
16             <artifactId>spark-sql_2.11</artifactId>
17             <version>2.0.2</version>
18         </dependency>
19           
20         <dependency>
21             <groupId>org.apache.spark</groupId>
22             <artifactId>spark-hive_2.11</artifactId>
23             <version>2.0.2</version>
24             <scope>provided</scope>
25         </dependency>
26         
27         <dependency>
28             <groupId>io.hops</groupId>
29             <artifactId>hadoop-client</artifactId>
30             <version>2.7.3</version>
31             <scope>provided</scope>
32         </dependency>
33   </dependencies>
34   
35   <build>
36     <plugins>
37             <plugin>
38                 <groupId>org.scala-tools</groupId>
39                 <artifactId>maven-scala-plugin</artifactId>
40                 <version>2.15.2</version>
41                 <executions>
42                     <execution>
43                         <goals>
44                             <goal>compile</goal>
45                             <goal>testCompile</goal>
46                         </goals>
47                     </execution>
48                 </executions>
49             </plugin>
50       </plugins>
51    </build>

 1 object WordCountCluster {
 2   def main(args: Array[String]): Unit = {
 3     
 4     val conf = new SparkConf().setAppName("WordCountCluster");
 5     
 6     val sc = new SparkContext(conf);
 7     
 8     val lines = sc.textFile("hdfs://hadoop002:9000/word.txt",1);
 9     
10     //切割
11     val fields = lines.flatMap(_.split(" "));
12     
13     //對映成元組
14     val wordTuple = fields.map((_,1));
15     
16     //統計                                 
17     val result = wordTuple.reduceByKey(_+_);
18     result.foreach(r => println(r._1+":"+r._2));
19     
20   }
21 }

匯出jar並上傳,同時上傳word.txt到hdfs上

編寫scalawordcount.sh

1 /opt/module/spark-2.0.2-bin-hadoop2.7/bin/spark-submit \
2 --class spark_base.wordcount.WordCountCluster \
3 --num-executors 3 \
4 --driver-memory 800m \
5 --executor-memory 1000m \
6 --executor-cores 3 \
7 /opt/module/spark-test/scala/scala-wc.jar \

chmod 777 scalawordcount.sh

./scalawordcount.sh

scala wordcount

一.不使用spark 1 package cn.scala_base.collection 2 import scala.io.Source.fromFile; 3 import scala.io.Source 4 import scala.collection.mutable.Map 5

spark scala wordcount 例子

word () lines atm nes flat val string println object ScalaApp { def main(args: Array[String]): Unit = { var conf = new SparkC

Akka實現WordCount(Scala)

post aggregate compiler lan www word you eof current Akka實現WordCount(Scala): 架構圖：項目結構： pom.xml <project xmlns="http://m

在IDEA中使用Scala語言編寫WordCount程式

1.使用IDEA建立Maven專案 2.匯入pom.xml檔案 <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compil

使用java和scala編寫spark-WordCount示例

前言：最近博主在學習spark相關知識，感覺是個挺不錯的框架，它的分散式處理大資料集的思想還是值得我們好好學習的。個人感覺以後java開發肯定不僅僅是SSM這一套東西了，當資料量越來越大時，我們需要學習使用這些大資料工具。

scala的wordcount小實驗

// object wordcount1 { def main(args: Array[String]): Unit = { //定義一個數組 val arr = Array("he

Scala +Spark+Hadoop+Zookeeper+IDEA實現WordCount單詞計數（簡單例項）

IDEA+Scala +Spark實現wordCount單詞計數一、新建一個Scala的object單例物件，修改pom檔案（1）下面文章可以幫助參考安裝 IDEA 和新建一個Scala程式。（2）pom檔案 <?xml

用scala寫一個wordcount程式

在終端目錄/Users/liujingmao/Downloads建立一個檔案scala_wordcount，檔案包含以下words hello word hello word you and me you and me hello word cat dog cat d

Spark 執行第一個Scala程式WordCount

安裝首先去官網下載Spark。注意Spark和Hadoop之間版本對應關係，我自己裝的Hadoop 2.7.5版本，按照下面方式下載即可。下載完成後，解壓安裝包至路徑/usr/local tar -zxf ./spark-2.3.0-bin-had

Scala 例項wordcount

^scala> f(500)res70: Int = 500scala> f(500l)<console>:10: error: type mismatch; found : Long(500L) required:

Spark+scala+Idea wordcount 示例

上篇文章搭建了spark,並給出了java版本的WordCount示例，但是總感覺spark程式用scala語言編寫才更好，因為scala語言會讓spark程式很簡潔，能在很大程度上提高開發效率，下面給出scala版本的WordCount. idea專案搭建

使用scala的Actor模擬計算多檔案WordCount

scala的Actor是基於事件模型的，具體的模型可以自己查詢資料，這裡根據別人的demo程式碼自己也寫了一個基於Actor的事件模型的多檔案計算WordCount，程式碼中我寫了詳細的註釋，僅供參考首先在D盤下面建立三個檔案，裡面寫一些單詞用空格分開：

scala的wordcount案例的多種方法

def main(args: Array[String]): Unit = { val list: List[String] = List("hello world hello world hello spark", "hehe spark hehe

Spark實戰----(1)使用Scala開發本地測試的Spark WordCount程式

第一步：JDk的安裝第二步：Scala的安裝不會的可以看這裡 Scala環境安裝鑑於以上兩步較為簡單，不再詳細贅述第三步：去Spark官方網站下載Spark包我下載的檔名是spark-1.6.2-bin-hadoop2.6 點選Dow

Spark WordCount簡單案例（java,scala版）

Spark 是什麼？官方文件解釋：Apache Spark™ is a fast and general engine for large-scale data processing.通俗的理解：Spark是基於記憶體計算的大資料平行計算框架。Spark基於記憶體計算，提高了

scala 實現wordcount

object ScalaWordCount { def main(args: Array[String]): Unit = { var lines = List("hello java hello scala", "hello tom", "today is go

scala本地wordcount的程式編寫

主要是在本地編寫一個計算檔案中單詞出現次數的工具，一下是程式碼： import scala.actors.{Future, Actor} import scala.collection.mutable

spark學習記錄（一、scala與java編寫wordCount比較）

新增依賴： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12<

Spark程式設計環境搭建（基於Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主強烈推薦)

　　為什麼，我要在這裡提出要用Ultimate版本。基於Intellij IDEA搭建Spark開發環境搭——參考文件操作步驟　　a)建立maven 專案　　b)引入依賴（Spark 依賴、打包外掛等等）基於Intellij

Scala IDE for Eclipse的下載、安裝和WordCount的初步使用（本地模式和叢集模式）

　　不多說，直接上乾貨！這篇部落格是，　　是在Scala IDEA for Eclipse裡maven建立scala和java程式碼編寫環境。本博文包括：　　Scala IDE for Eclipse的下載　　 Scala IDE for

scala wordcount

相關推薦