3. scala-spark wordCount 案例

阿新 • • 發佈：2020-10-08

1. 建立maven 工程

2. 相關依賴和外掛

<dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.1</version>
        </dependency>
 </dependencies>
    <build>
        <finalName>wordCount</finalName>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>4.2.0</version> 

                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>3.1.0</version> 

                <configuration>
                    <archive>
                        <manifest>
                            <mainClass>wordCount</mainClass>
                        </manifest>
                    </archive>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package 
</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

3. wordCount 案例

package com.atgu.bigdata.spark
import org.apache.spark._
import org.apache.spark.rdd.RDD
object wordCount extends App {
  // local模式
  // 1.建立sparkConf 物件
   val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("wordCount")
  // 2. 建立spark 上下文物件
  val sc:SparkContext=new SparkContext(config = conf)
  // 3. 讀取檔案
 val lines: RDD[String] = sc.textFile("file:///opt/data/1.txt")
  // 4. 切割單詞
  val words: RDD[String] = lines.flatMap(_.split(" "))
//  words.collect().foreach(println)
  // map
  private val keycounts: RDD[(String, Int)] = words.map((_, 1))
  //
  private val results: RDD[(String, Int)] = keycounts.reduceByKey(_ + _)
  private val res: Array[(String, Int)] = results.collect
  res.foreach(println)

}

4. 專案目錄結構

3. scala-spark wordCount 案例

1. 建立maven 工程 2. 相關依賴和外掛 <dependencies> <dependency> <groupId>org.apache.spark</groupId>

01_MapRedece概述_1.8 WordCount案例(Scala版本)

1.在Mac環境搭建Hadoop MapReduce 專案　　1. scala專案搭建 https://www.cnblogs.com/bajiaotai/p/15381309.html

本地 maven + scala 跑spark wordcount

pom.xml 點選檢視程式碼 <project xmlns=\"http://maven.apache.org/POM/4.0.0\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\" xsi:schemaLocation=\"http://maven.apache.org/POM/4.0.0 http://m

在IntelliJ IDEA中建立和執行java/scala/spark程式的方法

本文將分兩部分來介紹如何在IntelliJ IDEA中執行Java/Scala/Spark程式：基本概念介紹

使用MapReduce執行WordCount案例

@ 目錄一、準備資料二、MR的程式設計規範三、程式設計步驟四、編寫程式 Mapper程式解讀

Spark專案實戰從0到1之（3）spark讀取hive資料

1.首先將叢集的這3個檔案hive-site.xml，core-size.xml,hdfs-site.xml放到資原始檔裡(必須，否則報錯)

windows配置scala+spark的一些坑

安裝Scala https://www.runoob.com/scala/scala-install.html 有個坑，scala這個語言的相容性極差。

MapReduce的執行流程和程式設計規範以及簡單的WordCount案例

技術標籤：hadoopmapReduce大資料hadoopmapreduce ▶ \\blacktriangleright ▶ MapReduce程式設計規範

scala spark streaming 列印kafka 資料

how-to-fix-java-io-notserializableexception-org-apache-kafka-clients-consumer The Kafka Consumer record object is received from Dstream. When you try to print it, it gives error because that object is