Spark: 單詞計數(Word Count)的MapReduce實現（Java/Python）

阿新 • • 發佈：2022-05-26

1 導引

我們在部落格《Hadoop: 單詞計數(Word Count)的MapReduce實現》中學習瞭如何用Hadoop-MapReduce實現單詞計數，現在我們來看如何用Spark來實現同樣的功能。

2. Spark的MapReudce原理

Spark框架也是MapReduce-like模型，採用“分治-聚合”策略來對資料分佈進行分佈並行處理。不過該框架相比Hadoop-MapReduce，具有以下兩個特點：

對大資料處理框架的輸入/輸出，中間資料進行建模，將這些資料抽象為統一的資料結構命名為彈性分散式資料集(Resilient Distributed Dataset)，並在此資料結構上構建了一系列通用的資料操作，使得使用者可以簡單地實現複雜的資料處理流程。
採用了基於記憶體的資料聚合、資料快取等機制來加速應用執行尤其適用於迭代和互動式應用。

Spark社群推薦使用者使用Dataset、DataFrame等面向結構化資料的高層API(Structured API)來替代底層的RDD API,因為這些高層API含有更多的資料型別資訊（Schema），支援SQL操作，並且可以利用經過高度優化的Spark SQL引擎來執行。不過，由於RDD API更基礎，更適合用來展示基本概念和原理，後面我們的程式碼都使用RDD API。

Spark的RDD/dataset分為多個分割槽。RDD/Dataset的每一個分割槽都對映一個或多個數據檔案， Spark通過該對映讀取資料輸入到RDD/dataset中。

Spark的分割槽數和以下引數都有關係：

spark.default.parallelism (預設為CPU的核數)
spark.sql.files.maxPartitionBytes (預設為128 MB）讀取檔案時打包到單個分割槽中的最大位元組數）
spark.sql.files.openCostInBytes (預設為4 MB) 該引數預設4M，表示小於4M的小檔案會合併到一個分割槽中，用於減小小檔案，防止太多單個小檔案佔一個分割槽情況。這個引數就是合併小檔案的閾值，小於這個閾值的檔案將會合並。

我們下面的流程描述中，假設每個檔案對應一個分割槽（實際上因為檔案很小，導致三個檔案都在同一個分割槽中，大家可以通過呼叫RDD

物件的getNumPartitions()檢視）。

Spark的Map示意圖如下：

Spark的Reduce示意圖如下：

3. Word Count的Java實現

專案架構如下圖：

Word-Count-Spark
├─ input
│  ├─ file1.txt
│  ├─ file2.txt
│  └─ file3.txt
├─ output
│  └─ result.txt
├─ pom.xml
├─ src
│  ├─ main
│  │  └─ java
│  │     └─ WordCount.java
│  └─ test
└─ target

WordCount.java檔案如下：

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.sql.SparkSession;

import scala.Tuple2;
import java.util.Arrays;
import java.util.List;
import java.util.regex.Pattern;
import java.io.*;
import java.nio.file.*;

public class WordCount {
	private static Pattern SPACE = Pattern.compile(" ");

	public static void main(String[] args) throws Exception {
		if (args.length != 2) {
			System.err.println("Usage: WordCount <intput directory> <output directory>");
			System.exit(1);
		}
        String input_path = args[0];
        String output_path = args[1];

		SparkSession spark = SparkSession.builder()
			.appName("WordCount")
			.master("local")
			.getOrCreate();

		JavaRDD<String> lines = spark.read().textFile(input_path).javaRDD();

		JavaRDD<String> words = lines.flatMap(s -> Arrays.asList(SPACE.split(s)).iterator());
		JavaPairRDD<String, Integer> ones = words.mapToPair(s -> new Tuple2<>(s, 1));
		JavaPairRDD<String, Integer> counts = ones.reduceByKey((i1, i2) -> i1 + i2);

		List<Tuple2<String, Integer>> output = counts.collect();

        String filePath = Paths.get(output_path, "result.txt").toString();
        BufferedWriter out = new BufferedWriter(new FileWriter(filePath));
		for (Tuple2<?, ?> tuple : output) {
			out.write(tuple._1() + ": " + tuple._2() + "\n");
		}
		out.close();
        spark.stop();
	}
}

pom.xml檔案配置如下：

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>com.WordCount</groupId>
  <artifactId>WordCount</artifactId>
  <version>1.0-SNAPSHOT</version>

  <name>WordCount</name>
  <!-- FIXME change it to the project's website -->
  <url>http://www.example.com</url>

  <!-- 集中定義版本號 -->
  <properties>
    <scala.version>2.12.10</scala.version>
    <scala.compat.version>2.12</scala.compat.version>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
    <project.timezone>UTC</project.timezone>
    <java.version>11</java.version>
    <scoverage.plugin.version>1.4.0</scoverage.plugin.version>
    <site.plugin.version>3.7.1</site.plugin.version>
    <scalatest.version>3.1.2</scalatest.version>
    <scalatest-maven-plugin>2.0.0</scalatest-maven-plugin>
    <scala.maven.plugin.version>4.4.0</scala.maven.plugin.version>
    <maven.compiler.plugin.version>3.8.0</maven.compiler.plugin.version>
    <maven.javadoc.plugin.version>3.2.0</maven.javadoc.plugin.version>
    <maven.source.plugin.version>3.2.1</maven.source.plugin.version>
    <maven.deploy.plugin.version>2.8.2</maven.deploy.plugin.version>
    <nexus.staging.maven.plugin.version>1.6.8</nexus.staging.maven.plugin.version>
    <maven.help.plugin.version>3.2.0</maven.help.plugin.version>
    <maven.gpg.plugin.version>1.6</maven.gpg.plugin.version>
    <maven.surefire.plugin.version>2.22.2</maven.surefire.plugin.version>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>11</maven.compiler.source>
    <maven.compiler.target>11</maven.compiler.target>
    <spark.version>3.2.1</spark.version>
  </properties>

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
      <scope>test</scope>
    </dependency>
    <!--======SCALA======-->
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-library</artifactId>
        <version>${scala.version}</version>
        <scope>provided</scope>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>${spark.version}</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
    <dependency> <!-- Spark dependency -->
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.12</artifactId>
        <version>${spark.version}</version>
        <scope>provided</scope>
    </dependency>
  </dependencies>


  <build>
    <pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) -->
      <plugins>
        <!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle -->
        <plugin>
          <artifactId>maven-clean-plugin</artifactId>
          <version>3.1.0</version>
        </plugin>
        <!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging -->
        <plugin>
          <artifactId>maven-resources-plugin</artifactId>
          <version>3.0.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-compiler-plugin</artifactId>
          <version>3.8.0</version>
        </plugin>
        <plugin>
          <artifactId>maven-surefire-plugin</artifactId>
          <version>2.22.1</version>
        </plugin>
        <plugin>
          <artifactId>maven-jar-plugin</artifactId>
          <version>3.0.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-install-plugin</artifactId>
          <version>2.5.2</version>
        </plugin>
        <plugin>
          <artifactId>maven-deploy-plugin</artifactId>
          <version>2.8.2</version>
        </plugin>
        <!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle -->
        <plugin>
          <artifactId>maven-site-plugin</artifactId>
          <version>3.7.1</version>
        </plugin>
        <plugin>
          <artifactId>maven-project-info-reports-plugin</artifactId>
          <version>3.0.0</version>
        </plugin>
        <plugin>
          <artifactId>maven-compiler-plugin</artifactId>
          <version>3.8.0</version>
          <configuration>
              <source>11</source>
              <target>11</target>
              <fork>true</fork>
              <executable>/Library/Java/JavaVirtualMachines/jdk-11.0.15.jdk/Contents/Home/bin/javac</executable>
          </configuration>
        </plugin>
      </plugins>
    </pluginManagement>
  </build>
</project>

記得配置輸入引數input和output代表輸入目錄和輸出目錄（在VSCode中在launch.json檔案中配置）。編譯執行後可在output目錄下檢視result.txt：

Tom: 1
Hello: 3
Goodbye: 1
World: 2
David: 1

可見成功完成了單詞計數功能。

4. Word Count的Python實現

先使用pip按照pyspark==3.8.2：

pip install pyspark==3.8.2

注意PySpark只支援Java 8/11，請勿使用更高階的版本。這裡我使用的是Java 11。執行java -version可檢視本機Java版本。

(base) orion-orion@MacBook-Pro ~ % java -version
java version "11.0.15" 2022-04-19 LTS
Java(TM) SE Runtime Environment 18.9 (build 11.0.15+8-LTS-149)
Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.15+8-LTS-149, mixed mode)

專案架構如下：

Word-Count-Spark
├─ input
│  ├─ file1.txt
│  ├─ file2.txt
│  └─ file3.txt
├─ output
│  └─ result.txt
├─ src
│  └─ word_count.py

word_count.py編寫如下：

from pyspark.sql import SparkSession
import sys
import os
from operator import add

if len(sys.argv) != 3:
    print("Usage: WordCount <intput directory> <output directory>", file=sys.stderr)
    exit(1)
     
input_path, output_path = sys.argv[1], sys.argv[2]

spark = SparkSession.builder.appName("WordCount").master("local").getOrCreate()

lines = spark.read.text(input_path).rdd.map(lambda r: r[0])

counts = lines.flatMap(lambda s: s.split(" "))\
    .map(lambda word: (word, 1))\
    .reduceByKey(add)

output = counts.collect()

with open(os.path.join(output_path, "result.txt"), "wt") as f:
    for (word, count) in output:
        f.write(str(word) +": " + str(count) + "\n")

spark.stop()

使用python word_count.py input output執行後，可在output中檢視對應的輸出檔案result.txt：

Hello: 3
World: 2
Goodbye: 1
David: 1
Tom: 1

可見成功完成了單詞計數功能。

參考

[1] Spark官方文件： Quick Start
[2] 許利傑，方亞芬. 大資料處理框架Apache Spark設計與實現[M]. 電子工業出版社, 2021.
[3] GiHub: Spark官方Java樣例
[4] similarface： Spark資料分割槽數量的原理

Spark: 單詞計數(Word Count)的MapReduce實現（Java/Python）

1 導引我們在部落格《Hadoop: 單詞計數(Word Count)的MapReduce實現》中學習瞭如何用Hadoop-MapReduce實現單詞計數，現在我們來看如何用Spark來實現同樣的功能。

Hadoop: 單詞計數(Word Count)的MapReduce實現

1.Map與Reduce過程 1.1 Map過程首先，Hadoop會把輸入資料劃分成等長的輸入分片(input split) 或分片傳送到MapReduce。Hadoop為每個分片建立一個map任務，由它來執行使用者自定義的map函式以分析每個分片中的記錄。在

N皇后問題的深度優先搜尋實現（基於Python）

技術標籤：python人工智慧深度搜索其實是人工智慧大作業中的一部分啦~ 解決方法就是很樸素的盲目搜尋

演算法入門 - 動態陣列的實現（Java版本）

靜態陣列 Java中最基本的陣列大家肯定不會陌生： int[] array = new int[6]; for (int i = 0; i < array.length; i++){

Node - Express 的實現（超詳細）

原文連結：segmentfault.com/a/119000001… 序：因為公司 Node 方面業務都是基於一個小型框架寫的，這個框架是公司之前的一位同事根據 Express 的中介軟體思想寫的一個小型 Socket 框架，閱讀其原始碼之後，對 Ex

Java專案實戰之線上考試系統的實現（系統介紹）

1.本系統和現在有的考試系統有以下幾種優勢： a.和現在有的系統比較起來，本系統有科目、章節、老師、學生、班級等資訊的管理，還有批閱試卷檢視已批閱試卷等。傳統的考試系統劃分並不細，業務功能簡單。 b.和學校的

RAID 5 軟體實現（Windows 系統）

實現raid有2種方式：軟體 RAID 的效能較低，因為其使用主機的資源。需要載入 RAID 軟體以從軟體 RAID 卷中讀取資料。在載入 RAID 軟體前，作業系統需要引導起來才能載入 RAID 軟體。在軟體 RAID 中無需物理硬體。零

邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹

相信很多朋友對於邏輯式程式語言，都有一種最熟悉的陌生人的感覺。一方面，平時在書籍、在資訊網站，偶爾能看到一些吹噓邏輯式程式設計的話語。但另一方面，也沒見過周圍有人真正用到它（除了SQL）。

14.非平衡樹的雙旋（左右雙旋和右左雙旋）程式碼實現（JavaScript版）

<!DOCTYPE html> <html lang=\"en\"> <head> <meta charset=\"UTF-8\"> <meta name=\"viewport\" content=\"width=device-width, initial-scale=1.0\">

邏輯式程式語言極簡實現（使用C#） - 2. 一道邏輯題：誰是凶手

本系列前面的文章：邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹

邏輯式程式語言極簡實現（使用C#） - 3. 執行原理

本系列前面的文章：邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹

16.圖的深度搜索和廣度搜索程式碼實現（JavaScript版）

圖的深度搜索和廣度搜索 <!DOCTYPE html> <html lang=\"en\"> <head> <meta charset=\"UTF-8\">

邏輯式程式語言極簡實現（使用C#） - 4. 程式碼實現（完結）

本文是本系列的完結篇。本系列前面的文章：邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹

快速排序實現（快排）

/* 先來看下快排 9.9 快速排序事實上，不論是C++ STL、java SDK或者.NETFrameWork SDK等開發工具包中的原始碼中都能找到它的某種實現版本。

Java實現簡訊驗證碼--設定傳送間隔時間，以及有效時間（Java+Redis）

Java實現簡訊驗證碼--設定傳送間隔時間，以及有效時間（Java+Redis）這篇文章，實現了Java傳送手機簡訊驗證碼傳送的間隔時間，以及手機驗證碼的有效時間和手機驗證碼格式的合法性驗證，可以防止惡意刷介面

7-12 集合的模擬實現（函式模板） (40分) pta c++

我們可以用一個數組來模擬集合，add運算用以實現集合元素的增加，delete運算用於實現集合元素的刪除，find運算用以實現集合元素的查詢，但是目前集合元素型別未知，可以是int、char、double等基本資料型別，也可以是

Java經典小遊戲——貪吃蛇簡單實現（附原始碼）

一、使用知識 Jframe GUI 雙向連結串列執行緒二、使用工具 IntelliJ IDEA jdk 1.8 三、開發過程

登記支出功能的實現（java）

一、大體思路實現結果如圖所示，故我們可利用switch語句分為四個case來實現收支功能。首先我們要建一個Utility工具類，工具類有四個類：選單1-4的輸入，收入支出金額的輸入，收入支出的說明、確認選擇的收入。

Mybatis配置並實現（XML方式）

Mybatis配置並實現（XML方式） idea中建立一個maven專案在pom檔案中匯入下面的依賴

spark 執行wc-demo報錯歸總（saveAsTextFile方法）

核心報錯日誌 org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io/FileDescriptor

Spark: 單詞計數(Word Count)的MapReduce實現（Java/Python）

1 導引

2. Spark的MapReudce原理

3. Word Count的Java實現

4. Word Count的Python實現

參考

相關推薦