Spark和Java API（三）Join

阿新 • • 發佈：2021-06-10

本文介紹如何基於Spark和Java來實現一個Join運算元的應用示例。

建立工程

建立一個Maven工程，pom.xml檔案如下：

<project xmlns="http://maven.apache.org/POM/4.0.0"
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelVersion>4.0.0</modelVersion>
	<groupId>com.github.ralgond</groupId>
	<artifactId>spark-java-api</artifactId>
	<version>0.0.1-SNAPSHOT</version>

	<dependencies>
		<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
		<dependency>
			<groupId>org.apache.spark</groupId>
			<artifactId>spark-core_2.12</artifactId>
			<version>3.1.1</version>
			<scope>provided</scope>
		</dependency>

	</dependencies>

	<build>
		<plugins>
			<plugin>
				<groupId>org.apache.maven.plugins</groupId>
				<artifactId>maven-compiler-plugin</artifactId>
				<version>3.0</version>
				<configuration>
					<source>1.8</source>
					<target>1.8</target>
				</configuration>
			</plugin>
		</plugins>
	</build>
</project>

編寫java類JoinByItemId

建立一個包com.github.ralgond.sparkjavaapi，在該包下建立一個名為JoinByItemId的類，該類內容如下：

package com.github.ralgond.sparkjavaapi;

import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.Optional;

import scala.Tuple2;

public class JoinByItemId {
	public static void main(String args[]) {
		String userFilePath = args[0];
		String itemFilePath = args[1];
		
		SparkConf conf = new SparkConf().setAppName("JoinByItemId Application");
		
		JavaSparkContext sc = new JavaSparkContext(conf);
		
		JavaRDD<String> udata1 = sc.textFile(userFilePath);
		JavaPairRDD<String, String> udata2 = udata1.mapToPair(line -> { 
			String[] a = line.split("\\s+", 2);
			return new Tuple2<String, String>(a[0], a[1]);
		});
		JavaPairRDD<String, String> udata3 = udata2.mapToPair(t -> new Tuple2<String, String>(t._2, t._1));
		
		
		JavaRDD<String> idata1 = sc.textFile(itemFilePath);
		JavaPairRDD<String, String> idata2 = idata1.mapToPair(line -> { 
			String[] a = line.split("\\s+", 2);
			return new Tuple2<String, String>(a[0], a[1]);
		});
		
		JavaPairRDD<String, Tuple2<String, Optional<String>>> rddWithJoin = udata3.leftOuterJoin(idata2);
		
		JavaPairRDD<String, String> res = rddWithJoin.mapToPair(t -> {
			if (t._2()._2().isPresent()) {
				return new Tuple2<String, String>(t._2()._1(), t._1() + "\t"+t._2()._2().get());
			} else {
				return new Tuple2<String, String>(t._2()._1(), t._1() + "\t"+"NULL");
			}
		});
		
		List<Tuple2<String, String>> res2 = res.collect();
		
		System.out.println(res2);
	}
}

準備資料

進入spark的安裝目錄，在data資料夾裡面建立資料夾spark-java-api\JoinByItemId，在{SPARK_HOME}\data\spark-java-api\JoinByItemId建立兩個檔案：user.txt和item.txt。其中

user.txt的內容為：

A	1
B	1
C	2
D	2
E	3

item.txt的內容為：

1	item1
2	item2
3	item3

編譯並執行

通過mvn clean package編譯出jar包spark-java-api-0.0.1-SNAPSHOT.jar。

到spark安裝目錄裡，執行如下命令：

bin\spark-submit --class com.github.ralgond.sparkjavaapi.JoinByItemId D:\ralgond\spark-java-api\target\spark-java-api-0.0.1-SNAPSHOT.jar data\spark-java-api\JoinByItemId\user.txt data\spark-java-api\JoinByItemId\item.txt

便可以看到結果：

Spark和Java API（三）Join

本文介紹如何基於Spark和Java來實現一個Join運算元的應用示例。建立工程建立一個Maven工程，pom.xml檔案如下：

Spark和Java API（二）Word Count

本文介紹如何基於Spark和Java來實現一個單詞計數（Word Count）的程式。建立工程

Spark和Java API（六）求平均值

本文介紹如何基於Spark和Java來計算每個key的value的平均值建立工程建立一個Maven工程，pom.xml檔案如下：

Flink基礎（十四）：Table API 和 Flink SQL（三）流處理中的特殊概念

　　Table API 和 SQL，本質上還是基於關係型表的操作方式；而關係型表、關係代數，以及SQL 本身，一般是有界的，更適合批處理的場景。這就導致在進行流處理的過程中，理解會

【Gin-API系列】配置檔案和資料庫操作（三）

我們前面已經實現了API的基礎版本，能對引數校驗和返回指定資料，這一章，我們將對主機和交換機進行建模，存入資料庫。

java爬蟲（三）利用HttpClient和Jsoup模擬網頁登陸（無驗證碼）

簡介：注意問題：本文是基於校園資訊門戶進行的實驗，因為使用者名稱密碼需要的涉密，因此文中的程式碼不加修改肯定不能直接執行成功。如果讀者二次開發過程執行程式碼出現問題歡迎與作者聯絡。可以直接留言，也可以

【Java多執行緒】ThreadLocal的使用和實現原理（三）

ThreadLocal是什麼？　　ThreadLocal提供執行緒本地變數，每個執行緒擁有本地變數的副本，各個執行緒之間的變數互不干擾。ThreadLocal實現在多執行緒環境下去保證變數的安全。以下來源於ThreadLocal類的註釋。

部署標準交換機和分散式交換機（三）

實驗目標：部署標準交換機和分散式交換機實驗要求：標準交換機的配置：分別在兩臺esxi主機中新增6塊物理網絡卡，橋接到vmnet1。

Java NIO（三）非阻塞的連線操作

非同步連線需要做以下操作：設定socket為非阻塞模式註冊OP_CONNECT事件 OP_CONNECT事件發生時，呼叫SocketChannel的finishConnection

基於Flask的 api（三）

使用flask的RESTful擴充套件庫 flask-restful 安裝 pip install flask-restful eg：最簡單的api

深入併發原理和大廠面試（三）：volatile和synchronized辯論

技術標籤：androidjava程式語言併發程式設計 1. 基本定義 1.1 synchronized synchronized可作用於一段程式碼或方法，既可以保證可見性，又能夠保證原子性。可見性：通過synchronized或者Lock能保證同一時刻只有

狂神Java Web （三）HTTP詳解

HTTP協議 1. 什麼是HTTP HTTP（超文字傳輸協議）是一個簡單的請求-響應協議，通常執行在TCP之上。

Java集合（三）：TreeMap-紅黑樹實現原理

TreeMap實現原理其實就是紅黑樹得實現原理內部引數 public class TreeMap<K,V> extends AbstractMap<K,V>

Kubernetes Job Controller 原理和原始碼分析（三）

概述Job controller 的啟動processNextWorkItem()核心調諧邏輯入口 - syncJob()Pod 數量管理 - manageJob()小結

Spark面試題整理（三）

1、為什麼要進行序列化序列化？可以減少資料的體積，減少儲存空間，高效儲存和傳輸資料，不好的是使用的時候要反序列化，非常消耗CPU。

java-集合（三）

import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class Javatest86 {

ElasticSearch6.X版本Java Api中文詳解（三）之Get Api、Delete API 、Delete By Query API解析

例如這個導航網站索引超過幾百萬條資料www.roak.com Get Delete Delete By Query Get Api get API允許根據它的id從索引中獲得一個型別化的JSON文件，下面的例子從一個名為twitter的索引中獲得一個JSON文件，在一個

理解Spark執行模式（三）(STANDALONE和Local)

前兩篇介紹了Spark的yarn client和yarn cluster模式，本篇繼續介紹Spark的STANDALONE模式和Local模式。

JAVA api （List,ArrayList,LinkedList的作用和實現）

技術標籤：JAVA API連結串列java資料結構 JAVA api(Collection的概念和用法) List依然是一個介面它繼承了Collection的功能並且增加了自己的新功能。

JAVA api （Set介面，HashSet與TreeSet的作用和實現）

技術標籤：JAVA APIjavaobjectapi set Set作為和List並列的介面同樣繼承了父類的各種方法，同時也有屬於自己的特性。 set的底層是以雜湊表的形式存在的，也就是散列表，它的特點： 1、一個不包含重複元素的 coll

Spark和Java API（三）Join

建立工程

編寫java類JoinByItemId

準備資料

編譯並執行

相關推薦