spark學習03之wordCount統計並排序(java)

阿新 • • 發佈：2019-02-05

wordCount就是對一大堆單詞進行個數統計，然後排序。從網上找篇英文文章放到本地文件。

pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.fei</groupId>
  <artifactId>word-count</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  
  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  </properties>

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>
     <dependency>
	  <groupId>org.apache.spark</groupId>
	  <artifactId>spark-core_2.10</artifactId>
	  <version>1.3.0</version>
	</dependency>
	
	
  </dependencies>
  <build> 
    <plugins> 
        <plugin> 
            <groupId>org.apache.maven.plugins</groupId> 
            <artifactId>maven-compiler-plugin</artifactId> 
            <version>2.0.2</version> 
            <configuration> 
                <source>1.8</source> 
                <target>1.8</target> 
            </configuration> 
        </plugin> 
    </plugins> 
</build> 
</project>

WordCount.java

package com.fei;

import java.util.Arrays;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

/**
 * 單詞統計，並按降序排序，輸出前10個單詞及個數
 * @author Jfei
 *
 */
public class WordCount {

	public static void main(String[] args) {
		//1.本地模式，建立spark配置及上下文
		SparkConf conf = new SparkConf().setAppName("wordCount").setMaster("local");
		JavaSparkContext sc = new JavaSparkContext(conf);
		
		//2.讀取本地檔案,並建立RDD
		JavaRDD<String> linesRDD = sc.textFile("e:\\words.txt");
		//3.每個單詞由空格隔開,將每行的linesRDD拆分為每個單詞的RDD
		JavaRDD<String> wordsRDD = linesRDD.flatMap(s  -> Arrays.asList(s.split("\\s")));
		//相當於 ==>
		/*JavaRDD<String> wordsRDD = linesRDD.flatMap(new FlatMapFunction<String, String>(){
			private static final long serialVersionUID = 1L;
			@Override
			public Iterable<String> call(String line) throws Exception {
				return Arrays.asList(line.split(" "));
			}
		});*/
		//4.將每個單詞轉為key-value的RDD，並給每個單詞計數為1
		JavaPairRDD<String,Integer> wordsPairRDD = wordsRDD.mapToPair(s -> new Tuple2<String,Integer>(s, 1));
		//相當於 ==>
		/*JavaPairRDD<String,Integer> wordsPairRDD = wordsRDD.mapToPair(new PairFunction<String, String, Integer>() {
			private static final long serialVersionUID = 1L;
			@Override
			public Tuple2<String, Integer> call(String word) throws Exception {
				return new Tuple2<String,Integer>(word,1);
			}
		});*/
		
		//5.計算每個單詞出現的次數
		 JavaPairRDD<String,Integer> wordsCountRDD = wordsPairRDD.reduceByKey((a,b) -> a+b);
		//相當於 ==>
		/*JavaPairRDD<String,Integer> wordsCountRDD = wordsPairRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {
			@Override
			public Integer call(Integer v1, Integer v2) throws Exception {
				return v1 + v2;
			}
		});*/
		 
		 //6.因為只能對key進行排序，所以需要將wordsCountRDD進行key-value倒置，返回新的RDD
		 JavaPairRDD<Integer,String> wordsCountRDD2 = wordsCountRDD.mapToPair(s -> new Tuple2<Integer,String>(s._2, s._1));
		 //相當於 ==>
           /*JavaPairRDD<Integer,String> wordsCountRDD2 = wordsCountRDD.mapToPair(new PairFunction<Tuple2<String,Integer>, Integer, String>() {
			private static final long serialVersionUID = 1L;
			@Override
			public Tuple2<Integer, String> call(Tuple2<String, Integer> t) throws Exception {
				return new Tuple2<Integer,String>(t._2,t._1);
			}
		});*/
         
		 //7.對wordsCountRDD2進行排序,降序desc
		 JavaPairRDD<Integer,String> wordsCountRDD3 = wordsCountRDD2.sortByKey(false);
		 
		 //8.只取前10個
		 List<Tuple2<Integer, String>>  result = wordsCountRDD3.take(10);
		 
		 //9.列印
		 result.forEach(t -> System.out.println(t._2 + "   " + t._1));
		 
		 
		 sc.close();
	 }
}

如果JDK不是1.8的，那修改下pom.xml及程式碼中不要使用lambda表示式

spark學習03之wordCount統計並排序(java)

wordCount就是對一大堆單詞進行個數統計，然後排序。從網上找篇英文文章放到本地文件。 pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://

Spark學習筆記之WordCount

1.pom.xml <dependencies> <!-- 匯入scala的依賴 --&g

大資料之使用hadoop對海量資料進行統計並排序

不得不說，Hadoop確實是處理海量離線資料的利器，當然，凡是一個東西有優點必定也有缺點，hadoop的缺點也很多，比如對流式計算，實時計算，DAG具有依賴關係的計算，支援都不友好，所以，由此誕生了很多新的分散式計算框架，Storm，Spark，Tez，impala，

算法導論學習筆記(2)－歸並排序

mar 今天 iostream 介紹 font 額外遞歸 size dsm 今天學習了算法導論上的歸並排序算法，而且完畢了在紙上寫出偽代碼，曾經就學過歸並可是理解的不夠透徹。以前還一直困惑：為什麽明明歸並排序比快排的時間復雜度更穩定。為什麽庫函數不用歸

Spark 學習筆記之 MONGODB SPARK CONNECTOR 插入性能測試

log font span 技術 strong mongos str server 學習 MONGODB SPARK CONNECTOR 測試數據量：測試結果： 116萬數據通過4個表的join，從SQL Server查出，耗時1分多。MongoSp

八大排序算法之七-歸並排序

遞增 ron 分配 urn img 元素繼續 image return 歸並類的排序算法歸並：將兩個或兩個以上的有序表組合成一個新的有序表。內部排序中，通常采用的是 2-路歸並排序。即：將兩個位置相鄰的記錄有序子序列歸並為一個記錄有序的序列。歸並排序是建立在歸並操作上

Spark 學習筆記之 Standalone與Yarn啟動和運行時間測試

span ima 上傳運行 yarn erl 技術分享 word wordcount Standalone與Yarn啟動和運行時間測試：寫一個簡單的wordcount：打包上傳運行： Standalone啟動：運行時間：

Spark 學習筆記之 Streaming Window

min .cn spa pan tex def rec mas clas Streaming Window: 上圖意思：每隔2秒統計前3秒的數據 slideDuration: 2 windowDuration: 3 例子: import org.apach

Python爬蟲學習筆記之模擬登陸並爬去GitHub

過程 eight res 開發者工具 @value clas 之前自己 8.0 (1)環境準備: 請確保已經安裝了requests和lxml庫 (2)分析登陸過程: 首先要分析登陸的過程，需要探究後臺的登陸請求是怎樣發送的，登陸之後又有怎樣的

數據結構與算法學習筆記之如何分析一個排序算法？

編號 height href eight 代碼 [] www. 價值它的前言現在IT這塊找工作，不會幾個算法都不好意思出門，排序算法恰巧是其中最簡單的，我接觸的第一個算法就是它，但是你知道怎麽分析一個排序算法麽？有很多時間復雜度相同的排序算法，在實際編碼中，那又如何

Spark學習系列之SparkContext

1. SparkContext類是Spark的關鍵類，程式碼在這裡：./core/src/main/scala/org/apache/spark/SparkContext.scala。SparkContext是Spark的入口，負責連線Spark叢集，建立RDD，累積量和廣播量等。從本質上來說，Sp

資料結構與演算法學習筆記之如何分析一個排序演算法？

前言現在IT這塊找工作，不會幾個演算法都不好意思出門，排序演算法恰巧是其中最簡單的，我接觸的第一個演算法就是它，但是你知道怎麼分析一個排序演算法麼？有很多時間複雜度相同的排序演算法，在實際編碼中，那又如何選擇呢？下面我們帶著問題一起學習一下。正文一、常見經典的排序方法（圖片來自於一畫素）

spark入門實踐之單詞統計

2017-07-01 簡介 Apache Spark 是專為大規模資料處理而設計的快速通用的計算引擎。 Spark由UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室) 於2009年開始開發並開源. 目前

MongoDB學習03之JAVA簡單操作增刪改查

經過前面幾篇博文的學習，對MongoDB已經有一定的瞭解了，現在用JAVA來操作MongoDB,進行一些簡單的增刪改查，查詢有複雜查詢，這裡不一一列舉，同學自己看看API就OK了。 MongoDB JAVA驅動下載：https://github.c

機器學習入門之《統計學習方法》筆記——樸素貝葉斯法

樸素貝葉斯(naive Bayes)法是基於貝葉斯定理與特徵條件獨立假設的分類方法。目錄樸素貝葉斯法設輸入空間X⊆RnX⊆Rn 為nn 維向量的集合，輸出空間為類標記集合Y={c1,c2,...,cK}Y={c1,c2,...,

spark學習筆記之二：寬依賴和窄依賴

1.如果父RDD裡的一個partition只去向一個子RDD裡的partition為窄依賴，否則為寬依賴（只要是shuffle操作）。 2.spark根據運算元判斷寬窄依賴：窄依賴：map

spark學習13之RDD的partitions數目獲取

1解釋獲取RDD的partitions數目和index資訊疑問：為什麼純文字的partitions數目與HDFS的block數目一樣，但是.gz的壓縮檔案的partitions數目卻為1？ 2.程式碼： sc.textFile("/xubo/GR

spark學習14之使用maven快速切換本地除錯的spark版本

1解釋有時候叢集裝了某個版本的spark，想再裝一個版本，想簡單點，可以選擇本地使用idea中的maven。本文主要是從spark1.5.2切換到spark1.6.1 2.程式碼： spark-1.5.2： <?xml version

spark學習記錄（一、scala與java編寫wordCount比較）

新增依賴： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12<

Spark學習筆記之-Spark遠端除錯

Spark遠端除錯本例子介紹簡單介紹spark一種遠端除錯方法，使用的IDE是IntelliJ IDEA。 1、瞭解jvm一些引數屬性 -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,addres

spark學習03之wordCount統計並排序(java)

相關推薦