Spark用Java實現的WordCount

阿新 • • 發佈：2019-01-03

java版本的sparkWordCount

/**
 * Java版本的spark WordCount
 */
public class JavaWordCount {
    public static void main(String[] args) {
        //1.先建立conf物件進行配置，主要是設定名稱，為了設定執行模式
        SparkConf conf = new SparkConf().setAppName("JavaWordCount").setMaster("local");
        //2.建立context物件
        JavaSparkContext jsc = 
 new JavaSparkContext(conf);
        JavaRDD<String> lines = jsc.textFile("dir/file.txt");
        //3.進行切分資料 --flatMapFunction是具體實現類
        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
            //Iterable是所有集合的超級父介面
            @Override
            public 
 Iterable<String> call(String s) throws Exception {
                List<String> splited = Arrays.asList(s.split(" "));
                return splited;
            }
        });
        //4.將資料生成元組
        //第一個泛型是輸入的資料型別，後兩個引數是輸出引數元組的資料
        final JavaPairRDD<String, Integer> tuples = 
 words.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) throws Exception {
                return new Tuple2<String, Integer>(s, 1);
            }
        });
        //5.聚合
        JavaPairRDD<String, Integer> sumed = tuples.reduceByKey(new Function2<Integer, Integer, Integer>() {
            /**
             *
             * @param v1 相同key對應的value
             * @param v2 相同key對應的value
             * @return
             * @throws Exception
             */
            @Override
            public Integer call(Integer v1, Integer v2) throws Exception {
                return v1+v2;
            }
        });
        //因為Java API 沒有提供sortedBy 運算元，此時需要將元組中的資料進行位置調換，排完序再換回來
        //第一次交換是為了排序
        JavaPairRDD<Integer, String> swaped = sumed.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {
            @Override
            public Tuple2<Integer, String> call(Tuple2<String, Integer> tup) throws Exception {
                return tup.swap();
            }
        });
        //排序
        JavaPairRDD<Integer, String> sorted = swaped.sortByKey(false);

        //第二次交換是為了最終結果 <單詞，數量>
        JavaPairRDD<String, Integer> res = sorted.mapToPair(new PairFunction<Tuple2<Integer, String>, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(Tuple2<Integer, String> tup) throws Exception {
                return tup.swap();
            }
        });
        System.out.println(res.collect());
        res.saveAsTextFile("out4");
        jsc.stop();
    }
}

Spark用Java實現的WordCount

java版本的sparkWordCount /** * Java版本的spark WordCount */ public class JavaWordCount { public static void main(String[] args) { //1.先建

用Java實現WordCount

題目有一個檔案，裡面每一行都是一個IP地址，要對所有IP進行統計，並按降序排列。（先不考慮記憶體不夠的情況）思路這個題，在不考慮記憶體不夠的情況下，其實是很簡單的，主要涉及到的知識點有

Spark：用Scala和Java實現WordCount

1 Spark assembly has been built with Hive, including Datanucleus jars on classpath 2 Using Spark's default log4j profile: org/apache/spark/log4j-def

init.rc文件中面啟動c++程序，通過jni調用java實現

mini val sni ril urn runtime sport mco env </pre><p>註：假設是自己的myself.jar包，還要修改例如以下：</p><p>target/product/core_bas

再談用java實現Smtp發送郵件之Socket編程

~~ 成功剛才還要登陸 computer and ont sys 很多其它內容歡迎訪問個人站點 http://icodeyou.com 前幾天利用Socket實現了用java語言搭建webserver，全程下來應該會對Socket這

用java實現一個簡單的單用戶登陸功能的思路

get 單用戶這樣的簡單的 lock ref 數據庫清除一個引用所謂“單用戶單賬戶登錄”是指：在同一系統中，一個用戶名不能在兩個地方同時登錄。我們參照 QQ 實現效果：當某賬號在 A 處登錄後，在未退出的情況下，如果再到 B 處登錄，那麽，系統會擠下 A 處

用java實現的strstr函數的一些問題

符號 clas bsp 問題： pub spa 操作記錄位置用java實現過程如下： 1 public static int strstr(char[] cArray1,char[] cArray2){ 2 if(cArray1!=null &&

用Java實現的選擇排序和冒泡排序

auth main sta -i str public java index 選擇選擇排序 package cn.hxd.sort; /** * 選擇排序 * @author Administrator * */ public class SelectionSo

用Java實現字母排列的三角形

int true bst 字母 main println logs abcd rgs public class HomeWork03 { public static void main(String[] args) { String st

用java實現一個簡易編譯器1-詞法解析入門

new 概念自加我們 sta 數字獲得 () 操作系統本文對應代碼下載地址為： http://download.csdn.net/detail/tyler_download/9435103 視頻地址： http://v.youku.com/v_show/id_XMT

用java實現從命令行接收多個數字，求和之後輸出結果

system 程序流程圖 sta num 思想 pri for循環含義自動 1.設計思想首先要了解從命令行輸入數字的含義，不需要在程序中自己定義。需要定義int類的num和sum。之後利用num=Integer.parseInt(arg);將String型轉化為int

數據結構(三) 用java實現七種排序算法。

得到最簡上傳根節點位置中間 log 說明堆排序　　　　　　很多時候，聽別人在討論快速排序，選擇排序，冒泡排序等，都覺得很牛逼，心想，臥槽，排序也分那麽多種，就覺得別人很牛逼呀，其實不然，當我們自己去了解學習後發現，並沒有想象中那麽難，今天就一起總結一下各種排序

用Java實現AES加密（轉）

密鑰工具 mex 嚴格 keys 生產 ner for 創建一）什麽是AES？高級加密標準（英語：Advanced Encryption Standard，縮寫：AES），是一種區塊加密標準。這個標準用來替代原先的DES，已經被多方分析且廣為全世界所使用。那麽為什麽

java算法面試題：排序都有哪幾種方法？請列舉。用JAVA實現一個快速排序。選擇冒泡快速集合至少4種方法排序

算法 err div println rda print 算法面試 ++ 快速排序 package com.swift; import java.util.ArrayList; import java.util.Collections; import java.util

在Hadoop上用Python實現WordCount

tdi fff tool 目錄獲取 style 要求 ren pan 在hadoop上用Python實現WordCount 一、簡單說明　　本例中我們用Python寫一個簡單的運行在Hadoop上的MapReduce程序，即WordCount（讀取文本文件並統計單詞的詞

用java實現類似於中原六仔源碼搭建

void class a 分別是 super util ava 數據 import count() 由於是用Java實現的所以圖形顯示界面是通過java的GUI實現中原六仔源碼搭建的。企娥:217 1793 408 首先先來介紹一下我們的最終成果。寫了四個類文件分

用Java實現excel轉txt

red tid file print 輸入 change 方法路徑 hang import java.io.BufferedWriter;import java.io.File;import java.io.FileWriter;import java.io.IOExce

軟件工程：java實現wordcount基本功能

param process mar 一個 match sig str 需求 war github鏈接：https://github.com/Nancy0611/wc 一：項目相關要求　　該項目能統計文本文件的字符數、單詞數和行數。這個項目要求寫一個命令行程序，模仿已有wc

用java寫wordcount

同時 fileread iteye ron 詳細設計 sch porting 功能如何碼雲地址：https://gitee.com/Huan62201/events；個人PSP表格： PSP2.1 PSP階段預估耗時（分鐘）實際耗時

用java實現迴圈列印堆型數字

目標和效果輸入一個數，得到一個堆型的輸出如輸入7 程式碼 private static void funtion(int a) { int a1 = a; for (int i = 1; i <= a; i++) { for (int j = a1 -

Spark用Java實現的WordCount

相關推薦