在IDEA中編寫Spark的WordCount程式（傻瓜版）

阿新 • • 發佈：2018-12-17

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。

一、生成WordCount的jar包

1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Artifactld→Next→Finish

2. 配置Maven的pom.xml（配置好pom.xml以後，點選Enable Auto-Import即可）：

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.bie</groupId>
    <artifactId>sparkWordCount</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>1.7</maven.compiler.source>
        <maven.compiler.target>1.7</maven.compiler.target>
        <encoding>UTF-8</encoding>
        <scala.version>2.10.6</scala.version>
        <scala.compat.version>2.10</scala.compat.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>1.5.2</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.10</artifactId>
            <version>1.5.2</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.6.2</version>
        </dependency>
    </dependencies>

    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
        <testSourceDirectory>src/test/scala</testSourceDirectory>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.0</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                        <configuration>
                            <args>
                                <arg>-make:transitive</arg>
                                <arg>-dependencyfile</arg>
                                <arg>${project.build.directory}/.scala_dependencies</arg>
                            </args>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-surefire-plugin</artifactId>
                <version>2.18.1</version>
                <configuration>
                    <useFile>false</useFile>
                    <disableXmlReport>true</disableXmlReport>
                    <includes>
                        <include>**/*Test.*</include>
                        <include>**/*Suite.*</include>
                    </includes>
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.3</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                            <transformers>
                                <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                    <mainClass>com.wu.WordCount</mainClass>
                                </transformer>
                            </transformers>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
</project>

注意：這裡需要修改Hadoop版本

3：將src/main/java和src/test/java分別修改成src/main/scala和src/test/scala，與pom.xml中的配置保持一致（）；

操作：java→Refactor→Rename

4：新建一個com.bie包，再新建一個scala class，型別為Object，spark程式如下：

package com.wu

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    //建立SparkConf()並且設定App的名稱
    val conf = new SparkConf().setAppName("wordCount");
    //建立SparkContext,該物件是提交spark app的入口
    val sc = new SparkContext(conf);
    //使用sc建立rdd,並且執行相應的transformation和action
    sc.textFile(args(0)).flatMap(_.split(" ")).map((_ ,1)).reduceByKey(_ + _,1).sortBy(_._2,false).saveAsTextFile(args(1));
    //停止sc，結束該任務
    sc.stop();
  }
}

5. 修改pom.xml中的mainClass，使其和自己的類路徑對應起來：

6. 使用Maven打包：點選IDEA右側的Maven Project選項，點選Lifecycle,選擇clean和package，然後點選Run Maven Build：

等待編譯完成，選擇編譯成功的jar包，target/sparkWordCount-1.0-SNAPSHOT.jar

二、執行

1. 開啟xshell，檔案→新建連線

新建好後輸入使用者名稱和密碼，建立連線。

2. 使用Xftp新建檔案傳輸（Ctrl+Alt+F），將剛剛生成的jar包和WordCount拖拽至 /home/hdfs目錄下

3. 使用Xshell將WordCount.txt上傳至hdfs系統

切換至hdfs使用者：[[email protected] ~]# su hdfs

到spark的bin目錄下：[[email protected] root]$ cd /home/hdfs/software/spark/bin

在hdfs系統中新建input資料夾：hadoop fs -mkdir /input

檢視是否新建成功：[[email protected] bin]$ cd /home/hdfs/software/hadoop/bin #轉到該目錄下

[[email protected] bin]$ ./hadoop fs -ls /

將txt檔案上傳至input資料夾：[[email protected] root]$ cd /home/hdfs/software/spark/bin #轉回到該目錄

[[email protected] bin]$ hadoop fs -put /home/hdfs/WordCount.txt /input

檢視是否上傳成功：[[email protected] bin]$ cd /home/hdfs/software/hadoop/bin #轉到該目錄下

[[email protected] bin]$ ./hadoop fs -ls /input

返回hdfs使用者根目錄：cd ~

使用spark-submit命令提交Spark應用：[[email protected] ~]$ /home/hdfs/software/spark/bin/spark-submit --class com.bie.WordCount sparkWordCount-1.0-SNAPSHOT.jar hdfs://data2.cshdp.com:9000/input/WordCount.txt hdfs://data2.cshdp.com:9000/output

檢視執行結果：[[email protected] bin]$ cd /home/hdfs/software/hadoop/bin #轉到該目錄下

[[email protected] bin]$ ./hadoop fs -ls /output

[[email protected] bin]$ ./hadoop fs -cat /output/part-00000 #檢視檔案內容

在IDEA中編寫Spark的WordCount程式（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Art

windows下idea編寫WordCount程式，並打jar包上傳到hadoop叢集執行（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Artifactld→Ne

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式新建一個Maven專案不用說了，普通的Maven專案就行。加入Hadoop依賴其中的${hadoop.version}對應自己使用的Hadoop版本 hadoop-client

ROS Indigo beginner_Tutorials-10 編寫 ROS 話題版的 Hello World 程式（Python版）

1. 前言： Hello world 程式，在我們程式設計界，代表學習某種語言編寫的第一個程式。對於 ROS 機器人作業系統來說，這個 Hello World 程式就是：寫一個簡單的訊息釋出器(傳送) 和訂閱器(接收)。 2. 準備工

好程式設計師大資料教程：SparkShell和IDEA中編寫Spark程式

好程式設計師大資料教程：SparkShell和IDEA中編寫Spark程式，spark-shell是Spark自帶的互動式Shel

loadrunner指令碼編寫~dubbo協議（java版）

1. 目的總結loadrunner編寫dubbo協議指令碼 2. 前提 1、熟悉Java語言，至少知道基本語法） 2、熟悉loadrunner基本操作、 3、熟悉dubbo框架（http://dubbo.io/) 3. 搭建dubbo服務主要作用是熟悉dubbo呼叫

S2.1 修復影象小程式（簡單版）

用OpenCV自帶的inpaint()演示 CV_EXPORTS_W void inpaint( InputArray src, InputArray inpaintMask, OutputArray dst, double inpaintRad

Linu實現簡單進度條小程式（彩色版）

在實現進度條小程式之前，我們先來看兩段小程式碼 test.c #include<stdio.h> int main() { printf("hello bit\n"); sleep(3); return 0; } test1.c #include<stdio.h

計算機指令在CPU中的執行過程（圖文版）

為了瞭解指令的大概流程，下面以加法指令做以說明（引用《計算機原理》）。指令形式： ADD EA 該指令一個隱含的運算元存在累加器（AC）中，EA為另一個運算元在主存當中的有效地址。該指令是把AC和EA的資料相加，最後把計算的和送回AC中，即AC+EA -> AC。

JPWH ：持久層框架Hibernate入門程式（配置版）

簡介：利用Hibernate框架，搭建最簡單的應用案例。一、環境搭建 1 - 匯入JAR包 hibernate-core 框架的核心包 mysql-connector-java 用來連線資料庫 junit 單元測試用 2 - 新建普通JA

【程式】STM32F407VE微控制器驅動Marvell 88W8801 WiFi模組的程式（20181010版）

本程式所用的微控制器型號為：STM32F407VE PD14埠為復位引腳（PDN），請務必連線！晶振用的是8MHz，請注意檢查自己的開發板，看看晶振是不是8MHz。如果是25MHz，請修改system_stm32f4xx.c檔案！程式支援連線無密碼的熱點以及WEP、

深度學習中的注意力模型（2017版）

摘自張俊林 https://zhuanlan.zhihu.com/p/37601161 注意力模型最近幾年在深度學習各個領域被廣泛使用，無論是影象處理、語音識別還是自然語言處理的各種不同型別的任務中，都很容易遇到注意力模型的身影。所以，瞭解注意力機制的工作原理對於關注深度

idea 中執行web 專案（連線資料庫）

一共要匯入的包：專案的建立：在WEB-INF 資料夾下，建立classes 和 lib 資料夾 file----project structure--------Modules-------Path 將Output path 和 Te

十大濾波演算法程式（Arduino 版）

在使用感測器的時候，我們經常會需要對各種資料進行處理解析，而濾波在資料的處理上是必不可少的，因此總接一下了一些簡單的資料濾波的程式演算法，以arduino為例 1、限幅濾波法（又稱程式判斷濾波法） 2、中位值濾波法 3、算術平均濾波法 4、遞推平均濾波法（又稱滑動平均濾波法） 5、中位值

C++實現電子郵件客戶端程式（簡易版）

#Windows作業系統下用命令列工具實現傳送郵件（程式設計前工作）　　步驟：　　1.telnet連線伺服器（以網易郵箱為例，埠號25）　　　　2.返回220 說明連線成功　　. 　　3.ehlo傳送使用者名稱（QQ郵箱使用者名稱預設是QQ號）　　　　返回了一堆登入方式

IDEA中安裝MyBatis Plugins（Mybatis-Generator）外掛及破解方法

IDEA中安裝MyBatis Plugins（Mybatis-Generator）外掛及破解方法 1.首先在File——Settings——輸入Plugins，選擇Browse repositories，搜尋mybatis，選擇mybatis-plugins，點選安裝（由於我的已經安裝過，所以沒

mac下編寫C程式（by Xocde）

相信許多剛開始學習C語言的同學，可能會有這樣的一個問題，就是抱著自己的mac發愁，因為不是Windows系統，與書上的教程不符合，導致不知道在哪裡編寫C語言程式。今天，給大家推薦一種在mac上編寫C語言程式的方法。首先，下載蘋果自己家的IDE--xcode(在App St

中科院中文分詞在java中呼叫詳解（ICTCLAS2013版）

在中文分詞的時候，現在流行的有很多，下面主要介紹中科院中文分詞，現在中科院地址是http://ictclas.nlpir.org/ 首先也是開始呼叫這個介面，呼叫成功後覺得應該共享出來，讓更多人去使用。然後主要是介紹一下怎麼用使用漢語分詞系統怎麼去呼叫。必須先在上面那個網

微信小程式跳一跳輔助程式（手動版）

最近，微信官方推出了demo小程式遊戲《跳一跳》，這個遊戲操作簡單，容易上手，卻又不容易獲得高分，受到很多人的喜愛（emm...這遊戲有毒）。自己也嘗試了玩了幾次，作為一個手殘+腦殘的資深玩家，對於這種遊戲的分數簡直低的可怕...既然自己這麼菜，就找些工具輔

線索二叉樹原理及前序、中序線索化（Java版）

轉載原文地址：https://blog.csdn.net/UncleMing5371/article/details/54176252一、線索二叉樹原理前面介紹二叉樹原理及特殊二叉樹文章中提到，二叉樹可以使用兩種儲存結構：順序儲存和二叉連結串列。在使用二叉連結串列

在IDEA中編寫Spark的WordCount程式（傻瓜版）

相關推薦