在IDEA中使用Scala語言編寫WordCount程式

阿新 • • 發佈：2018-11-10

1.使用IDEA建立Maven專案

2.匯入pom.xml檔案

<properties>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <scala.version>2.11.8</scala.version>
        <spark.version>2.1.0</spark.version>
        <hadoop.version>2.6.0</hadoop.version>
        <encoding>UTF-8</encoding>
    </properties>

    <dependencies>
        <!-- 匯入scala的依賴 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <!-- 匯入spark的依賴 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <!-- 指定hadoop-client API的版本 -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>

    </dependencies>

    <build>
        <pluginManagement>
            <plugins>
                <!-- 編譯scala的外掛 -->
                <plugin>
                    <groupId>net.alchim31.maven</groupId>
                    <artifactId>scala-maven-plugin</artifactId>
                    <version>3.2.2</version>
                </plugin>
                <!-- 編譯java的外掛 -->
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-compiler-plugin</artifactId>
                    <version>3.5.1</version>
                </plugin>
            </plugins>
        </pluginManagement>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <executions>
                    <execution>
                        <id>scala-compile-first</id>
                        <phase>process-resources</phase>
                        <goals>
                            <goal>add-source</goal>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                    <execution>
                        <id>scala-test-compile</id>
                        <phase>process-test-resources</phase>
                        <goals>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <executions>
                    <execution>
                        <phase>compile</phase>
                        <goals>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>


            <!-- 打jar外掛 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.4.3</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

注意：這裡的Scala Spark Hadoop版本必須按照叢集上的修改，特別是Scala和Spark的，要和你叢集上的版本號一致，可以在Spark叢集中使用Spark Shell模式檢視版本號

3.編寫WordCount程式

package cn.ysjh0014

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object ScalaWordCount {

  def main(args: Array[String]): Unit = {
    //建立Spark配置，應用程式的名字
    val conf = new SparkConf().setAppName("ScalaWordCount")
    //建立Spark程式執行的入口
    val sc = new SparkContext(conf)
    //指定以後從哪讀取資料建立RDD(彈性分散式資料集)
    val line = sc.textFile(args(0))
    //切分壓平
    val word = line.flatMap(_.split(" "))
    //將單詞和1組成元組
    val WordOne = word.map((_, 1))
    //按照key進行聚合
    val reduce = WordOne.reduceByKey(_ + _)
    //排序
    val sort = reduce.sortBy(_._2, false)
    //將結果儲存到hdfs
    sort.saveAsTextFile(args(1))
    //釋放資源
    sc.stop()

  }
}

4.使用Maven打成jar包

在IDEA中view---->Tool Windows--->Maven Projects--->Package，jar包在target下，有兩個jar包，original-Spark-1.0-SNAPSHOT.jar是隻將程式碼打成了jar包，Spark-1.0-SNAPSHOT.jar是將所有依賴也打成了jar包

5.提交到Spark叢集上測試

bin/spark-submit \
--master spark://cdh0:7077 \
--class cn.ysjh0014.ScalaWordCount \            包名+專案名
/opt/package/original-Spark-1.0-SNAPSHOT.jar \  jar包所在目錄
hdfs://cdh0:8020/usr/ys/input/test.txt \        讀取資料的hdfs路徑
hdfs://cdh0:8020/usr/output                     儲存資料到hdfs的路徑

6.檢視執行結果

至此執行成功

在IDEA中使用Scala語言編寫WordCount程式

1.使用IDEA建立Maven專案 2.匯入pom.xml檔案 <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compil

在Spark Shell中編寫WordCount程式

Spark Shell是一個互動式的命令列，裡面可以寫Spark程式(Scala語言)，也是一個客戶端，用於提交Spark程式 1.啟動Spark Shell bin/spark-shell 上邊是沒有指定Master地址的啟動方式，啟動後用的是spark的local模

windows下idea編寫WordCount程式，並打jar包上傳到hadoop叢集執行（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Artifactld→Ne

在VS中如何讓C#語言編寫的程式自動以管理員身份執行

在Vista或Win7或Win8或Win10系統上exe程式預設不是以管理員身份執行的，它會被UAC(使用者帳戶控制)阻止訪問系統某些功能，如修改登錄檔操作、操作硬碟上的檔案等。但是有時我們確實需要程式在開始執行時就是以管理員身份執行的，這時我們在VS中需進行以下操作：

spark shell中編寫WordCount程式

啟動hdfs 略啟動spark 略準備資料 vi wordcount.txt hello zeng hello miao hello gen hello zeng hello wen

C語言編寫Copy程式（Linux環境下的操作）

COPY程式的編寫（作者：Baron_wu 禁止轉載）一、實驗描述在這個實驗中，我們要做一個程式，這個程式是將一個檔案的內容複製到一個目標檔案。首先這個程式提示使用者輸入要複製的原始檔案的名字，以及要複製到的目標檔案的名字。確保包括必要的錯誤檢查，包括確保原始檔案存在

c語言編寫一個程式，輸入a b c三個值，輸出其中最大者

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

在Pycharm上編寫WordCount程式

本篇部落格將給大家介紹怎麼在PyCharm上編寫執行WordCount程式。第一步下載安裝PyCharm 下載Pycharm PyCharm的下載地址（Linux版本）。下載完成後你將得到一個名叫：pycharm-professional-2018.2.4.tar.gz檔案。我們選擇的是正版軟體，學

IDEA中scala版本錯亂導致的問題

Error:scalac: bad symbolic reference. A signature in package.class refers to type compileTimeOnly in package scala.annotation which is not

用scala寫一個wordcount程式

在終端目錄/Users/liujingmao/Downloads建立一個檔案scala_wordcount，檔案包含以下words hello word hello word you and me you and me hello word cat dog cat d

IDEA 中開發第一個Spark 程式

1. 建立一個Maven 專案 2. 新增SCALA依賴庫 ****注意scala 的版本相對於spark2.4 ,scala 的版本必須是2.11.x 修改POM.xml 檔案加入 hadoop-client 和spark-core_2.11 的庫依賴

Intellij IDEA中常用的編寫Java程式碼快的快捷方式總結（持續更新）

1. main函式快捷鍵 —— psvm 特別好記：public static void main的縮寫 2. System.out.println();輸出快捷鍵 —— sout3. for(int i=0;i<;i++)for迴圈遍歷快捷鍵 —— fori

常見各種語言編寫的程式的入口點程式碼(識別是否到達OEP)

Borland Delphi 6.0- 7.0 00509CB0 > $ 55 PUSH EBP 00509CB1 . 8BEC MOV EBP,ESP 00509CB3 . 83C4 EC ADD ESP,-14 00509CB6 . 53 PUSH EBX 00509CB7 . 56 PUSH E

教你用C語言編寫"vb"程式

相信不少人學過C語言，也學過VB。在不少人看來C語言和VB之間最大的區別就是：C程式是黑漆漆DOS視窗，而VB是標準的Windows窗體。其實不然，C語言也是可以寫出“vb”程式的。請看程式碼： #include <windows.h> LRESULT CA

在IDEA中編寫Spark的WordCount程式（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Art

idea中spark項目Scala語言讀取properties文件

module 技術分享 clas 點擊 ade file asstream -1 str 1.將文件放入resources目錄下面，將文件設置成resources file->Project Structure->Modules 選擇文件，然後點擊resourc

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式新建一個Maven專案不用說了，普通的Maven專案就行。加入Hadoop依賴其中的${hadoop.version}對應自己使用的Hadoop版本 hadoop-client

在eclipse中編寫Hadoop的WordCount程式，並在eclipse中執行

基於Windows7 + jdk1.8.0_162 + eclipse4.7.2 + Hadoop2.7.7 一、安裝eclipse（自行百度）二、安裝jdk（自行百度）三、下載maven倉庫並在eclipse中配置maven環境（後面的文章講）四、在eclipse中新建一個maven

編寫一個刪除C語言程式中所有註釋語句的程式

#include <stdio.h> void rcomment (int c); void in_comment_one (void); //該函式用於處理/*及*/的註釋符 voi

C語言：編寫一個程式統計輸入字串中，各個數字、空白字元、以及其他所有字元出現的次數。

#include<stdio.h> int main() { int c = 0; int num_count = 0; int emp_count = 0; int els_count = 0; w

在IDEA中使用Scala語言編寫WordCount程式

相關推薦