Idea基於maven，java語言的spark環境搭建

阿新 • • 發佈：2019-01-11

環境介紹：IntelliJ IDEA開發軟體，hadoop01-hadoop04的叢集（如果不進行spark叢集測試可不安裝），其中spark安裝目錄為/opt/moudles/spark-1.6.1/

準備工作

首先在叢集中的hdfs中新增a.txt檔案，將來需在專案中進行單詞統計
這裡寫圖片描述

構建Maven專案

點選File->New->Project…
這裡寫圖片描述
點選Next，其中GroupId和ArtifactId可隨意命名

點選Next

點選Finish，出現如下介面：

書寫wordCount程式碼

請在pom.xml中的version標籤後追加如下配置

<properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>3.8.1</version 
>
        <scope>test</scope>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.10</artifactId>
        <version>1.6.1</version>
    </dependency>
    <dependency>
        <groupId 
>org.apache.spark</groupId>
        <artifactId>spark-sql_2.10</artifactId>
        <version>1.6.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-hive_2.10</artifactId>
        <version>1.6.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming_2.10</artifactId>
        <version>1.6.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.7.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming-kafka_2.10</artifactId>
        <version>1.6.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-graphx_2.10</artifactId>
        <version>1.6.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-assembly-plugin</artifactId>
        <version>2.2-beta-5</version>
    </dependency>
    <dependency>
        <groupId>commons-lang</groupId>
        <artifactId>commons-lang</artifactId>
        <version>2.3</version>
    </dependency>
</dependencies>
<build>
    <sourceDirectory>src/main/java</sourceDirectory>
    <testSourceDirectory>src/test/java</testSourceDirectory>
    <plugins>
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
                <archive>
                    <manifest>
                        <maniClass></maniClass>
                    </manifest>
                </archive>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
        <plugin>
            <groupId>org.codehaus.mojo</groupId>
            <artifactId>exec-maven-plugin</artifactId>
            <version>1.3.1</version>
            <executions>
                <execution>
                    <goals>
                        <goal>exec</goal>
                    </goals>
                </execution>
            </executions>
            <configuration>
                <executable>java</executable>
                <includeProjectDependencies>false</includeProjectDependencies>
                <classpathScope>compile</classpathScope>
                <mainClass>com.dt.spark.SparkApps.App</mainClass>
            </configuration>
        </plugin>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-compiler-plugin</artifactId>


            <configuration>
                <source>1.6</source>
                <target>1.6</target>
            </configuration>
        </plugin>
    </plugins>
</build>

點選右下角的Import Changes匯入相應的包
這裡寫圖片描述
點選File->Project Structure…->Moudules，將src和main都選為Sources檔案

在java資料夾下建立SparkWordCount java檔案

該檔案程式碼為：

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;

import java.util.Arrays;

/**
 * Created by hadoop on 17-4-4.
 */
public class SparkWordCount {
    public static void main(String[] args){
        SparkConf conf = new SparkConf()
                .setAppName("WordCountCluster");
        //第二步
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> lines = sc.textFile("hdfs://hadoop01:9000/a.txt");
        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>(){
            private static final long serialVersionUID = 1L;

            @Override
            public Iterable<String> call(String line) throws Exception{
                return Arrays.asList(line.split(" "));
            }
        });


        JavaPairRDD<String,Integer> pairs = words.mapToPair(
                new PairFunction<String, String, Integer>() {

                    private  static final long serialVersionUID = 1L;

                    public Tuple2<String, Integer> call(String word) throws Exception {
                        return new Tuple2<String, Integer>(word,1);
                    }
                }
        );

        JavaPairRDD<String,Integer> wordCounts = pairs.reduceByKey(
                new Function2<Integer, Integer, Integer>() {
                    @Override
                    public Integer call(Integer v1, Integer v2) throws Exception {
                        return v1+v2;
                    }
                }
        );


        wordCounts.foreach(new VoidFunction<Tuple2<String, Integer>>() {
            @Override
            public void call(Tuple2<String, Integer> wordCount) throws Exception {
                System.out.println(wordCount._1+" : "+ wordCount._2 );
            }
        });

        sc.close();

    }
}

生成jar包

點選File->Project Structure…->Artifacts，點選+號
這裡寫圖片描述
選擇Main Class

點選ok

由於叢集中已包含spark相關jar包，將那些依賴jar包刪除

點選apply，ok。然後點選選單欄中的Build->Build Artifacts…->Build，將會在out目錄中生成相應的jar包

jar包上傳到叢集並執行

本文使用scp將jar包上傳到叢集，如果在windows下可使用filezilla或xftp軟體來上傳
這裡寫圖片描述
在叢集上輸入如下命令來執行：

/opt/moudles/spark-1.6.1/bin/spark-submit --class SparkWordCount sparkStudy.jar  --master=spark://192.168.20.171:7077

最終結果為：
這裡寫圖片描述

Idea基於maven，java語言的spark環境搭建

準備工作

構建Maven專案

書寫wordCount程式碼

生成jar包

jar包上傳到叢集並執行

Idea基於maven，java語言的spark環境搭建

Java語言開發環境搭建

基於maven來Spring MVC的環境搭建遇到“坑”

java day1 （java 語言開發環境搭建）

黑馬程式設計師——Java語言介紹+環境搭建+經典Hello World

Appium移動自動化測試之—基於java的iOS環境搭建

Java Web 學習筆記第一章，java語言簡介

使用IDEA基於Maven搭建多模塊聚合工程（springmvc+spring+mybatis整合）

eclipse導入基於maven的java項目後沒有Java標誌和沒有maven Dependencies有解決辦法

idea部署Maven入門（一）——環境變數的配置和下載

java語言path環境變數的作用及配置方式

基於Docker的Spark環境搭建理論部分

判斷物件當中有沒有某一個屬性（AS，JS，Java語言比較）

IDEA 基於Maven的springboot+jsp搭建web專案完整流程

徐鬆亮軟體應用教學-基於Visual Studio Code的C語言開發環境搭建

基於Maven的Java構建---------Java打包

小白學JAVA，與你們感同身受，JAVA---day8:開發環境。魯迅的一句話:總之歲月漫長,然而值得等待。

從原始碼到機器程式碼，Java語言中發生了什麼？

推薦幾個IDEA插件，Java開發者擼碼利器。

JDK中的，Java的執行環境元件——JRE

Idea基於maven，java語言的spark環境搭建

準備工作

構建Maven專案

書寫wordCount程式碼

生成jar包

jar包上傳到叢集並執行

相關推薦