執行一個mapreduce例項

阿新 • • 發佈：2019-01-01

本文改編自開啟
因為參考文中步驟有部分執行不正確，所以自己記錄下自己的步驟，並將原因整理了下。

Score.java檔案

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop 
.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat 
;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class Score {
    public static class Map extends
            Mapper<LongWritable, Text, Text, IntWritable> {
        // 實現map函式
        public void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            // 將輸入的純文字檔案的資料轉化成String
            String line = value.toString 
();
            // 將輸入的資料首先按行進行分割
            StringTokenizer tokenizerArticle = new StringTokenizer(line, "\n");
            // 分別對每一行進行處理
            while (tokenizerArticle.hasMoreElements()) {
                // 每行按空格劃分
                StringTokenizer tokenizerLine = new StringTokenizer(tokenizerArticle.nextToken());
                String strName = tokenizerLine.nextToken();// 學生姓名部分
                String strScore = tokenizerLine.nextToken();// 成績部分
                Text name = new Text(strName);
                int scoreInt = Integer.parseInt(strScore);
                // 輸出姓名和成績
                context.write(name, new IntWritable(scoreInt));
            }
        }
    }



    public static class Reduce extends
            Reducer<Text, IntWritable, Text, IntWritable> {
        // 實現reduce函式
        public void reduce(Text key, Iterable<IntWritable> values,
                Context context) throws IOException, InterruptedException {
            int sum = 0;
            int count = 0;
            Iterator<IntWritable> iterator = values.iterator();
            while (iterator.hasNext()) {
                sum += iterator.next().get();// 計算總分
                count++;// 統計總的科目數
            }
            int average = (int) sum / count;// 計算平均成績
            context.write(key, new IntWritable(average));
        }
    }
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        // "localhost:9000" 需要根據實際情況設定一下
        conf.set("mapred.job.tracker", "localhost:9000");
        // 一個hdfs檔案系統中的 輸入目錄 及 輸出目錄
        String[] ioArgs = new String[] { "input/score", "output" };
        String[] otherArgs = new GenericOptionsParser(conf, ioArgs).getRemainingArgs();
        if (otherArgs.length != 2) {
            System.err.println("Usage: Score Average <in> <out>");
            System.exit(2);
        }

        Job job = new Job(conf, "Score Average");
        job.setJarByClass(Score.class);
        // 設定Map、Combine和Reduce處理類
        job.setMapperClass(Map.class);
        job.setCombinerClass(Reduce.class);
        job.setReducerClass(Reduce.class);
        // 設定輸出型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        // 將輸入的資料集分割成小資料塊splites，提供一個RecordReder的實現
        job.setInputFormatClass(TextInputFormat.class);
        // 提供一個RecordWriter的實現，負責資料輸出
        job.setOutputFormatClass(TextOutputFormat.class);
        // 設定輸入和輸出目錄
        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

編譯Score.java

javac Score.java

如果出現錯誤


vim /etc/profile
----------------

新增如下內容

#set hadoop environment
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export CLASSPATH=$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.2.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.2.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar

注意：這裡的環境變數中的classpath就是和原文的不同之處，也應該就是這個原因造成編譯不通過

重新執行

javac Score.java

會生成三個class檔案

ls | grep class

打成jar包

jar -cvf Score.jar ./Score*.class

這裡也和原文不同，不是用tar命令打包，而應該是jar命令

新建路徑/input/score

hadoop fs -mkdir  -p /user/root/input/scores

上傳到Hadoop的HDFS

hadoop fs -put ./*.txt /input/score

檢視上傳結果

hadoop fs -ls -R /input/score

執行

hadoop jar Score.jar Score /input/score /output

格式
hadoop jar jar包所在目錄類名稱 HDFS中需要處理資料路徑 HDFS中存放資料路徑

1、路徑不對，注意當前路徑和jar包所在的路徑不一致
2、jar包有問題（一開始用的tar打包，所以出錯尷尬）
3、jar包檔名錯了

輸出結果

hdfs dfs -ls output 或者 hadoop fs –ls –R /

檢視結果

hdfs dfs -cat output/part-r-00000  或者 hadoop fs  -cat output/part-r-00000

執行一個mapreduce例項

本文改編自開啟因為參考文中步驟有部分執行不正確，所以自己記錄下自己的步驟，並將原因整理了下。 Score.java檔案下載 import java.io.IOException; import java.util.Iterator; import

執行一個MapReduce時，應該監控些什麼

執行一個MapReduce時，應該監控些什麼前言本文討論的是，在以Yarn做資源管理的叢集上如何監控一個MapReduce程式。一、概述 &nbs

【Hadoop】Windows 10 在Intellij IEDA本地執行Hadoop MapReduce例項

環境：作業系統：Windows 10 Hadoop版本：2.7.3 Java版本: 1.8 前期準備： 1. 配置hadoop環境。 2. 配置maven環境。 1.下載maven部署包apache-maven-3.5.3-

pythonocc入門指導：2.PyCharm連線pythonOCC開發環境，並執行一個簡單例項

已經更新的入門指導 PythonOCC入門指導：1.建立pythonocc虛擬環境 PythonOCC入門指導：2.執行一個簡單例項 PythonOCC入門指導：3.建立屬於自己的主介面及對話方塊及安裝qtdesigner pythonocc基礎使用：1.讀入iges，step，stl檔

VC++ 只執行一個程式例項

原始碼如下： #pragma once #define DECLARE_SinglePrj SinglePrj* SinglePrj::m_pSinglePrj = NULL; #define SinglePrj_InitInstance(szPropName)

一個mapreduce例項加註釋

1.WCMapper.java package cn.itcast.hadoop.mr.wordcount; import java.io.IOException; import org.apache.commons.lang.StringUtils; import o

偽分散式執行Hadoop例項之yarn執行MapReduce例項

一、配置叢集配置yarn-env.sh檔案配置一下JAVA_HOME 配置yarn-site.xml  <property> <name>yarn.nodemanager.au

使用scala編寫一個簡單例項到spark叢集執行

實際工作上很少在虛擬機器上直接使用spark-shell去編寫程式，更多的是在IDEA等編輯器上將寫好的程式打包，使用spark-submit提交到叢集上去執行。我們使用scala去編寫程式，不會的自己百度學下，不解釋。 1，安裝jdk 因為scala也是執行在

Qt程式只執行一個例項

#include <QSharedMemory> QSharedMemory shared("name");//隨便填個名字就行 if (shared.attach()) { return

Qt只能執行一個例項的3種方法

轉自 http://blog.csdn.net/robertkun/article/details/8518576 1. 共享記憶體的方法Unix: QSharedMemory "owns" the shared memory segment. When the last thread or p

web專案Log4j日誌輸出路徑配置問題問題描述：一個web專案想在一個tomcat下執行多個例項（通過修改war包名稱的實現），然後每個例項都將日誌輸出到tomcat的logs目錄下例項名命名的文

問題描述：一個web專案想在一個tomcat下執行多個例項（通過修改war包名稱的實現），然後每個例項都將日誌輸出到tomcat的logs目錄下例項名命名的資料夾下進行區分檢視每個例項日誌，要求通過儘可能少的改動配置檔案，最好修改例項名後可以不修改log4j的配置檔案。實現分析：一般實現上面需求，需要在修

MFC程式唯一執行判斷（只能執行一個例項）

方法一： BOOL CIrisApp::InitInstance() { //加入程式唯一執行 ::CreateMutex(NULL,TRUE,m_pszExeName); if(GetLastError()==ERROR_ALREADY_EXIST

NSIS 安裝包確保只能有一個安裝例項執行

1、安裝程式只允許有一個執行 Function .onInit InitPluginsDir call hasinited ;建立互斥防止重複執行 System::Call 'kerne

使用Promise和async-await實現的一個非同步遍歷+同步執行任務的例項

假設我們需要做N個同樣的檢測任務，檢測完成後會將結果存入資料庫。我們希望每個檢測是同步完成的，完成後再進行儲存。同時，我們又希望這些任務一起開始執行。不需要檢查這些任務何時完畢。 /** * 檢測一個介面，返回檢測結果 * @param h

下載多個平臺並執行一個例項

1）解決No CPU/ABI system image available for this target問題開啟eclipse後，如下，點選下面紅色標記的按鈕，彈出Android Virtual

實現程式只能執行一個例項(單例)

將下面程式碼新增到程式的初始化函式中即可,以基於對話方塊的MFC工程為例: 在BOOL CxxxApp::InitInstance()函式開頭新增如下內容: BOOL CxxxApp::InitIn

delphi 只允許執行一個例項的三種方法轉

讓程式只執行一個例項 Windows 下一個典型的特徵就是多工，我們可以同時開啟多個視窗進行操作，也可以同時執行程式的多個例項，比如可以開啟許多個資源管理器進行檔案的移動複製操作。但有時出於某種考慮（比如安全性），我們要做出一些限制，讓程式只能夠執行一個例項。在Delp

Qt執行一個例項程序-3種方式簡介

semaphore.release(); 三：使用QtSingleApplication 方案一：使用Qt中的QSharedMemory,QLocalServer和QLocalSocket實現(不過需要在你的.pro里加上QT += network) // "single_application.h" #i

hadoop學習---執行第一個hadoop例項

hadoop環境搭建好後，執行第wordcount示例 1.首先啟動hadoop：sbin/start-dfs.sh,sbin/start-yarn.sh（必須能夠正常執行） 2.進入到hadoop的安裝目錄下（我的是/usr/hadoop） 3.新建hadoop

MFC開發技巧——應用程式只能執行一個例項

在MFC程式的"CXXXXAPP"類中InitInstance()方法的開始寫上以下的程式碼： HANDLE hMutex=::CreateMutex(NULL,TRUE,"Only One Instance");if(GetLastError()==ERROR_ALRE

執行一個mapreduce例項

Score.java檔案

編譯Score.java

打成jar包

新建路徑/input/score

上傳到Hadoop的HDFS

檢視上傳結果

執行

輸出結果

檢視結果

相關推薦