並行作業3：在eclipse中開發MapReduce程式

阿新 • • 發佈：2018-12-03

在eclipse中開發MapReduce程式

系統採用vm下ubuntu16.04

一、eclipse安裝(參考我的其它部落格)

二、eclipse配置

1、下載hadoop-eclipse-plugin-2.7.3.jar外掛，並將其拖到虛擬機器桌面

2、將其移動到/usr/local/java/ide/eclipse/plugins目錄下

cd ~/桌面
sudo mv hadoop-eclipse-plugin-2.7.3.jar /usr/local/java/ide/eclipse/plugins

3、重啟eclipse

4、切換檢視，點選右上角小象

5、點選右下帶加號小象

6、點選配置檔案進行配置

Localtion name:hadoopTest
Map/Reduce Master:
    host:localhost
    Port:9001
    
//這裡選中Use M/R Master host按鈕
DFS Master:
    host:localhost
    Port:9000

username:hk

7、左側專案欄

DFS Locations
    |--hadoopTest
        |--資料夾(0)

8、命令列輸入，離開安全模式，以便在eclipse內可以直接懟hdfs目錄下檔案進行操作。

hadoop dfsadmin  -safemode leave

9、新建上傳程式碼相關檔案

DFS Locations
    |--hadoopTest
        |--(1)
            |--user(1)
                |--hk(1)
                    |--sort_in(3)
                        |--file1.txt
                        |--file2.txt
                        |--file3.txt

三、MapReduce程式

1、例項描述

對輸入檔案中資料進行排序。輸入檔案中的每行內容均為一個數字，即一個數據。要求在輸出中每行有兩個間隔的數字，其中，第一個代表原始資料在原始資料集中的位次，第二個代表原始資料。

(1)file1.txt:

(2)file2.txt:

(3)file3.txt:

26
54
6

期望輸出

1    2
2    6
3    15
4    22
5    26
6    32
7    32
8    54
9    92
10    650
11    654
12    756
13    5956
14    65223

2、設計思路

這個例項僅僅要求對輸入資料進行排序，熟悉MapReduce過程的讀者會很快想到在MapReduce過程中就有排序，是否可以利用這個預設的排序，而不需要自己再實現具體的排序呢？答案是肯定的。
但是在使用之前首先需要了解它的預設排序規則。它是按照key值進行排序的，如果key為封裝int的IntWritable型別，那麼MapReduce按照數字大小對key排序，如果key為封裝為String的Text型別，那麼MapReduce按照字典順序對字串排序。
瞭解了這個細節，我們就知道應該使用封裝int的IntWritable型資料結構了。也就是在map中將讀入的資料轉化成 IntWritable型，然後作為key值輸出（value任意）。reduce拿到<key，value-list>之後，將輸入的 key作為value輸出，並根據value-list中元素的個數決定輸出的次數。輸出的key（即程式碼中的linenum）是一個全域性變數，它統計當前key的位次。需要注意的是這個程式中沒有配置Combiner，也就是在MapReduce過程中不使用Combiner。這主要是因為使用map和reduce就已經能夠完成任務了。

3、程式程式碼

package edu.hk.sort;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
 
public class Sort {
    //map將輸入中的value化成IntWritable型別，作為輸出的key
    public static class Map extends
    	Mapper<Object,Text,IntWritable,IntWritable>{
        private static IntWritable data=new IntWritable();
        //實現map函式
        public void map(Object key,Text value,Context context)
                throws IOException,InterruptedException{
            String line=value.toString();
            data.set(Integer.parseInt(line));
            context.write(data, new IntWritable(1));
        }
    }
    //reduce將輸入中的key複製到輸出資料的key上，
    //然後根據輸入的value-list中元素的個數決定key的輸出次數
    //用全域性linenum來代表key的位次
    public static class Reduce extends
            Reducer<IntWritable,IntWritable,IntWritable,IntWritable>{
        private static IntWritable linenum = new IntWritable(1);
        //實現reduce函式
        public void reduce(IntWritable key,Iterable<IntWritable> values,Context context)
                throws IOException,InterruptedException{
            for(IntWritable val:values){
                context.write(linenum, key);
                linenum = new IntWritable(linenum.get()+1);
            }
        }
    }
    public static void main(String[] args) throws Exception{
        Configuration conf = new Configuration();
        //這句話很關鍵
        conf.set("fs.default.name", "hdfs://localhost:9000");
        String[] ioArgs=new String[]{"sort_in","sort_out"};
        String[] otherArgs = new GenericOptionsParser(conf, ioArgs).getRemainingArgs();
     if (otherArgs.length != 2) {
     System.err.println("Usage: Data Sort <in> <out>");
         System.exit(2);
     }
     Job job = new Job(conf, "Data Sort");
     job.setJarByClass(Sort.class);
     //設定Map和Reduce處理類
     job.setMapperClass(Map.class);
     job.setReducerClass(Reduce.class);
     //設定輸出型別
     job.setOutputKeyClass(IntWritable.class);
     job.setOutputValueClass(IntWritable.class);
     //設定輸入和輸出目錄
     FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
     FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
     System.exit(job.waitForCompletion(true) ? 0 : 1);
     }
}

4、結果

1    2
2    6
3    15
4    22
5    26
6    32
7    32
8    54
9    92
10    650
11    654
12    756
13    5956
14    65223

並行作業3：在eclipse中開發MapReduce程式

在eclipse中開發MapReduce程式系統採用vm下ubuntu16.04 一、eclipse安裝(參考我的其它部落格) 二、eclipse配置 1、下載hadoop-eclipse-plugin-2.7.3.jar外掛，並將其拖到虛擬機器桌面 2、將其移動到/u

在Eclipse中開發MapReduce程序

新建 x86_64 code arch hub image 參數 finish hdf 　　一、Eclipse的安裝與設置　　1.在Eclipse官網上下載eclipse-jee-oxygen-3a-linux-gtk-x86_64.tar.gz文件並將其拷貝到/home

Eclipse中執行MapReduce程式控制臺無除錯資訊-log4j

在Eclipse中執行MapReduce程式，引數設定都正確的情況下，執行時控制檯的輸出為： log4j:WARN No appenders could be found for logger (or

開發人員學Linux(3)：CentOS7中安裝JDK8和Tomcat8

java tomcat jdk service centos 題外話：直到今天開始寫本系列的第三篇時本人才想好為這個系列取一個名字，本系列不是為Linux運維人員準備的，而是主要為開發人員準備的，包括但不限於：希望了解Linux的開發人員；需要在Linux上部署一些組件的開發人員，如Mem

軟件工程課後作業3：如何返回一個整數數組中最大子數組的和

10個如何 nbsp ima stdio.h scan can getchar() char 4 代碼語言： #include <stdio.h> int main(){ int a[10]; int b[5]; int i,j,t; printf("請輸入1

並行作業2：Ubuntu(16.04)下安裝配置hadoop(2.7.3)

Ubuntu(16.04)下安裝配置hadoop(2.7.3) 系統採用vm下ubuntu16.04 一、Java環境搭建(參考我的其它部落格) 二、安裝ssh-server並實現免密碼登入 1、下載安裝ssh-server sudo apt-get install op

工具學習：Eclipse等開發工具中的層疊顯示

工具學習：Eclipse等開發工具中的層疊顯示一、包的層疊顯示與統一顯示步驟：小三角---> package presentation----->flat（統一），hierarchical（層疊）一、父子專案的層

Eclipse中搭建MapReduce開發環境

一、安裝Eclipse1、下載-官方網址2、解壓 tar -zxvf eclipse-committers-oxygen-3a-linux-gtk-x86_64.tar.gz3、啟動（建立桌面快捷方式）我們可以直接啟動，進入eclipse解壓目錄使用

Android開發： Eclipse中匯入專案前有紅叉提示但是專案檔案內容無錯誤的解決方法

Eclipse中，Android專案名稱前有紅叉，但專案內所有檔案都無錯誤，通常發生在匯入專案時。先可以去看一下幾個視窗的輸出內容，不同的錯誤日誌要採用不同的方法，要靈活使用各種方法！ 1>選單路徑----Window/Show View/Console 2

Openfire3.9.3原始碼匯入eclipse中開發配置指南

這篇文章向大家介紹一下，如何把openfire3.9.3原始碼匯入eclipse中，編譯並啟動的詳細過程。首先得感謝這篇文章的作者，http://www.micmiu.co

附件3：eclipse memory analyze使用教程

jvm 深入理解java虛擬機 http://jingyan.baidu.com/article/ce09321b620a3d2bff858ff5.html簡單使用：分析三步曲：通常我們都會采用下面的“三步曲”來分析內存泄露問題：首先，對問題發生時刻的系統內存狀態獲取一個整體印象。第二步，找到最有可能

課後作業3：使用遞歸方法判斷某個字串是否是回文

put 設計思想 ring () static rgs png [] 輸出【程序設計思想】要判斷一串字符串，首先將前面和後面的每個字符表示出來，然後判斷，如果還沒有到最中間那兩個字符，就一直調用函數來判斷，最後將結果輸出。【程序流程圖】【源程

軟工作業3：用戶體驗分析——以“南通大學教務管理系統微信公眾號”為例

結果我們體驗截圖客戶基於快捷要求用戶一、目標基於實例分析，體會用戶體驗設計的 7 條準則。二、要求 1.基於 7 條UX評價準則，分析“南通大學教務管理系統微信公眾號” 在用戶體驗設計方面滿意的地方並陳述理由。 2.同樣

負責撰寫實踐作業3：白盒測試---細化明確任務DAY5

提交 gpo 管理 image 人員 table 利用 nbsp images 收到老師給我寫的評論，感覺老師真的太認真，每個博客都有仔細的，參考了老師發給我的博客，我才明白老師想要的博客內容原來是具體實際的進展記錄。我們組其實這些東西早就確定了，會議也開了，但是我之前不明

實踐作業3：白盒測試----學習Junit框架DAY10.

測試套件應用程序可重復 lips ant 速度 div 一個基線 JUnit - 測試框架首先應該了解什麽是 Junit 測試框架？ JUnit 是一個回歸測試框架，被開發者用於實施對應用程序的單元測試，加快程序編制速度，同時提高編碼的質量。JUnit 測試框架能夠

實踐作業3：白盒測試實踐（小組作業）記錄3

自己 logs 軟件學院 idt str strong span mil tro 會議時間：2017.12.21 會議地點：軟件學院北樓507 參會人員：魯慧敏、寧莉莎、張江、王瑞、李佳明會議目的：將大家討論後回去自己完成版塊的單元測試和缺陷報告，靜態代碼評估遇到的問題拿

20165337嶽源預備作業3：Linux安裝及命令入門

ace pac 入行文件名 class bzip virtual 令行了解安裝虛擬機按照基於VirtualBox虛擬機安裝Ubuntu圖文教程的步驟安裝虛擬機，遇到的問題通過同學的幫助也得到了解決。例如：虛擬機無法選擇64位系統。常用的Linux命令 Tab 補全

軟工作業3：詞頻統計

tex split() 數據復雜 all p s pro ioe 創建一、案例程序分析 1.1、編譯環境 pycharm2017、python3.6 1.2、讀文件到緩沖區（process_file(dst)） 1 de

軟工作業 3：個人編程

align 作業輸出 ima bsp 打開文件 reverse text pro 一、程序分析 def process_file(dst): # 讀文件到緩沖區 try: # 打開文件 f=open(dst,‘r‘) except

軟工作業 3：個人編程練習

call pre tps items ati put 程序及其排序一、程序分析 1、讀文件到緩沖區 def process_file(dst): # 讀文件到緩沖區 try: # 打開文件 doc=open(dst, ‘r‘)

並行作業3：在eclipse中開發MapReduce程式

在eclipse中開發MapReduce程式

系統採用vm下ubuntu16.04

一、eclipse安裝(參考我的其它部落格)

二、eclipse配置

1、下載hadoop-eclipse-plugin-2.7.3.jar外掛，並將其拖到虛擬機器桌面

2、將其移動到/usr/local/java/ide/eclipse/plugins目錄下

3、重啟eclipse

4、切換檢視，點選右上角小象

5、點選右下帶加號小象

6、點選配置檔案進行配置

7、左側專案欄

8、命令列輸入，離開安全模式，以便在eclipse內可以直接懟hdfs目錄下檔案進行操作。

9、新建上傳程式碼相關檔案

三、MapReduce程式

1、例項描述

(1)file1.txt:

(2)file2.txt:

(3)file3.txt:

期望輸出

2、設計思路

3、程式程式碼

4、結果

相關推薦