hadoop2.7.0實踐- WordCount

阿新 • • 發佈：2017-08-04

path static nts sdn 步驟 popu cer token apache

環境要求
說明：本文檔為wordcount的mapreduce job編寫及執行文檔。

操作系統：Ubuntu14 x64位
Hadoop：Hadoop 2.7.0
Hadoop官網：http://hadoop.apache.org/releases.html
MapReduce參照官網步驟：
http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Source_Code

本章基於前一篇文章《hadoop2.7.0實踐-環境搭建》。

1.安裝Eclipse
1)下載eclipse
官網：http://www.eclipse.org/
技術分享
2)解壓eclipse包

$tar -xvf eclipse-jee-mars-R-linux-gtk-x86_64.tar.gz

3)啟動eclipse
4)寫測試程序

public class TestMore {

    public static void main(String[] args) {
        System.out.println("hello world!");
        System.out.println("I‘m so glad to see that" 
);
    }
}

2.編寫wordcount
1)jar包引入
eclipse的lib中引入的jar包
hadoop包下的share/hadoop下的各個文件夾都有jar包
hadoop-2.7.0/share/hadoop/common/hadoop-common-2.7.0.jar
hadoop-2.7.0/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.7.0.jar

2)編寫worcount程序
相應源代碼

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache 
.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

  public static class TokenizerMapper
       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    }
  }

  public static class IntSumReducer
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
  }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

3)導出jar包
取名wc.jar，直接導出到hadoop文件夾下。

技術分享
3.執行wordcount
1)啟動dfs服務
參照文件《hadoop2.7.0實踐-環境搭建》。
進入hadoop文件夾，用cd命令。

$sbin/start-dfs.sh

相應查看網頁：http://localhost:50070/
2)準備文件
hadoop-2.7.0/wctest/input文件夾中放入待統計文件file01
輸入內容：hello world bye world

//創建hdfs文件夾。操作命令相似本地操作

$ bin/hdfs fs -mkdir /user
$ bin/hdfs fs -mkdir /user/a

//復制本地文件到hdfs中

$ bin/hdfs fs -put wctest/input /user/a/input

//備註：相應文件夾刪除命令例如以下

delete dir：bin/hadoop fs -rm -f -r /user/a/input

相應文件http://localhost:50070/
3)啟動yarn服務

$ sbin/start-yarn.sh

4)執行wordcount程序

$ bin/hadoop jar wc.jar WordCount /user/a/input /user/a/output

5)查看結果

$ bin/hadoop fs -cat /user/a/output/part-r-00000
bye 1
hello   1
world   2

常見錯誤及說明
1)未啟動yarn時執行MapReduce程序
技術分享
原因：已經配置了yarn,但沒有啟動引起的
調整：啟動一下yarn

$ sbin/start-yarn.sh

hadoop2.7.0實踐- WordCount

path static nts sdn 步驟 popu cer token apache 環境要求說明：本文檔為wordcount的mapreduce job編寫及執行文檔。操作系統：Ubuntu14 x64位 Hadoop：Hadoop 2.

Hadoop2.7.0叢集的NameNode在HA下如何切換active和standby狀態

1、筆者所在公司的開發環境搭建了一個hadoop叢集，為保證HDFS的高可用，配置了NameNode的HA模式， 10.17.2.134 為active ，10.17.2.121為standby 2、筆者平時訓練寫的很多mapreduce

CentOS7.0安裝配置hadoop2.7.0 資源準備資源下載： hadoop-2.7.0.tar.gz 密碼：727y jdk-8u45-linux-x64.tar.gz 密碼：d8bm

CentOS7.0安裝配置hadoop2.7.0 資源準備資源下載：注意事項：如果自己下載資源的話，注意hadoop,jdk,centos都應該是64位或者32位的，以免出現無法預料的錯誤，上面的資源都是64位的我是在mac下配置的，virtual box是ios x系統的，如果是其它系統的另

hadoop2.7.0-偽分佈5分鐘快速搭建

1關閉防火牆 (防止發生ui介面無法登陸) #關閉防火牆 service iptables stop #檢視防火牆開機啟動狀態 chkconfig iptables --list #關閉防火牆開機啟動 chkconfig iptables off2.安裝hadoop和jd

eclipse4.7.0+maven3.3.9+scala2.11.8+spark2.1.0+hadoop2.7.1在ubuntu16裡的wordcount例項

刪掉src/test下的junit內容 pom.xml參考如下進行修改（確認好使） <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XM

VirtualBox5.0.18+CentOS7.2+Hadoop2.7.2配置與開發（2）用YARN完成WordCount作業

執行WordCount作業步驟：進入hadoop目錄，刪除input目錄和output目錄（如果有）；啟動hdfs系統，ResourceManager和NodeManager。 $cd /usr/hadoop-2.7.2 $sbin/start-dfs.sh $s

【原創 Spark動手實踐 1】Hadoop2.7.3安裝部署實際動手

dmi 遠程 nag proc host 一個 error img 連接目錄：第一部分：操作系統準備工作：　　1. 安裝部署CentOS7.3 1611 　　2. CentOS7軟件安裝（net-tools, wget, vim等）　　3. 更新CentOS

【原創 Hadoop&Spark 動手實踐 3】Hadoop2.7.3 MapReduce理論與動手實踐

pack license 讀取 rgs 理論程序員開發 -s 接口 pri 開始聊MapReduce，MapReduce是Hadoop的計算框架，我學Hadoop是從Hive開始入手，再到hdfs，當我學習hdfs時候，就感覺到hdfs和mapreduce關系的緊密。這個

實踐補充 Installing Tomcat 7.0.x on OS X

ocp npr epc cgi security hssf xca 之前 epub 我的 Mac 下是1.6的 SDK，下載 Tomcat 8.0 執行後，訪問 http://127.0.0.1:8080 並無反應，並且關閉腳本會報錯：Unsupported major

Hadoop2.6.0版本號MapReudce演示樣例之WordCount（一）

set pat -m 代碼分享 ont extends gravity csdn 一、準備測試數據 1、在本地Linux系統/var/lib/hadoop-hdfs/file/路徑下準備兩個文件file1.txt和file2.tx

配置MapReduce插件時，彈窗報錯org/apache/hadoop/eclipse/preferences/MapReducePreferencePage : Unsupported major.minor version 51.0（Hadoop2.7.3集群部署）

ava 不一致 nbsp 1.0 log class dll blog 無效原因： hadoop-eclipse-plugin-2.7.3.jar 編譯的jdk版本和eclipse啟動使用的jdk版本不一致導致。解決方案一：修改myeclipse.ini文件

hadoop2.7.0實踐- WordCount

hadoop2.7.0實踐- WordCount

Hadoop2.7.0叢集的NameNode在HA下如何切換active和standby狀態

CentOS7.0安裝配置hadoop2.7.0 資源準備資源下載： hadoop-2.7.0.tar.gz 密碼：727y jdk-8u45-linux-x64.tar.gz 密碼：d8bm

hadoop2.7.0-偽分佈5分鐘快速搭建

eclipse4.7.0+maven3.3.9+scala2.11.8+spark2.1.0+hadoop2.7.1在ubuntu16裡的wordcount例項

VirtualBox5.0.18+CentOS7.2+Hadoop2.7.2配置與開發（2）用YARN完成WordCount作業

【原創 Spark動手實踐 1】Hadoop2.7.3安裝部署實際動手

【原創 Hadoop&Spark 動手實踐 3】Hadoop2.7.3 MapReduce理論與動手實踐

實踐補充 Installing Tomcat 7.0.x on OS X

Hadoop2.6.0版本號MapReudce演示樣例之WordCount（一）

配置MapReduce插件時，彈窗報錯org/apache/hadoop/eclipse/preferences/MapReducePreferencePage : Unsupported major.minor version 51.0（Hadoop2.7.3集群部署）

Hadoop2.7.2 HBase2.0.0環境搭建

spark-2.4.0-hadoop2.7-安裝部署

spark-2.4.0-hadoop2.7-高可用(HA)安裝部署

spark-2.4.0-hadoop2.7-簡單操作

CDH版hadoop2.6.0-cdh5.7.0原始碼編譯

hadoop2.7.5單機版安裝及wordCount執行

spark2.4 整合 hadoop2.6.0-cdh5.7.0 原始碼編譯

Ubuntu14.04-Hadoop2.7.1-jdk1.7.0安裝偽分散式

CentOS7+Hadoop2.7.2(HA高可用+Federation聯邦)+Hive1.2.1+Spark2.1.0 完全分散式叢集安裝

hadoop2.7.0實踐- WordCount

相關推薦