學習筆記:從0開始學習大資料-4.Eclipse配置hadoop開發環境

阿新 • • 發佈：2018-12-05

Eclipse配置hadoop開發環境

1. 下載 hadoop-eclipse-plugin-2.6.0.jar

https://github.com/winghc/hadoop2x-eclipse-plugin/tree/v2.6.0

2. 複製下載的 hadoop-eclipse-plugin-2.6.0.jar檔案到 eclipse的plugins目錄

3.重啟eclipse

點選新建-》專案，可以看見Map/Reduce Project

4. 建立Map/Reduce Project專案測試

新建一個 wordcount專案，再新建一個WorkCount類，直接複製hadoop安裝帶的example的workcount原始碼

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {
	  public static class TokenizerMapper 
      extends Mapper<Object, Text, Text, IntWritable>{
   
   private final static IntWritable one = new IntWritable(1);
   private Text word = new Text();
     
   public void map(Object key, Text value, Context context
                   ) throws IOException, InterruptedException {
     StringTokenizer itr = new StringTokenizer(value.toString());
     while (itr.hasMoreTokens()) {
       word.set(itr.nextToken());
       context.write(word, one);
     }
   }
 }
 
 public static class IntSumReducer 
      extends Reducer<Text,IntWritable,Text,IntWritable> {
   private IntWritable result = new IntWritable();

   public void reduce(Text key, Iterable<IntWritable> values, 
                      Context context
                      ) throws IOException, InterruptedException {
     int sum = 0;
     for (IntWritable val : values) {
       sum += val.get();
     }
     result.set(sum);
     context.write(key, result);
   }
 }

 public static void main(String[] args) throws Exception {
   Configuration conf = new Configuration();
   String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
   if (otherArgs.length < 2) {
     System.err.println("Usage: wordcount <in> [<in>...] <out>");
     System.exit(2);
    }
   Job job = Job.getInstance(conf, "word count");
   job.setJarByClass(WordCount.class);
   job.setMapperClass(TokenizerMapper.class);
   job.setCombinerClass(IntSumReducer.class);
   job.setReducerClass(IntSumReducer.class);
   job.setOutputKeyClass(Text.class);
   job.setOutputValueClass(IntWritable.class);
   for (int i = 0; i < otherArgs.length - 1; ++i) {
     FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
   }
   FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
   System.exit(job.waitForCompletion(true) ? 0 : 1);
 }
}

5. 匯出jar檔案

直接點選“檔案-》匯出”

匯出WordCount.jar

6.執行測試

hadoop fs -put hello.txt /user/root //上傳測試需統計單詞的檔案

hadoop jar WordCount.jar WordCount /user/root/hello.txt /user/root/wcout //執行測試單詞統計作業

hadoop fs -ls /user/root/wcount //檢視輸出結果目錄

hadoop fs -text /user/root/wcount/part* // 檢視統計果

也可以通過 http://centos7:8088/cluster/apps 檢視作業排程執行資訊

接下來可以參考wordcount設計自己的統計作業程式

學習筆記:從0開始學習大資料-4.Eclipse配置hadoop開發環境

Eclipse配置hadoop開發環境 1. 下載 hadoop-eclipse-plugin-2.6.0.jar https://github.com/winghc/hadoop2x-eclipse-plugin/tree/v2.6.0 2. 複

學習筆記:從0開始學習大資料-20. 機器學習spark ml演算法庫應用練習

作為大資料初學者，機器學習演算法的運用，只是hello world知道個123，以後專案需要再深入 Mahout，spark MLlib,spark ML三個演算法庫，根據網上了解比較，採用spark ml演算法庫作為學習物件。本次學習只是除錯能執行網上的例子程式碼案例網址： h

學習筆記:從0開始學習大資料-19. storm開發及執行環境部署

一.eclipse strom開發環境 1. eclipse waven開發環境支援storm java程式開發很簡單，只要pom.xml 加入依賴即可 <dependency> <groupId>org.apache.storm</

學習筆記:從0開始學習大資料-18.kettle安裝使用

Kettle是一款國外開源的ETL工具，純java編寫，可以在Windows、Linux、Unix上執行，資料抽取高效穩定。 Kettle 中文名稱叫水壺，該專案的主程式設計師MATT 希望把各種資料放到一個壺裡，然後以一種指定的格式流出。 Kettle這個ETL工具集，它允許你管理來自不同資料庫的

學習筆記:從0開始學習大資料-17.Redis安裝及使用

Redis 是一個高效能的key-value資料庫。 redis的出現，很大程度補償了memcached這類key/value儲存的不足，在部分場合可以對關係資料庫起到很好的補充作用。 1. 下載 wget http://download.redis.io/releases/redis-5

學習筆記:從0開始學習大資料-16. kafka安裝及使用

kafka是訊息處理服務的開源軟體，高效高可用。可以作為大資料收集的工具或資料的管道。 1. 下載 http://kafka.apache.org/downloads 根據scala版本，我下載的是Scala 2.12 - kafka_2.12-2.1.0.tgz (as

學習筆記:從0開始學習大資料-15. Flume安裝及使用

上節測試了spark 程式設計，spark sql ，spark streaming 等都測試可用了，接下來是資料來源的收集，Flume的安裝使用，其實很簡單，但作為完整，也寫個記錄筆記 1.下載 wget http://archive.cloudera.com/cd

學習筆記:從0開始學習大資料-14. java spark程式設計實踐

上節搭建好了eclipse spark程式設計環境在測試執行scala 或java 編寫spark程式，在eclipse平臺都可以執行，但打包匯出jar，提交 spark-submit執行，都不能執行，最後確定是版本問題，就是你在eclipse除錯的spark版本需和spark-submit

學習筆記:從0開始學習大資料-13. Eclipse+Scala+Maven Spark開發環境配置

上節配置好了spark執行環境，可以通過 spark-shell 在scala語言介面互動執行spark命令可以參照（ https://blog.csdn.net/u010285974/article/details/81840413 Spark-shell執行計算）

學習筆記:從0開始學習大資料-12. spark安裝部署

為了教學方便，考慮ALL IN ONE，一臺虛擬機器構建整個實訓環境，因此是偽分散式搭建spark 環境：　　hadoop2.6.0-cdh5.15.1 　　jdk1.8 　　centos7 64位 1. 安裝scala環境版本是scala-2.12.7，官網下載

學習筆記:從0開始學習大資料-11. sqoop安裝部署

環境：centos7 已安裝java和hadoop 1.下載 wget http://archive.cloudera.com/cdh5/cdh/5/sqoop2-1.99.5-cdh5.16.0.tar.gz 2.解壓 tar -zxvf sqoop2-1.99.5-cdh5.16.0.t

學習筆記:從0開始學習大資料-10. hive安裝部署

1. 下載 wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.15.1.tar.gz 2.解壓 tar -zxvf hive-1.1.0-cdh5.15.1.tar.gz 3. hive的元資料（如表名，列

學習筆記:從0開始學習大資料-9. MapReduce讀並寫Hbase資料

上節的MapReduce計算WordCount例子是從hdfs讀輸入檔案，計算結果也寫入hdfs MapReduce分散式計算的輸入輸出可以根據需要從hdfs或hbase讀取或寫入，如 A.讀hdfs-->寫hdfs B.讀hdfs-->寫hbase C.讀hbase--

學習筆記:從0開始學習大資料-8.直接在Eclipse配置執行MapReduce程式

前面開發hadoop程式是打包成jar，然後在命令列執行 hadoop jar XXX.jar XXXX 的方式提交作業，現在記錄直接在Eclipse IDE執行MapReduce作業的方法，還是用經典的WordCount程式。 1.配置Eclipse 的hdfs環境

學習筆記:從0開始學習大資料-7.hbase java程式設計hello world

上節搭建了hbase啟動環境，本節搭建hbase程式設計環境 1. 準備測試資料，建立表student #hbase shell create 'student','info','address' put 'student','1','info:age','20' put 'studen

學習筆記:從0開始學習大資料-6.hbase安裝

環境:centos7 jdk1.8.0 hadoop2.6.0已安裝好了，單機偽分散式 1.下載hbase安裝檔案 wget http://archive-primary.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.16.0.tar.gz

學習筆記:從0開始學習大資料-5.hadoop hdfs檔案讀寫api操作

學習測試，網上下的程式碼，測試通過，助於理解讀寫程式流程 package com.linbin.testmaven; import java.net.URI; import java.text.SimpleDateFormat; import java.util.Date; import or

學習筆記:從0開始學習大資料-3.Eclipse安裝

一直使用Visual Studio 開發.net程式，大資料需要使用java 在linux環境，需要使用Eclipse ide環境，安裝過程如下 1.下載 http://download.eclipse.org/eclipse/downloads/

學習筆記:從0開始學習大資料-2.hadoop安裝

在膝上型電腦安裝學習環境，採用all in one的偽分散式，所有都在一臺電腦部署。 1.下載 hadoop wget http://archive-primary.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.16.0.tar.gz 2. 解壓&n

學習筆記:從0開始學習大資料-1.centos7安裝

其實開始學習有些時間了，但因為中途轉搞雲端計算openstak和中央認證系統cas，這兩個都投入實用後，才有了時間又拿起大資料的學習，為了完整有個學習記錄，方便自己和網友，就從頭開始寫筆記吧。因為一直都用ubuntu，現在看的幾本大資料的書都是centos平臺環境實驗的，那就用centos吧，

學習筆記:從0開始學習大資料-4.Eclipse配置hadoop開發環境

相關推薦