HDFS 手寫mapreduce單詞計數框架

阿新 • • 發佈：2018-11-10

一、資料處理類

package com.css.hdfs;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.HashMap;
import java.util.Map.Entry;
import java.util.Properties;
import java.util.Set;

import org.apache.hadoop.conf.Configuration;
 
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;

/**
 * 需求：檔案(hello world hello teacher hello john tom ) 統計每個單詞出現的次數？
 * 資料儲存在hdfs、統計出來的結果儲存到hdfs
 * 
 * 2004google:dfs/bigtable/mapreduce
 *
 * 大資料解決的問題？
 *  1.海量資料的儲存
 *         hdfs
 *  2.海量資料的計算
 *      mapreduce
 *  
 *  思路？
 *    hello 2
 *    world 1
 *    hello 1
 *    ...
 *    
 *  基於使用者體驗：
 *   使用者輸入資料
 *   使用者處理的方式
 *   使用者指定結果資料儲存位置
  
*/
public class HdfsWordCount {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InstantiationException, IllegalAccessException, InterruptedException, URISyntaxException {
        // 反射
        Properties pro = new Properties();
        // 載入配置檔案
        pro.load(HdfsWordCount.class 
.getClassLoader().getResourceAsStream("job.properties"));
        Path inPath = new Path(pro.getProperty("IN_PATH"));
        Path outPath = new Path(pro.getProperty("OUT_PATH"));
        Class<?> mapper_class = Class.forName(pro.getProperty("MAPPER_CLASS"));
        // 例項化
        Mapper mapper = (Mapper) mapper_class.newInstance();
        Context context = new Context();
        // 構建hdfs客戶端物件
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.146.132:9000/"), conf, "root");
        // 讀取使用者輸入的檔案
        RemoteIterator<LocatedFileStatus> iter = fs.listFiles(inPath, false);
        while (iter.hasNext()) {
            LocatedFileStatus file = iter.next();
            // 開啟路徑 獲取輸入流
            FSDataInputStream in = fs.open(file.getPath());
            BufferedReader br = new BufferedReader(new InputStreamReader(in, "utf-8"));
            String line = null;
            while ((line = br.readLine()) != null) {
                // 呼叫map方法執行業務邏輯
                mapper.map(line, context);
            }
            // 關閉資源
            br.close();
            in.close();
        }
        
        // 如果使用者輸入的結果路徑不存在 則建立一個
        Path out = new Path("/wc/out/");
        if (!fs.exists(out)) {
            fs.mkdirs(out);
        }
        
        // 將快取的結果放入hdfs中儲存
        HashMap<Object, Object> contextMap = context.getContextMap();
        FSDataOutputStream out1 = fs.create(outPath);
        
        // 遍歷hashmap
        Set<Entry<Object, Object>> entrySet = contextMap.entrySet();
        for (Entry<Object, Object> entry : entrySet) {
            // 寫資料
            out1.write((entry.getKey().toString() + "\t" + entry.getValue() + "\n").getBytes());
        }
        // 關閉資源
        out1.close();
        fs.close();
        
        System.out.println("資料統計結果完成......");
    }
}

二、介面類

package com.css.hdfs;

/**
 * 思路：
 * 介面設計
 */
public interface Mapper {
    // 呼叫方法
    public void map(String line, Context context);
}

三、資料傳輸類

package com.css.hdfs;

import java.util.HashMap;

/**
 * 思路：
 * 資料傳輸的類
 * 封裝資料
 * 集合
 * <單詞,1>
 */
public class Context {
    // 資料封裝
    private HashMap<Object, Object> contextMap = new HashMap<>();
    
    // 寫資料
    public void write(Object key, Object value){
        // 放資料到map中
        contextMap.put(key, value);
    }
    
    // 定義根據key拿到值方法
    public Object get(Object key){
        return contextMap.get(key);
    }
    
    // 拿到map中的資料內容
    public HashMap<Object, Object> getContextMap(){
        return contextMap;
    }
}

四、單詞計數類

package com.css.hdfs;

/**
 * 思路：
 * 新增一個map方法 單詞切分 相同key的value ++
 */
public class WordCountMapper implements Mapper{

    @Override
    public void map(String line, Context context) {
        // 拿到這行資料 切分
        String[] words = line.split(" ");
        // 拿到單詞 相同的key value++  hello 1 world 1
        for (String word : words) {
            Object value = context.get(word);
            if (null == value) {
                context.write(word, 1);
            }else {
                // 不為空
                int v = (int)value;
                context.write(word, v+1);
            }
        }
    }
}

五、配置檔案job.properties

IN_PATH=/wc/in
OUT_PATH=/wc/out/rs.txt
MAPPER_CLASS=com.css.hdfs.WordCountMapper

HDFS 手寫mapreduce單詞計數框架

一、資料處理類 package com.css.hdfs; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.URI; import

全命令行手寫MapReduce並且打包運行

mapreduce mapred 如何 main pac main方法方法以及命令主要要講的有3個 java中的package是幹啥的？ java中的package如何打包，以及運行其中的main方法？如何手寫MapReduce

純手寫SpringMVC到SpringBoot框架專案實戰

引言 Spring Boot其設計目的是用來簡化新Spring應用的初始搭建以及開發過程。該框架使用了特定的方式來進行配置，從而使開發人員不再需要定義樣板化的配置。通過這種方式，springboot是一個快速整合第三方框架的，簡化了xml的配置，專案中再也不包含web.xml檔案了

手寫簡單的spring框架(註解版)

第一步新建兩個註解類如下 Component.java package annotation; import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.

記錄手寫一次ssm框架遇到的一些坑之注入失敗

由於沒有實現單例或者說再contrllerMap和iocMap中實現同一個類兩個物件，導致僅僅注入其中一個物件的坑簡介檔案目錄結構出現的問題簡介最近一直在嘗試實現一個自己的ssm框架，前斷時間已經分別實現了mvc 和

從 0 開始手寫一個 Spring MVC 框架，向高手進階

Spring框架對於Java後端程式設計師來說再熟悉不過了，以前只知道它用的反射實現的，但瞭解之後才知道有很多巧妙的設計在裡面。如果不看Spring的原始碼，你將會失去一次和大師學習的機會：它的程式碼規範，設計思想很值得學習。我們程式設計師大部分人都是野路子，不懂什麼

手寫Fragment萬能通訊框架

android自3.0之後引入fragment之後，在開發專案的應用中，非常廣泛，尤其是大專案。fragment相對activity，最大的好處就是輕，可以減少效能消耗，可擴充套件性也大大的增強。然後，它畢竟是依附於activity，那麼，就不得不於activity互相通訊。

Hadoop分佈環境搭建步驟,及自帶MapReduce單詞計數程式實現

參考騰訊雲實驗室 Hadoop分佈環境搭建步驟： 1.軟硬體環境 CentOS 7.2 64 位 JDK- 1.8 Hadoo p- 2.7.4 2.安裝SSH sudo yum install openssh-clients openssh-ser

手寫Spring事務註解框架【視訊教程】

課程大綱：第一節(原始碼分析課程概述)第二節(AOP技術概述)第三節(AOP技術原理)第四節(靜態代理設計模式) 擊開啟連結第五節(動態代理設計模式)第六節(使用SpringAOP技術面向切面程式設計)

手寫精簡版spring 框架後對ioc的體會

spring是如何初始化的？如何處理請求？以前對於spring 都是停留在會用的層面，閒下來參照資料寫了一個精簡版的spring 理解了一下其中的具體內容。總結如下：（自己看著總結的，如果哪裡不對請大家指出） spring初始化 1. 拿到spring配置

手寫spring+springmvc+mybatis框架篇——Mybatis

整合Mybatis是本專案中的一個難點。實現功能：1 動態繫結使用者輸入引數2 Mybatis的resultType動態繫結返回實體類。3 在spring中的介面注入4 xml版本的mapper注入。關於Mybatis的優秀文章給大家推薦兩個1 手寫簡化版mybatis

Volley手寫屬於自己的萬能網絡訪問框架

info 鏈表實現 fas getname 字符串轉換成對象 gets 等等 stc exe 用戶在調用層（Activity或Service中），發起一個網絡請求，該請求肯定包含url，請求參數（requestParameter），以及我們需要給調用層提供一個請求成功或失敗

MNIST手寫數字圖片識別（線性回歸、CNN方法的手工及框架實現）（未完待續）

shape 初始化 result rect not found pro res edi ise 0-Background 作為Deep Learning中的Hello World 項目無論如何都要做一遍的。代碼地址：Github 練習過程中將持續更新blog及代碼。第一

轉載：手寫SpringMVC框架

javaee 作用小寫繼承 inf group css finally 減少帶你手寫一個SpringMVC框架(有助於理解springMVC) 鏈接：https://my.oschina.net/liughDevelop 作者：我叫劉半仙 Spring

參考KOA，5步手寫一款粗糙的web框架

return type ejs wait 報錯 export bbb clas 普通我經常在網上看到類似於KOA VS express的文章，大家都在討論哪一個好，哪一個更好。作為小白，我真心看不出他兩who更勝一籌。我只知道，我只會跟著官方文檔的start做一個DEMO

Spring Boot2.0之純手寫框架

框架部分重點在於實現原理，懂原理！廢話不多說，動手幹起來！ SpringMVC程式入口？沒有配置檔案，Spring 容器是如何載入？回顧我們之前搭建Spring Boot專案使用的pom 引入的依賴需要parent，其作用是支援依賴快速整合框架不需要寫版本號還有就是web元件，自動引入s

手寫框架首誤

框架的目的首先我們為什麼需要一個框架呢？相對於知識一個普通的庫呢?框架的目的是定義一個讓開發者實現真正的基於工業需求的方法的過程，換句話說，框架定義骨架，當需要用這個框架的時候開發者填充肉體，最簡單的框架DEMO 看下面的示例，前面定義的3個類作為框架的一部分，第四個類是框

看年薪50W的架構師如何手寫一個SpringMVC框架（文末附視訊）

前言做 Java Web 開發的你，一定聽說過SpringMVC的大名，作為現在運用最廣泛的Java框架，它到目前為止依然保持著強大的活力和廣泛的使用者群。本文介紹如何用eclipse一步一步搭建SpringMVC的最小系統，所謂最小系統，就是足以使專案在SpringMVC框架下成功

手寫SpringIOC容器框架

1.使用xml方式注入物件匯入依賴：  <dependency> <groupId>dom4j</groupId> &l

Hadoop之手寫原生態MapReduce的排序

測試資料： 2030 59 1976 68 2030 19 1997 5 年與溫度的文字，資料可以用java程式碼生成。生成10000條資料程式碼： public void makeData() throws IOException { Fil

HDFS 手寫mapreduce單詞計數框架

相關推薦