HDFS API之編寫詞頻統計框架

阿新 • • 發佈：2021-07-05

package com.imooc.bigdata.hadoop.hdfs;

/*
 * 使用HDFS API完成WordCount統計
 *
 * 需求：統計HDFS上的檔案的詞頻統計，然後將統計結果輸出到HDFS
 *
 * 功能拆解：
 * 1） 讀取HDFS上的檔案 ==》 HDFS API
 * 2） 業務處理（詞頻統計）：對檔案中的每一行資料都要進行業務處理（按照分隔符分割） ==》 Mapper（抽象類/介面）
 * 3） 將處理結果快取起來 ==》 Context（抽象類/介面）
 * 4） 將結果輸出到HDFS ==》 HDFS API
 *
 */

import org.apache.hadoop.conf.Configuration;
 
import org.apache.hadoop.fs.*;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;

public class HDFSWordCountApp01 {

    public static void main(String[] args) throws Exception{

        // 1） 讀取HDFS上的檔案 ==》 HDFS API 

        Path input = new Path("/hdfsApi/test/hello.txt");

        // 獲取要操作的HDFS檔案系統
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.126.101:8020"), new Configuration(), "hadoop");
        //將內容讀取出來，此處不使用遞迴
        RemoteIterator<LocatedFileStatus> iterator = fs.listFiles(input,false);
         
//迭代開始：
        while (iterator.hasNext()){
            LocatedFileStatus file = iterator.next();
            FSDataInputStream in = fs.open(file.getPath());
            BufferedReader reader = new BufferedReader(new InputStreamReader(in));

            String line = "";
            while ((line = reader.readLine())!= null){
                //TODO... 2) 詞頻處理
            }
            reader.close();
            in.close();

        }

        //TODO... 3) 將結果快取起來 Map
        Map<Object, Object> contextMap = new HashMap<Object, Object>();

        // 4) 將結果輸出到HDFS ==》 HDFS API
        Path output = new Path("/hdfsApi/output/");

        FSDataOutputStream out = fs.create(new Path(output, new Path("WCOut")));


        //TODO... 將第三步快取中的內容輸出到out中去
        Set<Map.Entry<Object, Object>> entries = contextMap.entrySet();
        for (Map.Entry<Object, Object> entry : entries){
            out.write((entry.getKey().toString() + "\t" + entry.getValue() + "\n").getBytes());
        }

        out.close();
        fs.close();

        System.out.print("HDFS API統計詞頻執行成功");
    }
}

HDFS API之編寫詞頻統計框架

package com.imooc.bigdata.hadoop.hdfs; /* * 使用HDFS API完成WordCount統計 * * 需求：統計HDFS上的檔案的詞頻統計，然後將統計結果輸出到HDFS

Restframework從入門到精通(六)：Restframework之編寫API檔案

概要檔案 Restframework有一個顯示概要檔案的功能，根據檔案顯示根據檔案的說明，我就直接修改路由了

leetcode--shell練習之詞頻統計

技術標籤：Shellshellleetcodelinuxawk 題目寫一個 bash 指令碼以統計一個文字檔案 words.txt 中每個單詞出現的頻率。

MapReduce之詞頻統計本地執行

1、上述的MapReduce之Mapper、Reducer、Driver三步實現，是基於輸入和輸出都是HDFS的

Hadoop 用Java編寫MapReduce詞頻統計程式並提交到Hadoop叢集執行

一、MapReduce介紹 MapReduce是一個分散式計算框架，可以部署在Hadoop、Spark等大資料平臺上，實現海量資料的平行計算。它採用“分而治之”的思想，將一個計算任務交給叢集中的多臺機器共同完成，之後再彙總成最終結

使用API Blueprint編寫介面檔案

概述本文主要是博主自己優選的部落格收集，我就是按照這些部落格進行安裝的，最後使用成功。

Python呼叫Windows API函式編寫錄音機和音樂播放器

功能描述： 1）使用tkinter設計程式介面； 2）呼叫Windows API函式實現錄音機和音樂播放器。

Python英文文章詞頻統計(14份劍橋真題詞頻統計)

Python劍橋真題詞頻統計最好還是要學以致用，自主蒐集了19年最近的14份劍橋真題之後，通過Python提供的jieba第三方庫，對所有的文章資訊進行了詞頻統計，並選擇性地剔除了部分簡易詞彙，比如數字，普通冠詞等，博主

pytest中文文件之編寫斷言

編寫斷言使用assert編寫斷言 pytest允許你使用python標準的assert表示式寫斷言；例如，你可以這樣做：

UE4連線MySQL資料庫外掛開發之編寫增加記錄程式碼

本篇我們首先講上篇中各個部分程式碼的作用，然後接著在SqlBlueprintFunctionLibrary類中新增向資料庫存入資料的程式碼，並且介紹如何添加註釋，暴露給藍圖。

C語言實現英文文字詞頻統計

這幾天寫了一個基於C語言對文字詞頻進行統計的程式，開發及除錯環境：mac整合開發環境Xcode；測試文字，馬丁.路德金的《I have a dream》原文演講稿。

python開發例項之Python的Twisted框架中Deferred物件的詳細用法與例項

Deferred物件在Twsited框架中用於處理回撥,這對於依靠非同步的Twisted來說十分重要,接下來我們就以例項解析Python的Twisted框架中Deferred物件的用法

淺談Vue3.0新版API之composition-api入坑指南

關於VUE3.0 由於vue3.0語法跟vue2.x的語法幾乎是完全相容的，本文主要介紹瞭如何使用composition-api，主要分以下幾個方面來講

Vue3.0新版API之composition-api入坑指南

關於VUE3.0 由於vue3.0語法跟vue2.x的語法幾乎是完全相容的，本文主要介紹瞭如何使用composition-api，主要分以下幾個方面來講

Detectron2 API 之 config | 十五

作者|facebookresearch 編譯|Flin 來源|Github detectron2.config package class detectron2.config.CfgNode(init_dict=None,key_list=None,new_allowed=False)

JavaScript—web API之DOM

API 官方：API（Application Programming Interface，應用程式介面）是一些預先定義的函式，或指軟體系統不同組成部分銜接的約定。目的是提供應用程式與開發人員基於某軟體或硬體得以訪問一組例程的能力，而又無需訪

小程式開發API之獲取系統資訊wx.getSystemInfo()、wx.getSystemInfoSync()

wx.getSystemInfo(）獲取系統資訊函式引數：返回值：例如：寫法一index.js 1 /* 2brand裝置品牌

2020/7/10 JAVA常用Api之String類和字串緩衝區、正則表示式

一、String類　　1、String類的概述：　　　　　　查閱API中的String類的描述，發現String 類代表字串。Java 程式中的所有字串字面值（如 \"abc\" ）都作為此類的例項實現。　　　　　　

2020/7/13 常用API之基本型別包裝類、System類、Math類、Arrays類、大資料運算

一、基本型別包裝類　　　　1、概述：基本資料型別物件包裝類：java將基本資料型別值封裝成了物件。

常用元素操作api之等待時間標操作（三）

#使元素高亮def highlight_element(driver, element):driver.execute_script(\"arguments[0].setAttribute(\'style\',arguments[1]);\",element,\"background:green ;border:2px solid red;\")

HDFS API之編寫詞頻統計框架

相關推薦