hadoop wordcount 詳解

阿新 • • 發佈：2019-01-29

mapreducehadoop中的分散式運算程式設計框架，只要按照其程式設計規範，只需要編寫少量的業務邏輯程式碼即可實現一個強大的海量資料併發處理程式

Demo開發——wordcount

1、需求

從大量（比如T級別）文字檔案中，統計出每一個單詞出現的總次數

2、mapreduce實現思路

Map階段：

a) 從HDFS的源資料檔案中逐行讀取資料

b) 將每一行資料切分出單詞

c) 為每一個單詞構造一個鍵值對(單詞，1)

d) 將鍵值對傳送給reduce

Reduce階段：

a) 接收map階段輸出的單詞鍵值對

b) 將相同單詞的鍵值對匯聚成一組

c) 對每一組，遍歷組中的所有“值”，累加求和，即得到每一個單詞的總次數

d) 將(單詞，總次數)輸出到HDFS的檔案中

1、具體編碼實現

(1)定義一個mapper類

//首先要定義四個泛型的型別

//keyin: LongWritable valuein: Text

//keyout: Text valueout:IntWritable

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

//map方法的生命週期：框架每傳一行資料就被呼叫一次

//key : 這一行的起始點在檔案中的偏移量

//value: 這一行的內容

@Override

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

//預設情況下，inputformat中的資料是逐行的處理，拿到一行資料轉換為string

String line = value.toString();

//將這一行切分出各個單詞

String[] words = line.split(" "); //按空格切分

//遍歷陣列，輸出<單詞，1>

for(String word:words){

context.write(new Text(word), new IntWritable(1));//這裡的輸出型別要與初始定義的一致

}

(2)定義一個reducer類

//生命週期：框架每傳遞進來一個kv 組，reduce方法被呼叫一次

public class WordCountMapper extends Mapper<Text, IntWritable, Text, IntWritable>｛

@Override

protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

//定義一個計數器

int count = 0;

//遍歷這一組kv的所有v，累加到count中

for(IntWritable value:values){ //value的值儲存在迭代器上

count += value.get();

}

context.write(key, new IntWritable(count));

}

(3)定義一個主類，用來描述job並提交job

public class WordCountRunner {

//把業務邏輯相關的資訊（哪個是mapper，哪個是reducer，要處理的資料在哪裡，輸出的結果放哪裡。。。。。。）描述成一個job物件

//把這個描述好的job提交給叢集去執行

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

Job wcjob = Job.getInstance(conf);

//指定我這個job所在的jar包

//wcjob.setJar("/home/hadoop/wordcount.jar");

wcjob.setJarByClass(WordCountRunner.class);

wcjob.setMapperClass(WordCountMapper.class);

wcjob.setReducerClass(WordCountReducer.class);

//設定我們的業務邏輯Mapper類的輸出key和value的資料型別

wcjob.setMapOutputKeyClass(Text.class);

wcjob.setMapOutputValueClass(IntWritable.class);

//設定我們的業務邏輯Reducer類的輸出key和value的資料型別

wcjob.setOutputKeyClass(Text.class);

wcjob.setOutputValueClass(IntWritable.class);

//指定要處理的資料所在的位置

FileInputFormat.setInputPaths(wcjob, "hdfs://hdp-server01:9000/wordcount/data/big.txt");

//指定處理完成之後的結果所儲存的位置

FileOutputFormat.setOutputPath(wcjob, new Path("hdfs://hdp-server01:9000/wordcount/output/"));

//向yarn叢集提交這個job

boolean res = wcjob.waitForCompletion(true);

System.exit(res?0:1);

}

1. 將程式打包：export 出jar包

2. 準備輸入資料

vi /home/hadoop/test.txt

Hello tom

Hello jim

Hello ketty

Hello world

Ketty tom

在hdfs上建立輸入資料資料夾：

hadoop fs mkdir -p /wordcount/input

將words.txt上傳到hdfs上

hadoop fs –put /home/hadoop/words.txt /wordcount/input

3. 將程式jar包上傳到叢集的任意一臺伺服器上

4. 使用命令啟動執行wordcount程式jar包

$ hadoop jar wordcount.jar cn.itcast.bigdata.mrsimple.WordCountDriver /wordcount/input /wordcount/out

注：目錄 /wordcount/out 必須是不存在的，否則執行時將會報the file have existed的錯誤

5. 檢視執行結果

$ hadoop fs –cat /wordcount/out/part-r-00000

hadoop wordcount 詳解

mapreducehadoop中的分散式運算程式設計框架，只要按照其程式設計規範，只需要編寫少量的業務邏輯程式碼即可實現一個強大的海量資料併發處理程式 Demo開發——wordcount 1、需求從大量（比如T級別）文字檔案中，統計出每一個單詞出現的總次數 2、map

Hadoop之WordCount詳解

ride 開始 zookeepe ati 程序 form 數組 -c 狀態花了好長時間查找資料理解、學習、總結這應該是一篇比較全面的MapReduce之WordCount文章了耐心看下去 1，創建本地文件在hadoop-2.6.0文件夾下創建一個文件夾data，在其

hadoop框架詳解

con 完成 shu ati 默認 logs 應用 sso 分布式存 Hadoop學習隨筆（參考：http://blog.csdn.net/mobanchengshuang/article/details/78786652） Hadoop項目主要包括以下四個模塊 ◆ Had

大數據hadoop入門之hadoop家族詳解

集成查詢工具人員進一步容錯基礎知識不同的 ima nbsp 大數據hadoop入門之hadoop家族詳解大數據這個詞也許幾年前你聽著還會覺得陌生，但我相信你現在聽到hadoop這個詞的時候你應該都會覺得“熟悉”！越來越發現身邊從事hadoop開發或者是正在學習

在windows10下搭建Storm並執行WordCount詳解（單機版）！

釋出時間：2018-04-10 來源：網路上傳者：使用者關鍵字: 單機版搭建詳解 WordCount windows10 執行 Storm 發表文章摘要：作為主流的大資料處理平臺,不同於批處理的Hadoop,Storm的實時計算以及拓撲結構有其獨有的優勢(當然,只是

HADOOP IO詳解——序列化（1）

什麼是IO? I:input 輸入通常做讀取操作（將不同資料來源的資料讀入到記憶體中，也叫讀取流） O:output 輸出通常做寫入操作（將記憶體中的資料寫入到不同的資料來源，也叫寫入流）（出記憶體到別的地方）序列化的作用是什麼？1 資料通訊 2 持久化儲存為什

HADOOP IO詳解——序列化（2）舉列

package com.hadoop.tv; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.Writ

hadoop家族學習路線圖之hadoop產品詳解

大資料這個詞也許幾年前你聽著還會覺得陌生，但我相信你現在聽到hadoop這個詞的時候你應該都會覺得“熟悉”！越來越發現身邊從事hadoop開發或者是正在學習hadoop的人變多了。作為一個hadoop入門級的新手，你會覺得哪些地方很難呢？執行環境的搭建恐怕就已經足夠讓新手頭疼

Hadoop原始碼詳解之DBOutputFormat類

Hadoop 原始碼詳解之 DBOutputFormat 類 1. 類釋義 A OutputFormat that sends the reduce output to a SQL table. 一種將Reduce 輸出到一個SQL表中的輸出格式。 DB

Hadoop原始碼詳解之Mapper類

Hadoop原始碼詳解之Mapper類 1. 類釋義 Maps input key/value pairs to a set of intermediate key/value pairs. 將輸入的鍵值對應成一系列的中間鍵值對 Maps are the

Hadoop原始碼詳解之FileOutputFormat 類

Hadoop 原始碼詳解之FileOutputFormat 類 1. 類釋義 A base class for OutputFormats that read from FileSystems. 一個類從FileSystems讀取用於OutputFormats 【實在翻

Hadoop 原始碼詳解之FileInputFormat類

Hadoop 原始碼詳解之FileInputFormat類【updating…】 1. 類釋義 A base class for file-based InputFormats. 針對基於檔案的 InputFormats 一個基類 FileInputFo

Hadoop 原始碼詳解之RecordReader介面

Hadoop 原始碼詳解之RecordReader介面 1. 類釋義 RecordReader reads <key, value> pairs from an InputSplit. RecordReader 從InputSplit中讀取<key,va

Hadoop原始碼詳解之Job 類

Hadoop原始碼詳解之Job類 1. 原始碼包：org.apache.hadoop.mapreduce 繼承的介面有：AutoCloseable，JobContext，org.apache.hadoop.mapreduce.MRJobConfig

Hadoop Operations(Hadoop操作) 詳解(二) HDFS

最初，客戶機發出請求，使用Hadoop檔案系統api開啟指定的檔案。如果使用者有必要的許可權，則將請求傳送到namenode，以建立檔案元資料。新檔案的元資料條目;但是，它最初沒有相關的塊。對客戶機的響應表明開啟的請求是成功的，並且它現在可能開始寫入資料。在API級別，返回一個標準的Java流物

Hadoop RPC詳解-RMI

Hadoop RPC 遠端過程呼叫是Hadoop中的核心概念。在深入研究RPC之前，先看看遠端呼叫的鼻祖Java RMI. 1.什麼是RMI Java遠端方法呼叫，即Java RMI（Java Remote Method Invocation）是Java程式語言

hadoop sequenceFile詳解

hadoop不僅可以處理文字資訊，還可以處理二進位制格式資料，sequenceFile就是這樣的檔案。有以下特點：可分割支援壓縮每一行都是一個key value對可以設定同步點SequenceFile的格式是由一個header 跟隨一個或多個記錄組成。前三個位元組是一個Byt

Mahout駕馭hadoop之詳解

眾所周知,Mahout是基於Hadoop分散式系統的,要想看懂Mahout的原始碼,首先得明白mahout是如何使用hadoop的! 首先,在我的<<Hadoop執行原理詳解>>一篇中,詳細介紹了ha

雲端計算期末報告無圖 kmeans和最短路徑演算法hadoop實現詳解

《雲端計算應用開發實驗》大作業報告一．實驗環境與實驗工具 ubuntu 16.04真機 + hadoop2.6 + 本地偽分佈　二．實驗原理以下內容為科普性內容，不過裡面還是有一些關鍵的解釋在配環境的時候用得上 Hadoop是一個

Hadoop之WordCount實戰詳解

WorldCount可以說是MapReduce中的helloworld了，單詞計數主要完成的功能是:統計一系列文字檔案中每個單詞出現的次數，通過完成這個簡單程式讓讀者摸清 MapReduce 程式的基本結構。特別是對於每一個階段的函式執行所產生的鍵值對。這裡對

hadoop wordcount 詳解

Demo開發——wordcount

相關推薦