mapreduce程式開發簡單例項 WordCount

阿新 • • 發佈：2020-11-25

mapreduce的簡單程式設計已經學習得差不多了，抽時間總結下

　　WordCount顧名思義，這個程式的作用就是數清一個文字中某關鍵詞的出現次數，通過mapreduce可以輕鬆實現。

首先輸入的文字如下：

　　

然後目標就是統計各個賣家id 的出現次數

原理：

大致思路是將hdfs上的文字作為輸入，MapReduce通過InputFormat會將文字進行切片處理，並將每行的首字母相對於文字檔案的首地址的偏移量作為輸入鍵值對的key，文字內容作為輸入鍵值對的value，經過在map函式處理，輸出中間結果<word,1>的形式，並在reduce函式中完成對每個單詞的詞頻統計。整個程式程式碼主要包括兩部分：

Mapper部分和Reducer部分。

程式碼實現：

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class mapreduce {
public static void main(String[] args) throws IOException,ClassNotFoundException,InterruptedException {
Job job = Job.getInstance();
job.setJobName("WordCount");
job.setJarByClass(mapreduce.class);
job.setMapperClass(doMapper.class);
job.setReducerClass(doReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
Path in = new Path("hdfs://192.168.146.131:9000/mymapreduce1/in/buyer_favorite1");
Path out = new Path("hdfs://192.168.146.131:9000/mymapreduce1/out");
FileInputFormat.addInputPath(job,in);
FileOutputFormat.setOutputPath(job,out);
System.exit(job.waitForCompletion(true)?0:1);

}
public static class doMapper extends Mapper<Object,Text,Text,IntWritable>{
public static final IntWritable one = new IntWritable(1);
public static Text word = new Text();
@Override
protected void map(Object key, Text value, Context context)
throws IOException,InterruptedException {
StringTokenizer tokenizer = new StringTokenizer(value.toString(),"  ");
word.set(tokenizer.nextToken());
context.write(word,one);
}
}
public static class doReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
private IntWritable result = new IntWritable();
@Override
protected void reduce(Text key,Iterable<IntWritable> values,Context context)
throws IOException,InterruptedException{
int sum = 0;
for (IntWritable value : values){
sum += value.get();//彙總各個關鍵字數目，將每個key的values中所有值相加
}
result.set(sum);
context.write(key,result);
}
}
}

　　

最終到hdfs的輸出目錄（本例是/mymapreduce1/out）中檢視輸出的檔案part-r-00000

可得到

mapreduce程式開發簡單例項 WordCount

mapreduce的簡單程式設計已經學習得差不多了，抽時間總結下　　WordCount顧名思義，這個程式的作用就是數清一個文字中某關鍵詞的出現次數，通過mapreduce可以輕鬆實現。

Android Camera 開發簡單例項(一): Preview

技術標籤：Android Camerajavaandroid 目前正在學習camera開發，初步學習camera1，即android.hardware.camera。

動手寫的第一個MapReduce程式--wordcount

引語: 之前執行過了hadoop官方自帶的第一個例子wordcount,這次我們自己手寫一個,這個相當於是程式語言中的helloworld一樣.

python開發例項之python使用Websocket庫開發簡單聊天工具例項詳解(python+Websocket+JS)

最近又回顧了下Websocket，發現已經忘的七七八八了。於是用js寫了客戶端，用python寫了服務端，來複習一下這方面的知識。

iOS如何開發簡單的手繪應用例項詳解

開發一款簡單的 iOS 手繪應用，收集點，繪製形狀，給形狀著色，呈現給使用者，好像就完了

小程式雲開發—簡單blog實現

tcb-router 基於koa風格的小程式·雲開發雲函式輕量級類路由庫，主要用於優化服務端函式處理

微信小程式開發資料快取基礎知識辨析及運用例項詳解

提示：這裡可以新增本文要記錄的大概內容：例如：隨著人工智慧的不斷髮展，機器學習這門技術也越來越重要，很多人都開啟了學習機器學習，本文就介紹了機器學習的基礎內容。

MapReduce的執行流程和程式設計規範以及簡單的WordCount案例

技術標籤：hadoopmapReduce大資料hadoopmapreduce ▶ \\blacktriangleright ▶ MapReduce程式設計規範

微信小程式(八)-專案例項(原生框架 MINA轉雲開發)==02-雲開發資料庫

雲資料庫 1.初始化:

微信小程式實現簡單手寫簽名元件的方法例項

目錄背景：需求：效果一、思路二、實現1. 頁面與樣式2. 初始化3. 點選時4. 簽名時三、總結背景：

什麼是微服務擴充套件性和高可用、可擴充套件性，Java小程式開發例項

大資料、演算法專案在任何大廠無論是面試還是工作運用都是非常廣泛的，我們精選了50個百度、騰訊、阿里等大廠的大資料、演算法落地經驗甩給大家，千萬不要做收藏黨哦，空閒時間記得隨時看看！

微信小程式開發：中英文切換能力的簡單實現方法

專案背景，在已經完善的漢語微信小程式基礎上，實現登入時切換中英文介面的功能，這裡只要做前端固定文案部分，介面返回的內容先不考慮。實現程式碼如下：

MapReduce原理深入理解3----WordCount程式流程圖解、combiner（合併）程式示例、InputSplit切片詳解

MapReduce原理深入理解3----WordCount程式流程圖解、combiner（合併）程式示例、3、InputSplit切片詳解

hadoop執行第一個例項wordcount

引語：這幾周事情比較多，兩週沒寫部落格了，這周總算把hadoop的例項給執行起來，然後跑了一下官方的wordcount例子（用於統計檔案中單詞出現的次數）。

簡單例項解釋Oracle分頁查詢

什麼是分頁查詢分頁查詢就是把query到的結果集按頁顯示。比如一個結果集有1W行，每頁按100條資料庫。而你獲取了第2頁的結果集。

MySQL 觸發器定義與用法簡單例項

本文例項講述了MySQL 觸發器定義與用法。分享給大家供大家參考，具體如下：

通用MapReduce程式複製HBase表資料

編寫MR程式，讓其可以適合大部分的HBase表資料匯入到HBase表資料。其中包括可以設定版本數、可以設定輸入表的列匯入設定(選取其中某幾列)、可以設定輸出表的列匯出設定(選取其中某幾列)。

python呼叫函式、類和檔案操作簡單例項總結

本文例項總結了python呼叫函式、類和檔案操作。分享給大家供大家參考，具體如下：

Python3操作Excel檔案（讀寫）的簡單例項

安裝讀Excel檔案通過模組xlrd 寫Excel檔案同過模組xlwt(可惜的是隻支援Python2.3到Python2.7版本)

js實現二級聯動簡單例項

本文例項為大家分享了js實現二級聯動的具體程式碼，供大家參考，具體內容如下