解讀MapReduce程式例項

阿新 • • 發佈：2018-12-09

Mapreduce 是一個分散式運算程式的程式設計框架，核心功能是將使用者編寫的業務邏輯程式碼和自帶預設元件整合成一個完整的分散式運算程式，併發執行在一個 hadoop 叢集上。MapReduce採用“分而治之”策略，一個儲存在分散式檔案系統中的大規模資料集，會被切分成許多獨立的分片（split），這些分片可以被多個Map任務並行處理。

Hadoop 的四大元件：

（1）HDFS：分散式儲存系統；

（2）MapReduce：分散式計算系統；

（3）YARN： hadoop 的資源排程系統；

（4）Common：以上三大元件的底層支撐元件，主要提供基礎工具包和 RPC 框架等；

在 MapReduce 元件裡，官方給我們提供了一些樣例程式，其中非常有名的就是 wordcount 和 pi 程式，這些程式程式碼都在 hadoop-example.jar 包裡，jar包的安裝目錄在Hadoop下，為：

下面我們來逐一解讀這兩個樣例程式。

測試前，先關閉防火牆，啟動Zookeeper、Hadoop叢集，依次順序為：

成功啟動後，檢視程序是否完整。這些可參考之前部落格中關於叢集的搭建。

一、pi樣例程式

（1）執行命令，帶上引數

執行程式，引數含義：

第1個引數5指的是要執行5次map任務；

第2個引數5指的是每個map任務，要投擲多少次；

2個引數的乘積就是總的投擲次數（pi程式碼就是以投擲來計算值）。

通過上面我們獲得了Pi的值：3.680000，當然也可以改變引數來驗證得出的結果和引數的關係，比如我的引數換成10和10，則得出的結果為：3.20000。由此可見：引數越大，結果越是精確。

（2）檢視執行程序

在執行過程中，它的時間不定，所以我們可以通過訪問介面，檢視具體的執行程序，訪問：

介面顯示如下：

從上面我們可以看出：當Progress程序結束，即代表運算過程結束，也可以點選檢視具體的內容，這裡不做演示了。

二、wordcount樣例程式

（1）準備資料，上傳HDFS

簡單的說就是單詞統計，這裡我們新建一個txt檔案，輸入一些單詞，方便統計：

輸入以下單詞，並儲存：

上傳到HDFS，先在hdfs上建立資料夾，在將txt檔案放到該資料夾下，下面是一種建立方式，或者是hadoop fs -mkdir 的方式，二者擇其一，注意路徑：

我們可以通過訪問 slave01:50070，檢視HDFS檔案系統：

成功上傳。

（2）執行程式

執行下面的命令，注意路徑：

命令引數的含義：

第一個指的是jar包路徑，第二個指的是要執行的樣例程式名稱wordcount，第三個指的是檔案所在的HDFS路徑，第四個指的是要輸出的檔案目錄（不要是已經存在的）。

上面是輸出結果，同樣的我們可以通過訪問 slave01:8088 檢視程序。

執行結束後，在HDFS檔案系統上，可以看到輸出的目錄已經建立好了，且裡面存在了輸出的檔案：

通過命令，可以檢視執行後的結果檔案：

從上面可以看出：單詞已經統計完成，我們可以對照檔案進行驗證。

好了，上面是對兩個已有樣例的解讀，至於程式碼方面有空再一起討論吧。

解讀MapReduce程式例項

Mapreduce 是一個分散式運算程式的程式設計框架，核心功能是將使用者編寫的業務邏輯程式碼和自帶預設元件整合成一個完整的分散式運算程式，併發執行在一個 hadoop 叢集上。MapReduce採用“分而治之”策略，一個儲存在分散式檔案系統中的大規模資料集，會被切分成許多

偽分散式執行Hadoop例項之HDFS執行MapReduce程式

一、前期準備準備一臺客戶機安裝jdk 配置環境變數安裝Hadoop 配置環境變數二、配置叢集配置hadoop-env.sh檔案 cd /opt/module/hadoop-2.7.2/etc/hadoop vim hadoo

MapReduce 程式執行演示（示例PI程式 wordcount程式）

你說的9000埠應該指的是fs.default.name或fs.defaultFS（新版本）這一配置屬性吧，這個屬性是描述叢集中NameNode結點的URI(包括協議、主機名稱、埠號) 50070其實是在hdfs-site.xml裡面的配置引數dfs.namenode.http-address，

openCV 程式例項

第一個程式圖片展示把一張圖片命名為 “1.jpg” 放進專案檔案下 #include<iostream> #include"opencv2/opencv.hpp" using namespace cv; using namespace std; int ma

Hadoop執行mapre官方程式例項

1、執行grep案例，grep是官方提供的搜尋檔案中的單詞的出現次數根據正則表示式來進行搜尋 1.1進入share目錄下的hadoop/mapreduce目錄環境，可以看到可以執行

Hadoop之mapreduce程式完整過程解析

今天在思考mapreduce程式執行的過程時，發現對這塊有點亂，所以總結一下，hadoop下執行mapreduce程式的詳細過程··· ··· 首先在執行一個mapreduce程式時，必須啟動相應的服務，也就是各個節點： 1.Hadoop中hdfs的兩個節點：NameNode、DataNod

Java中利用集合框架模擬鬥地主程式例項

package doudizhuDemo; import java.util.ArrayList; import java.util.Collections; import java.util.HashMap; import java.util.TreeSet; /* 模擬鬥地主 *

Hadoop-mapreduce 程式在windows上執行需要注意的問題

1.在主程式中需要新增這幾個引數配置 Configuration conf = new Configuration(); // 1、設定job執行時要訪問的預設檔案系統 conf.set("fs.defaultFS", HADOOP_ROOT_PATH);

啟動YARN，並執行MapReduce程式，歷史伺服器，日誌聚集

目錄啟動YARN，並執行MapReduce程式配置歷史伺服器配置日誌聚集啟動YARN，並執行MapReduce程式 [[email protected] hadoop]$ pwd /opt/module/hadoop-2.7.2/etc/hadoop

大資料之（3）Hadoop環境MapReduce程式驗證及hdfs常用命令

一、MapReduce驗證本地建立一個test.txt檔案 vim test.txt 輸入一些英文句子如下： Beijing is the capital of China I love Beijing I love China 上傳test.txt

在eclipse中執行叢集版MapReduce程式

我們在windows下的eclipse直接將mapReduce程式傳送到hadoop叢集，在叢集上跑mapReduce程式。 1. 首先我們需要配置hadoop叢集的引數我們可以通過程式碼的方式進行配置，也可以從hadoop叢集中直接下載配置檔案下載好的配置檔案直接放在

MapReduce程式在yarn叢集上流程分析

yarn本身也是一個叢集，這個叢集的老大是resourcemanager，其他的小弟是nodemanager。 yarn 是一個資源排程平臺，負責為運算程式提供伺服器運算資源，相當於一個分散式的作業系統平臺，而MapReduce等運算程式則相當於是運行於作業系統之上的應用程式。運算資源

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式新建一個Maven專案不用說了，普通的Maven專案就行。加入Hadoop依賴其中的${hadoop.version}對應自己使用的Hadoop版本 hadoop-client

MRunit 測試MapReduce 程式

使用MRunit 測試 MapReduce ,就比如我們寫java 程式是的junit單元測試，其實，mrunit 和標準的junit框架一起使用，可以將mapreduce作業的測試作為正常開發環境的一部分執行。準備測試的包：mrunit-1.1.0-hadoop2.jar ，下載地址

windows本地執行hadoop的MapReduce程式

1.下載hadoo安裝到windows本地地址 https://archive.apache.org/dist/hadoop/core/hadoop-2.6.0/hadoop-2.6.0.tar.gz 2. 解壓之後進行設定環境變數

mapreduce程式的按照key值從大到小降序排列

在近期的Hadoop的學習中，在學習mapreduce時遇到問題：讓求所給資料的top10，們我們指導mapreduce中是有預設的排列機制的，是按照key的升序從大到小排列的然而top10問題的求解需要按照降序排列。在網上找了很長時間才得以解決，解決方法如下：自定義一

微信小程式例項教程

微信小程式例項教程（一）原文：https://www.cnblogs.com/niejunchan/p/5918855.html 拼序網（小程式製作服務商）

並行作業3：在eclipse中開發MapReduce程式

在eclipse中開發MapReduce程式系統採用vm下ubuntu16.04 一、eclipse安裝(參考我的其它部落格) 二、eclipse配置 1、下載hadoop-eclipse-plugin-2.7.3.jar外掛，並將其拖到虛擬機器桌面 2、將其移動到/u

學習筆記:從0開始學習大資料-8.直接在Eclipse配置執行MapReduce程式

前面開發hadoop程式是打包成jar，然後在命令列執行 hadoop jar XXX.jar XXXX 的方式提交作業，現在記錄直接在Eclipse IDE執行MapReduce作業的方法，還是用經典的WordCount程式。 1.配置Eclipse 的hdfs環境

小程式例項：如何自定義下拉重新整理

js // components/test/test.js Component({ /*** 元件的屬性列表*/ properties: { }, /*** 元件的初始資料*/ data: { scrollHeight: 0, startY: 0, ti