Hadoop Core_MapReduce總結（三)

阿新 • • 發佈：2018-12-20

四、 MapReduce Shell 應用

1、MapReduce 的二級命令

mapred 稱為一級命令，直接輸入 mapred 回車，即可檢視二級命令：

2、MapReduce 的三級命令

輸入一級命令 mapred 後，再任意輸入一個二級命令，即可檢視三級命令：

3、MapReduce shell 應用

檢視當前正在執行的 job 任務

先提交一個 WordCount 任務，然後使用 mapred job -list 檢視任務列表

終止(kill)一個任務的執行

構造場景：先提交一個 WordCount job，然後通過 kill job-id 來終止任務

檢視一個 job 的日誌

命令格式為：mapred job -logs job-id

五、 MapReduce 技術特徵

1、向“外”橫向擴充套件，而非向“上”縱向擴充套件

叢集的構建完全選用價格便宜、易於擴充套件的低端商用伺服器，而非價格昂貴不易擴充套件的商用服務
大規模資料處理和大規模資料儲存的需要，講求叢集綜合能力，而非單臺機器處理能力，橫向增加機器節點資料量

2、失效被認為是常態

使用大量普通伺服器，節點硬體和軟體出錯是常態
具備多種有效的錯誤檢測和恢復機制，在某個計算節點失效後會自動轉移到別的計算節點。某個任務節點失敗後其他節點能夠無縫接管失效節點的計算任務

當失效節點恢復後自動無縫加入叢集，不需要管理員人工進行系統配置

3、移動計算，把處理向資料遷移(資料本地性)

採用程式碼/資料互定位的功能，計算和資料在同一個機器節點或者是同一個機架中，發揮資料本地化特點
可避免跨機器節點或是機架傳輸資料，提高執行效率

4、順序處理資料、避免隨機訪問資料

磁碟的順序訪問遠比隨機訪問快得多，因此 MapReduce 設計為面向順序式大規模資料的磁碟訪問處理
利用叢集中的大量資料儲存節點同時訪問資料，實現面向大資料集批處理的高吞吐量的並行處理

5、推測執行

一個作業由若干個 Map 任務和 Reduce 任務構成，整個作業完成的時間取決於最慢的任務的完成時間。由於節點硬體、軟體問題，某些任務可能執行很慢

採用推測執行機制，發現某個任務的執行速度遠低於任務平均速度，會為慢的任務啟動一個備份任務，同時執行。哪個先執行完，採用哪個結果。

6、平滑無縫的可擴充套件性

可彈性的增加或減少叢集計算節點來調節計算能力
計算的效能隨著節點數的增加保持接近線性程度的增長

7、為應用開發這隱藏系統底層細節

並行程式設計有很多困難，需要考慮多執行緒中複雜繁瑣的細節，諸如分散式儲存管理、資料分發、資料通訊和同步、計算結果收集等細節問題。
MapReduce 提供了一種抽象機制將程式設計師與系統層細節隔離開，程式設計師只需關注業務，其他具體執行交由框架處理即可。

Hadoop Core_MapReduce總結（三)

四、 MapReduce Shell 應用 1、MapReduce 的二級命令 mapred 稱為一級命令，直接輸入 mapred 回車，即可檢視二級命令： 2、MapReduce 的三級命令輸入一級命令 mapred 後，再任意輸入一個二級命令，即可檢視

Hadoop Core_MapReduce總結（二)_WordCount

三、MapReduce Java API 應用 MapReduce 開發流程（1）搭建開發環境，參考 HDFS 環境搭建，基本一致（2）基於 MapReduce 框架編寫程式碼（3）編譯打包，將原始碼和依賴 jar 包打成一個包（4）上傳至執行環境執行 hadoop jar 命

Hadoop Core_MapReduce總結（一）

一、分散式計算框架 MapReduce 1、產生背景 Web2.0 時代，資料爆炸式、指數級增長，大資料分散式計算需求頻繁通過單機記憶體擴充套件來增強計算能力，已經無法承載大規模資料量的計算分散式計算開發和維護的複雜與多變，對程式設計師要求太高

Hadoop Core_HDFS總結（三）——思考問題

一、HDFS 為何要講檔案分成 block 塊儲存？減少底層作業系統的 IO 讀取時的定址時間方便更高效的流式讀取，提高吞吐量二、HDFS block 塊的預設大小時多少？ dfs.blocksize 為 Ha

遠程協助開發總結（三）

線程終止判斷 call 主動 exce div 一個解釋 tex 這裏主要總結一下這段時間對Socket編程的總結 1.如何正確的接收數據和如何正確的關閉連接接收數據要配合正確的關閉連接來使用，關閉連接的時候要先Shutdown本地套接字，這樣遠程套接字就會Recei

css基礎知識的復習總結（三）

網頁元素 ati 塊元素 isp 方式一半浮動 .cn 1.定位的盒子居中顯示案例一：（定位的盒子居中顯示）預期效果實現步驟：設置父盒子為相對定位設置子盒子left值為父盒子寬度一半設置子盒子左邊距為自己寬度一半總結：margin:0 auto 只能讓在

Hadoop 新生報道（三） hadoop基礎概念

端口查看復制客戶根目錄路徑提高 strong 端口 hadoop1.x 　　一.NameNode，SeconderyNamenode，DataNode 　　NameNode，DataNode，SeconderyNamenode都是進程，運行在節點上。　　1.

JavaScript學習總結（三、函數聲明和表達式、this、閉包和引用、arguments對象、函數間傳遞參數）

rem [1] incr foo i++ scrip erro ren 推薦一、函數聲明和表達式函數聲明： function test() {}; test(); //運行正常 function test() {}; 函數表達式： var test = fun

I/O流操做總結（三）

div nta 利用 buffer 實現 als 覆蓋字符 not 說實話，其實我並不是很喜歡Java這門語言，盡管它很強大，有很多現成的API可以調用但我總感覺它把簡單的事情弄得太過復雜，甚至有時候會讓人迷失弄不清到底是為了寫出東西，還是為了語言本身我學習的第一門

基於大數據的電影網站項目開發之階段性總結（三）

字符 crc -c ... chown root per edi 第一個字符一、基礎講解 1. 主機ping不同虛擬機　　虛擬機要設置IP地址，ip段是vmware 編輯菜單-->虛擬網絡編輯器網段，網關:192.168.XXX.2

[轉載] java多線程總結（三）

java多線程 home gif 結果訪問關系 .com mon 問題轉載自： http://www.cnblogs.com/lwbqqyumidi/p/3821389.html 作者：Windstep 本文主要接著前面多線程的兩篇文章總結Java多線程中的線程安全問

JSP學習總結（三）

vol actor time 為什麽 pso ack sta instance 9.png 四、為什麽jsp就是servlet? 　　打開Tomcat服務器的work目錄，找到jsp文件翻譯的java文件。類聲明如下 package org.apache.jsp; im

springMVC學習總結（三）數據綁定

springmvc core nts 循環 ack sta attribute servle 設置 springMVC學習總結（三）數據綁定一、springMVC的數據綁定，常用綁定類型有： 1、servlet三大域對象： HttpServletRequest Http

linux基礎知識總結（三）

界面當前日期 ech sed文本處理時間 sed 簡單的編寫代碼第三周學習總結目錄一.知識脈絡圖二.shell腳本三.shell登錄方式四.文件查找和壓縮及tar五.簡單的sed文本處理一.知識脈絡圖二.shell腳本 1.shell腳本簡介

java 基礎歸納總結（三）

indexof set方法返回值 substr 成員變量 bstr con 子類數組一、面向對象　　面向對象的三大特征：　　1、封裝：將類的屬性私有化並對外提供公共的 getset方法　　2、繼承：用新類繼承已有類可以直接使用已有類的公共的方法和屬性

JavaSE學習總結（三）——Java語言編程練習、格式化字符與常量

數據 nts 編程 () 功能替換 pri stream 第幾天目錄一、變量、常量、字面量二、銀行利率為5%，問存款100美元5年的收益細節？三、格式化 3.1、printf格式化輸出 3.2、String.format 3.2.1、日期類型 3.2.2、

Linux 學習總結（三十）lamp之mysql安裝

lamp mysql 一 lamp架構介紹 lamp 是linux apache mysql php 的縮寫，就是整個一套服務端環境，對於php開發的網站，我們訪問到的頁面或者數據很可能就是這套環境提供的。對於普通網民來說，我們沒有註意我們訪問到的網站內容，其實是分兩大類的，一類是圖片為代表的靜態數據

Java Web開發總結（三） —— request接收表單提交中文參數亂碼問題

字符串 public servlet 參數 byte[] 解決操作 get span 1、以POST方式提交表單中文參數的亂碼問題 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"

Linux學習總結（三十一）lamp之mariadb apache 安裝

lamp mariadb apache httpd 一 mariadb 介紹 ?MySQL是一個關系型數據庫，由mysql ab公司開發，mysql在2008年被sun公司收購（10億刀），2009年sun公司被oracle公司收購（74億刀）? MySQL官網https://www.mysq

Linux學習總結（三十二）lamp之php安裝

php libphp5.so lamp PHP官網www.php.net當前主流版本為5.6/7.1 cd /usr/local/src/ wget http://cn2.php.net/distributions/php-5.6.30.tar.gz tar zxf php-5.6.30.tar

Hadoop Core_MapReduce總結（三)

四、 MapReduce Shell 應用

2、MapReduce 的三級命令

3、MapReduce shell 應用

五、 MapReduce 技術特徵

1、向“外”橫向擴充套件，而非向“上”縱向擴充套件

2、失效被認為是常態

3、移動計算，把處理向資料遷移(資料本地性)

4、順序處理資料、避免隨機訪問資料

5、推測執行

6、平滑無縫的可擴充套件性

7、為應用開發這隱藏系統底層細節

相關推薦