hadoop 簡單入門與streaming常用配置引數說明

阿新 • • 發佈：2019-01-22

1. Hadoop包含兩核心部分

hdfs
1. Hadoop distribute file system -- hadoop分散式檔案系統，儲存資料
2. Namenode、Datanode
3. 常用命令形式：hadoop fs -ls / hadoop fs -mkdir
MapReduce
1. 分而治之；map:實現分治；reduce：實現合併
2. 解決資料可分割的計算問題
3. 程式設計介面：常用Streaming；組成：Job配置檔案、map函式，reduce函式

2. hdfs結構圖

Namenode儲存元資料，資料資訊，資料備份資訊
Datanode 資料備份：本機架備份、異地備份

3. MapReduce排程框架

JobClient: 負責根據使用者指定引數生成一個mapreduce作業，提交到JobTracker
JobTracker: 單Master節點，將Job所有task排程到TaskTracker
TaskTracker: 部署在每臺計算機節點的一個service

4. MapReduce 執行層

Map階段，讀入資料，通過partition聚集相同key資料，並寫到本機磁碟
Reduce階段，不同reduce，讀入Map階段各maps的相應輸出

5. streaming 作業

streaming mapper
1. 先啟動使用者提交作業時指定的一個外部程式，一般是指令碼
2. 這個外部程式作為streaming mapper的子程序，streaming mapper讀取使用者輸入後，不再是呼叫map函式處理，而是通過管道寫到子程序的標準輸入
3. 從子程序的標準輸出讀取資料，寫到磁碟上
streaming 作業資料流向
1. 父程序是Java，負責讀取資料通過管道傳送給子程序
2. 通過管道把結果再讀取回來

一份資料在兩個不同程序中傳遞兩次

6 mapreduce – shuffle

map --> shuffle –> reduce
shuffle 從多個節點傳遞到多個節點，而不是多個節點到一個節點
shuffle 包含partition、combiner
1. partition : 資料歸併，分割map每個節點的結果，按照key分別對映給不同的reduce，預設是HashPartition，which reducer == （key.hashCode & Integer.MAX_VALUE）% numReduceTasks
2. 作用：計算（key, value）所屬分割槽；把同一分割槽資料合併、聚集
combiner： combiner屬於優化方案，由於頻寬限制，應該儘量map和reduce之間的資料傳輸數量。它在Map端把同一個key的鍵值對合並在一起並計算，計算規則與reduce一致，所以combiner也可以看作特殊的Reducer

7. streaming 常用配置項

stream.map.output.field.separator // 該引數屬於streaming作業引數，設定map輸出的欄位分隔符，預設為“\t”，該分隔符只對下面的stream.num.map.output.key.fields引數生效
stream.num.map.output.key.fields // 設定map輸出的前幾個欄位作為key，一般與第二項stream.map.output.field.separator 結合使用
mapred.text.key.partitioner.options // 設定key內某個欄位或者某個欄位範圍用做partition
mapred.text.key.comparator.options // 設定key中需要比較的欄位或位元組範圍
partitioner // 主要用於對鍵值進行劃分，負責將map的輸出結果根據key進行分割。Key用於確定不同的key落到不同的reduce上，通常對key進行Hash以後對reduce取mod，該key對應的紀錄最終將根據mod值落到對應的reduce上進行處理。HashPartitioner, IndexUpdatePartitioner, KeyFieldBasedPartitioner, SleepJob，預設的為 HashPartitioner，即對key直接進行hash分到對應的reduce，具體見第6部分。更高階一點的為 KeyFieldBasedPartitioner，該partitioner可以指定key中前幾個欄位用於分割
HashPartition 最基本的Partitioner，如果不指定Partitioner的話則預設使用該類。輸出格式為最基本的key”\t“value
KeyFieldBasedPartitioner 可以看做HashPartitioner的擴充套件，他將原有的對單欄位Key的hash擴充套件到可以靈活地對多欄位key進行分桶並排序，對應配置引數如下：
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner // 該引數表示作業啟用KeyFieldBasedParitioner
-D map.ouput.key.field.separator // 該引數屬於KeyFieldBasedPartitioner引數，只有當啟用KeyFieldBasedParititioner時，該引數才會生效；該引數指明map輸出結果中欄位之間的分隔符（該分隔符只對下面的num.key.fields.for.partition引數生效）；
-D num.key.fields.for.partition // 該引數同樣屬於KeyFieldBasedPartitioner引數；該引數指明map輸出結果的key按上述分隔符切分後，前幾個欄位將用來做partition；該引數不能與mapred.text.key.partitioner.options共用；
-D mapred.text.key.partitioner.options // 該引數同樣屬於KeyFieldBasedPartitioner引數；該引數指明map輸出結果的key按上述分隔符切分後，使用哪些欄位用來做partition；該引數不能與num.key.fields.for.partition共用，一起使用則以num.key.fields.for.partition為準；
KeyFieldBaseComparator // 可以靈活設定比較位置的高階比較器，但是它和沒有自己獨有的比較邏輯，而是使用預設Text的基於字典序或者通過-n來基於數字比較，直觀來說，partition指定key中的分割槽元素，KeyFieldBaseComparator用作指定key排序欄位以及排序規則，引數配置如下：
-D mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator // 該引數表示作業啟用KeyFieldBasedComparator
-D mapred.text.key.comparator.options="-k3,3 -k4nr" // 以key中第三個欄位正序，第四個欄位逆序比較排序
stream.memory.limit // 任務記憶體限制
mapred.reduce.tasks // 指定reducer個數
cmdenv //傳遞給streaming命令的環境變數
-input //HDFS目錄或檔案路徑, Mapper的輸入資料，檔案要在任務提交前手動上傳到HDFS
-output // reducer輸出結果的HDFS存放路徑, 不能已存在，但指令碼中一定要配置，多次-input,指定多個輸入檔案
-mapper // 可執行命令，mapper程式
-reducer // 可執行命令， reduce程式，不需要reduce處理就不指定
-file //本地mapper、reducer程式檔案、程式執行需要的其他檔案,將本地檔案分發給計算節點;檔案作為作業的一部分，一起被打包並提交，所有分發的檔案最終會被放置在datanode該job的同一個專屬目錄下：jobcache/job_xxx/jar
-cacheFile //分發HDFS檔案
-cacheArchive // 分發HDFS壓縮檔案、壓縮檔案內部具有目錄結構
mapred.job.priority //作業優先順序
mapred.job.map.capacity // 最多同時執行map任務數
mapred.job.reduce.capacity //最多同時執行reduce任務數
mapred.job.name // job name

8. key-partition 例項

key 不等於 partition，也就是說，分桶規則跟map階段的key有可能不是一回事
假設，檔案A中內容如下：

第一種作業方式（部分引數）：

./hadoop streaming
-D stream.map.output.field.separator=.
-D stream.num.map.output.key.fields=2

只是將map的輸出結果按兩個欄位切分成了key和value；再分桶上我們可以看出，它是以前兩個欄位作為一個整體來進行分桶的，e.5與e.9沒有分在一個reduce

第二種作業：

./hadoop streaming
-D stream.map.output.field.separator=.
-D stream.num.map.output.key.fields=2
-D map.output.key.field.separator=.
-D num.key.fields.for.partition=1
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner\

這裡啟用了KeyFieldBasedPartitioner，並且制定分桶以key的第一個欄位為準；我們可以看出mapred依然採用的是前兩個欄位為key，但是在分桶上只對第一個欄位做了雜湊函式，因此這次e.5和e.9分到了一個reducer內

第三種作業

./hadoop streaming
-D stream.map.output.field.separator=.
-D stream.num.map.output.key.fields=3
-D map.output.key.field.separator=.
-D num.key.fields.for.partition=1  
-D mapred.text.key.partitioner.options=-k2,3
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

這次將key的長度改成3個欄位，分桶標準也變成key的第2、3個欄位，可以看出e.5.1被分在了一起，而第三個欄位不同的e.5.9被分到了其他的reducer中

第四種作業

./hadoop streaming \
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \
-D mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \
-D stream.num.map.output.key.fields=4 \
-D stream.map.output.field.separator=. \
-D map.output.key.field.separator=. \
-D mapred.text.key.partitioner.options=-k1,2 \
-D mapred.text.key.comparator.options="-k3,3 -k4nr" \

這次key的長度為4，分桶標準為key的第一、二個欄位，可以看出，e.5被分到一個桶內，而輸出結果，按照key的第三個欄位的正序，第四個欄位的逆序排列輸出

hadoop 簡單入門與streaming常用配置引數說明

1. Hadoop包含兩核心部分 hdfs Hadoop distribute file system -- hadoop分散式檔案系統，儲存資料 Namenode、Datanode 常用命令形式：hadoop fs -ls / hadoop fs -mkdi

配置文件入門 - WebConfig.config常用配置節點介紹

fig文件建議 inf 分享 xls 錯誤 row pass http錯誤一、配置文件入門　　.Net提供了一種保存項目配置信息的辦法，就是利用配置文件，配置文件的後綴一般是.config。在WinForm程序中配置文件一般是App.config。在Asp.net中

CK2020微信小程序入門與實戰常用組件API開發技巧項目實戰

註冊 form 項目 pack filesize 記錄 tps http 謝謝 CK2020微信小程序入門與實戰常用組件API開發技巧項目實戰新年伊始，學習要趁早，點滴記錄，學習就是進步！隨筆背景：在很多時候，很多入門不久的朋友都會問我：我是從其他語言轉到程序開發

VMware Workstation簡單入門與CentOS 7的安裝

Linux study一.VMware Workstation的簡單介紹： VMware Workstation是VMware公司銷售的商業軟件產品之一。這個產品包含一個用於Intelx86兼容電腦的擬機套件，它允許用戶可以簡單的同時創建和運行多個x86的虛擬機，每個虛擬機都可以在相對

Kafka簡單入門與Spring結合實踐

Kafka簡單入門與Spring結合實踐一、【安裝部署kafka伺服器環境（centos7.0）】: 1.【注意】新版的kafka已經內建了一個zookeeper環境 2.【安裝與執行】：可以在kafka官網 http://kafka.ap

BAT簡單入門-命令視窗常用命令

命令視窗常用命令 1、cd 命令 cd //顯示當前目錄 cd .. //退出到上一個目錄 cd /d D: //進入上次D盤所在目錄 cd /d d:\&nbs

微信小程式入門與實戰常用元件 API 開發技巧專案實戰

開始就以專案為出發點，不會講一大堆枯燥的語法再補充兩個案例了事，將帶你快速熟悉小程式基礎知識，然後直接進入實戰開發環節，將小程式的知識點貫穿在整個專案中課程不僅僅講解小程式開發，更會通過實際的編碼來

jvm 常用配置引數

-verbose:gc 列印 GC 的簡要資訊 -XX:+printGC 列印 GC 的簡要資訊 [GC (Allocation Failure) 6036K->1672K(19968K), 0.0012595 secs] -XX:+Print

Centos 7 Vagrant 簡單入門與實戰介紹

Vagrant 是一個基於 Ruby 的工具，用於建立和部署虛擬化開發環境。它使用 Oracle 的開源 VirtualBox 虛擬化系統，使用 Chef 建立自動化虛擬環境（百度百科）。可以利用 Vagrant 搭建小小的叢集環境，用於學習例如 Ansible

hadoop的記憶體heap大小的配置引數

1、tasktracker的heapsize的大小設定 <property> <name>mapred.child.java.opts</name> <value>-Xmx200m</value> &l

Hadoop簡單入門之偽分散式搭建

前面兩章主要講解了完全分散式的搭建，這章主要講解伺服器單機完成偽分佈的搭建,介紹Hadoop配置，啟動，以及簡單測試。我的機器:阿里雲伺服器，64位，Java64，Hadoop2.4.1（64）所有軟體下載百度雲密碼：uup8 講在

Elasticsearch簡單入門--elasticsearch重要的配置項

Important Elasticsearch configuration 雖然Elasticsearch只需要很少的配置，但是有許多設定項需要手動配置，並且應該明確地被設定在投入生產之前。 path.data , path.logs cluster.name node

[jvm] [面試] jvm 常用配置引數

常見配置彙總堆設定 -Xms:初始堆大小-Xmx:最大堆大小-XX:NewSize=n:設定年輕代大小-XX:NewRatio=n:設定年輕代和年老代的比值。如:為3，表示年輕代與年老代比值為1：3

Redis 伺服器常用配置引數

恰當地設定 Redis 伺服器引數，才能保證伺服器正確、高效能、安全地運轉。通過這些引數，我們還能瞭解 Redis 伺服器內部運轉的機制和細節。同時，主從複製和 Redis 叢集的部署也要掌握相關配置項。作者：王克鋒出處：https://kefeng

ubuntu docker簡單入門與應用

本文使用ubuntu為底層環境，其他發行版除了安裝方式不一樣，別的基本都一樣。安裝docker 因為ubuntu官方源的docker版本不是最新，所以這裡更新一下docker官方源，以獲取最新版

微信小程式入門與實戰常用元件API開發技巧專案實戰

第1章什麼是微信小程式？介紹小程式的特點與適用場景、對開發者的影響以及課程特色第2章小程式環境搭建與開發工具介紹小程式開發工具的下載與安裝、微信Web開發者工具主要功能簡介第3章從一個簡單的“歡迎“頁面開始小程式之旅完成第一個小程式頁面，並學習小程式的基本目錄與檔案結構

jenkins 安裝部署與基本常用配置

運維體系中，自動化整合部署，一直都是重要的一塊，而jnekins則是自動化部署裡最常用，功能強大的工具，我們可以通過jenkins，構建各種各樣的專案，然後一鍵部署到伺服器上。方便快捷，避免了人為出錯。提高效率。除此之外，更是持續整合，持續部署常用的功能強大的工具。下面我就記

Spring Cloud中eureka.instance為字首的的常用配置引數說明。

引數名說明預設值 preferIpAddress 是否優先使用IP地址作為主機名的標識 false leaseRenewalIntervalInS

kafka常用配置引數及解釋

auto.create.topics.enable=true #自動建立topic auto.leader.rebalance.enable=true compression.type=producer controlled.shutdown.enable=true con

【轉載】Qt入門與提高：K02-01通過簡單exe介紹pro基本配置

版權宣告 --------------------------------------------------------------------------------------------------------------------- 作者：女兒叫老白

hadoop 簡單入門與streaming常用配置引數說明

相關推薦