提交mapreduce要配置的引數

阿新 • • 發佈：2018-12-13

linux平臺提交到yarn

import java.io.IOException;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class LinuxToYarn {
	public static void main(String[] args) throws IOException, 
	ClassNotFoundException, InterruptedException, URISyntaxException {
		
		Configuration conf = new Configuration();
		
		Job job = Job.getInstance(conf);
		
		//jar包所在的位置
		job.setJarByClass(LinuxToYarn.class); 
		
		//本次job索要呼叫的mapped、reducer實現類
		job.setMapperClass(WordCount.class);
		job.setReducerClass(WordcountMapreduce.class);
		
		//job的mapped實現類產生的結果的key、value型別
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		//
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		//本次job要處理的輸入資料集所在路徑、最終結果的所在路徑
		FileInputFormat.setInputPaths(job, new Path("/input"));
		FileOutputFormat.setOutputPath(job, new Path("/output"));
		
		//想要啟動的reduce task的數量
		job.setNumReduceTasks(2);
		
		//提交資料
		boolean flg = job.waitForCompletion(true);	
		
		System.exit(flg?0:-1);
		
	}


}

window提交到yarn

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class submittedWindowToyarn {
	public static void main(String[] args) throws IOException, 
	ClassNotFoundException, InterruptedException, URISyntaxException {
		
		Configuration conf = new Configuration();
		
		// 在程式碼中設定JVM系統引數，用於給job物件來獲取訪問HDFS的使用者身份
		System.setProperty("HADOOP_USER_NAME", "root");
		
		//設定job要訪問的預設檔案系統
		conf.set("fs.defaultFS","hdfs://hadoop1:9000");
		
		//設定job提交到哪執行
		conf.set("mapreduce.framework.name", "yarn");
		conf.set("yarn.resourcemanager.hostname", "hadoop2");
		
		//如果要從windows系統上執行這個job提交客戶端程式，則需要加這個跨平臺提交的引數
		conf.set("mapreduce.app-submission.cross-platform","true");
		
		Job job = Job.getInstance(conf);
		
		//jar包所在的位置
		job.setJar("H:/mapreduce.jar");
		
		//本次job索要呼叫的mapped、reducer實現類
		job.setMapperClass(WordCount.class);
		job.setReducerClass(WordcountMapreduce.class);
		
		//job的mapped實現類產生的結果的key、value型別
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		//
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		Path path = new Path("/output");
		FileSystem fs = FileSystem.get(new URI("hdfs://hadoop1:9000"),conf,"root");
		if(fs.exists(path)){
			fs.delete(path,true);
		}
		//本次job要處理的輸入資料集所在路徑、最終結果的所在路徑
		FileInputFormat.setInputPaths(job, new Path("/input"));
		FileOutputFormat.setOutputPath(job, new Path("/output"));
		
		//想要啟動的reduce task的數量
		job.setNumReduceTasks(2);
		
		//提交資料
		boolean flg = job.waitForCompletion(true);	
		
		System.exit(flg?0:-1);
		
	}


}

提交mapreduce要配置的引數

linux平臺提交到yarn import java.io.IOException; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configuration; import org.a

MapReduce作業配置引數

可在客戶端的mapred-site.xml中配置，作為MapReduce作業的預設配置引數。也可以在作業提交時，個性化指定這些引數。引數名稱預設值說明 mapreduce.job.name 作業名稱 mapreduce.job.priority NORMAL 作業

配置IDEA開發環境向遠端叢集提交MapReduce應用

本文的主要目的本文主要記錄了通過windows10上的IDEA向遠端HADOOP叢集提交應用的配置過程。安裝配置HADOOP叢集略安裝配置IDEA 略配置windows端HADOOP客戶端複製叢集中的hadoop資料夾到windows，作為

Yarn下Mapreduce的記憶體引數理解&xml引數配置

Container是什麼？ Container就是一個yarn的java程序，在Mapreduce中的AM，MapTask，ReduceTask都作為Container在Yarn的框架上執行，你可以在RM的網頁上【8088埠】看到Container的狀

yarn & mapreduce 配置引數總結

配置設定nodemanager 總記憶體大小為32G，在yarn-site.xml 增加如下內容： <property> <name>yarn.nodemanager

論dfs.namenode.handler.count配置引數的總要性

這篇文章的故障，雖然用分批啟動DN節點的方法，避免了重啟HDFS的出現的記憶體問題。但是治標不治本，風險依然是存在的。所以要從根本上根治這個疑難雜症，就要從其他引數配置著手。最終，鎖定一個引數配置dfs.namenode.handler.count。先來

JAVA為什麽要配置環境變量，怎樣配置

虛擬大小寫原因控制臺生成 .exe 也有表示 system32 軟件151 陶濤自己總結些再加抄點：安裝JDK後要配置環境變量，主要有三個：1 JAVA_HOME ->為JDK的安裝目錄，如：F:\JAVA\jdk1.6.0_042 CLASSPA

H3C開啟tracert路徑回顯ip ttl和ip unreahables命令都要配置的原因

tracert ipttl unreahables 路徑回顯 h3c tracert原理部分大家就去看手冊吧，下面說的就是手冊裏沒有說明的部分。首先，H3C設備開啟路徑回顯命令為：ip unreachables enableip ttl-expires enableip ttl-expi

Question20180106 Java環境變量的配置及為什麽要配置環境變量

system32 lin 安裝目錄方式 for 不同包括 new batch Question 1 Java環境變量的配置及為什麽要配置環境變量 Q1.1為什麽要配置環境變量　　在學習JAVA的過程中，涉及到多個環境變量（environment variable

使用@Controller註解為什麽要配置<mvc:annotation-driven />

讀寫 factory 註釋驅動 ida read patch calendar ber ping <mvc:annotation-driven/>相當於註冊了DefaultAnnotationHandlerMapping和AnnotationMethodHand

Git忽略提交規則 - .gitignore配置運維總結

希望 j2me 區別文件添加 function settings spa root ont 在使用Git的過程中，我們喜歡有的文件比如日誌，臨時文件，編譯的中間文件等不要提交到代碼倉庫，這時就要設置相應的忽略規則，來忽略這些文件的提交。簡單來說一個場景：在你使用git a

啟動伺服器時將配置引數從資料庫中載入到快取

最近做專案，碰到這樣的需求：在伺服器啟動的時候從資料庫讀取引數，將引數儲存到記憶體快取中由於使用的是spring的自動注入方式，一開始用@component註解在啟動的時候載入查詢配置引數的bean,由於bean中要用到其他bean來查詢，但此時都為null 查詢相關資料，發現@PostC

maven配置引數詳解

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apach

kaldi中文語音識別thchs30模型訓練程式碼功能和配置引數解讀

Monophone 單音素模型的訓練 # Flat start and monophone training, with delta-delta features. # This script applies ceps

狀態列的各種配置引數

1. View.SYSTEM_UI_FLAG_VISIBLE：顯示狀態列，Activity不全屏顯示(恢復到有狀態的正常情況)。 2. View.INVISIBLE：隱藏狀態列，同時Activity會伸展全屏顯示。 3. View.SYSTEM_UI_FLAG_FUL

每次開啟 excel2010 都要配置如何解決

遇到這種情況有以下幾種解決方法 1、修改原有office啟動名稱開啟“C:/Program Files/Common Files/Microsoft Shared/OFFICE14/Office Setup Controller 文件夾找到 “ SETUP.EXE” 文件

用SVN遷移程式碼並在pycharm中進行程式碼提交的詳細配置

SVN 程式碼的遷移與提交文章目錄 SVN 程式碼的遷移與提交 1.簽出原始碼到本機 2. 文件的修改 3.pycham中svn配置 1.簽出原始碼

HttpClient Post 以表單提交方式請求帶引數

/* * **HttpClient Post 以表單提交方式請求帶引數** */ @Test public void fun5() throws ClientProtocolException, IOException{ //1、建立HttpClient org.apa

JVM配置引數詳解

一、堆引數設定 -XX:+PrintGC 使用這個引數，虛擬機器啟動後，只要遇到GC就會列印日誌 -XX:+UseSerialGC 配置序列回收器 -XX:+PrintGCDetails 可以檢視詳細資訊，包括各個區的情況 -Xms:設定Java程式啟動

配置引數 -Xms128M -Xmx512M -XX:PermSize=64M -XX:MaxPermSize=128M

MyEclipse記憶體不足以及配置引數“ -Xms128M -Xmx512M -XX:PermSize=64M -XX:MaxPermSize=128M ”的含義 “MyEclipse has detected that less than 5% of the

提交mapreduce要配置的引數

相關推薦