Hadoop HA 模式下執行spark 程式

阿新 • • 發佈：2018-12-29

（1）將Hadoop的hdfs-site.xml 和core-site.xml檔案複製到spark/conf目錄下

（2）追加如下內容到 spark-defaults.conf檔案

spark.files file:///home/hadoop/spark/conf/hdfs-site.xml,file:///home/hadoop/spark/conf/core-site.xml

spark.files file:///home/hadoop/spark/conf/hdfs-site.xml,file:///home/hadoop/spark/conf/core-site.xml

如果不加這個，會有如下問題發生：

Java.lang.IllegalArgumentException: java.NET.UnknownHostException: mycluster
   at org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:418)
   at org.apache.hadoop.hdfs.NameNodeProxies.createNonHAProxy(NameNodeProxies.java:231)
   at org.apache.hadoop.hdfs.NameNodeProxies.createProxy(NameNodeProxies.java:139)

at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:510)
at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:453)

（3）讀取hdfs中的lzo檔案，並且分片來執行

[html] view plain copy print?

import org.apache.hadoop.io._
import com.hadoop.mapreduce._
val data = sc.newAPIHadoopFile[LongWritable, Text, LzoTextInputFormat]("hdfs://mycluster/user/hive/warehouse/logs_app_nginx/

logdate=20160322/loghost=70/var.log.nginx.access_20160322.log.70.lzo")
data.count()

import org.apache.hadoop.io._
import com.hadoop.mapreduce._
val data = sc.newAPIHadoopFile[LongWritable, Text, LzoTextInputFormat]("hdfs://mycluster/user/hive/warehouse/logs_app_nginx/logdate=20160322/loghost=70/var.log.nginx.access_20160322.log.70.lzo")
data.count()

（4）讀取hdfs中的萬用字元表示的目錄和子目錄下檔案，並且分片來執行

[html] view plain copy print?

import org.apache.hadoop.io._
import com.hadoop.mapreduce._
val dirdata = sc.newAPIHadoopFile[LongWritable, Text, LzoTextInputFormat]("hdfs://mycluster/user/hive/warehouse/logs_app_nginx/logdate=20160322/loghost=*/")
dirdata.count()

Hadoop HA 模式下執行spark 程式

（1）將Hadoop的hdfs-site.xml 和core-site.xml檔案複製到spark/conf目錄下（2）追加如下內容到 spark-defaults.conf檔案 spark.files file:///home/hadoop/spar

各模式下執行spark自帶例項SparkPi

此係統是ubuntu，spark版本是1.0.0（下載的不是原始碼，而是編譯好的，在我的其他文章裡有下載網盤地址），hadoop版本2.2.0，scala版本2.10.4 1.spark-sunbmit命令：spark1.0之前的版本執行自帶例子使用$SPARK_HOME/

windows下執行spark程式

linux普通使用者開發spark程式時，由於無法使用IDEA的圖形化操作介面，所以只能大包圍jar，用spark-submit提交，不是很方便， spark的local模式可以方便開發者在本地除錯程式碼，而不用打包為jar用spark-submit提交執行，或

Hadoop本地執行模式下執行官方案例（Grep和WordCount）

官方Grep案例 #1,在hadoop-2.7.2檔案下建立input資料夾 [[email protected] hadoop-2.7.2]$ mkdir input [[email protected] hadoop-2.7.2]$ ll 總用量 56 drwx

MapReduce 程式在 Windows 本地模式下執行報錯問題的解決

一、報錯資訊第一種： Exception in thread "main" java.lang.RuntimeException: Error while running command to get file permissions : java.io.IOException: (n

HA 模式下的 Hadoop+ZooKeeper+HBase 啟動順序

一. 背景 1.1 網路上的大部分教程的順序 1. 啟動順序 Hadoop ZooKeeper HBase 第二個HMaster 2. 停止順序第二個 HMaster，kill-9 刪除 Hbase ZooKeeper Hadoop Note：網上

spark學習1——配置hadoop 單機模式並執行WordCount例項（ubuntu14.04 & hadoop 2.6.0）

1. 安裝SSH hadoop是採用SSH進行通訊的，此時要設定密碼為空，即不需要密碼登陸，免去每次登陸時都要輸入密碼，當叢集較大時該步驟顯得尤為重要。 $ sudo apt-get install ssh 安裝完成後啟動服務： $ /etc/init.

Gem5在全系統(FS)模式下執行自己的測試程式

上一篇文章講了怎麼用Gem5構建和啟動FS模式,這一次想看看怎麼在模擬的環境中測試自己的程式. 我這裡還是用的上次提到的X86的環境,整體過程是以下幾個步驟: 1.掛載映象 ypf@ypf-PC:~/ws$ sudo mount -o,loop,o

在Windows下用Eclipse開發和執行Spark程式

我們想現在windows環境下開發除錯好spark程式，然後打包，最後放到linux spark叢集環境去執行。 Windows環境準備 Windows本地測試執行打包為了可以選擇哪些第三方庫打進jar包，我們需要安裝Fat Jar

linux 下執行C程式

#include<stdio.h> int main(){ int a=100,b=25; if(a>b) printf(" The high value is %d\n",a); else printf(" Th

HA模式下的java api訪問要點

在非HA架構的HDFS中，客戶端要通過java介面呼叫HDFS時一般是在JobRunner的類中按照下面的方式：因為nodename只有一個節點所以會在程式碼中顯式的指明要連線哪一個節點；但是在HA模式下有兩臺namenode節點，並不能按照這種方式，而是下面的方式：其中的ns就是namese

Linux下執行c++程式

1.建立hello.cpp檔案 vi hello.cpp 2.程式程式碼 #include<iostream> using namespace std; int main() { cout << "Hello World!" << endl;

如何在無頭模式下執行WebDriver？

如何在無頭模式下執行WebDriver？如果您的CI工具（例如Jenkins）不支援UI，則可能需要這樣做。在無頭模式下執行WebDriver自動測試在測試執行速度和更輕鬆地整合到CI管道方面具有優勢。下面，我們將使用PhantomJS和ChromeDriver以無頭模式執行Sel

如何在無頭模式下執行WebDriver ？

Eclipse IDE 使用Java語言執行Spark程式

簡單記錄下遇到的坑一、新增/usr/local/spark-2.3.1-bin-hadoop2.7/lib下所有jar包（若是Scala語言也需要新增這些庫）二、設定執行URI或本地模式三、建立new_configuration 參考https

Java API 訪問HA模式下的HDFS叢集

在使用Hadoop Java API訪問HDFS叢集時，在建立FileSystem物件時，直接指定NameNode的IP以及埠號即可。但是在HA模式下，訪問HDFS叢集卻有一些不同，需要指定NameSpace和主備NameNode的IP以及埠等資訊，具體操作方式見如下程式碼： Configura

在myeclipse上連線hadoop-2.8.0 執行mapreduce程式

首先 hadoop叢集是要先搭建的沒的說。可以先在hadoop上執行自帶的mapreduce jar包，跑一下，不成功說明配置檔案沒有配置好，這裡就不說配置哪些了，網上很多。 1.在windows下下載hadoop-2.8.0.tar.gz 並且解壓 2.下載 &n

redis使用管道和普通模式下執行效率的對比

1 普通模式 $redis = new Redis; $redis->connect("127.0.0.1","6379"); $redis->auth("123456"); for($i=0;$i<10000;$i++){

hadoop 2.2.0 執行MapReduce程式

環境： 2臺虛擬機器搭建Hadoop環境系統Fedora 10 Hadoop 2.2.0 準備工作： 1、Hadoop 2.2.0 環境配置執行 2、建立Hdfs的輸入資料夾和輸入檔案： hadoop fs -copyFromLoca

Linux在命令列模式下執行命令

Linux系統登入環境在Linux預設的登入的模式中，主要分為兩種，一種是純文字介面的登入環境，另一種則是圖形介面的登入環境。 ●Linux預設提供6個終端介面來讓使用者登入，切換的方式為：[Ctrl]+[Alt]+[F1]~[F6]。系統會按[F1]~[

Hadoop HA 模式下執行spark 程式

相關推薦