宜信開源|大資料虛擬混算平臺Moonbox配置指南

阿新 • • 發佈：2019-07-10

三、解壓

tar -zxvf moonbox-assembly_2.11-0.3.0-beta-dist.tar.gz

四、修改配置檔案

配置檔案位於conf目錄下

step 1: 修改slaves

  mv slaves.example slaves
  vim slaves

將會看到如下內容:

  localhost

請根據實際情況修改為需要部署worker節點的地址, 每行一個地址

step 2: 修改moonbox-env.sh

  mv moonbox-env.sh.example moonbox-env.sh
  chmod u+x moonbox-env.sh
  vim moonbox-env.sh

將會看到如下內容:

  export JAVA_HOME=path/to/installed/dir
  export SPARK_HOME=path/to/installed/dir
  export YARN_CONF_DIR=path/to/yarn/conf/dir
  export MOONBOX_SSH_OPTS="-p 22"
  export MOONBOX_HOME=path/to/installed/dir
  # export MOONBOX_LOCAL_HOSTNAME=localhost
  export MOONBOX_MASTER_HOST=localhost
  export MOONBOX_MASTER_PORT=2551

請根據實際情況修改

step 3: 修改moonbox-defaults.conf

  mv moonbox-defaults.conf.example moonbox-defaults.conf
  vim moonbox-defaults.conf

將會看到以下內容,其中:

catalog

配置元資料儲存位置, 必須修改, 請根據實際情況修改

rest

配置rest服務, 按需修改

配置tcp(jdbc)服務, 按需修改

local

配置Spark Local模式作業, 值為陣列, 有多少個元素表示每個Worker節點啟動多少個Spark Local模式作業。如不需要可刪除。

cluster

配置Spark yarn模式作業, 值為陣列, 有多少個元素表示每個Worker節點啟動多少個Spark Yarn模式作業。如不需要可刪除。

  moonbox {
  deploy {
      catalog {
          implementation = "mysql"
          url = "jdbc:mysql://host:3306/moonbox?createDatabaseIfNotExist=true"
          user = "root"
          password = "123456"
          driver = "com.mysql.jdbc.Driver"
      }
      rest {
          enable = true
          port = 9099
          request.timeout = "600s"
          idle.timeout= "600s"
      }
      tcp {
          enable = true
          port = 10010
      }
  }
  mixcal {
      pushdown.enable = true
      column.permission.enable = true
      spark.sql.cbo.enabled = true
      spark.sql.constraintPropagation.enabled = false

      local = [{}]
      cluster = [{
        spark.hadoop.yarn.resourcemanager.hostname = "master"
        spark.hadoop.yarn.resourcemanager.address = "master:8032"
        spark.yarn.stagingDir = "hdfs://master:8020/tmp"
        spark.yarn.access.namenodes = "hdfs://master:8020"
        spark.loglevel = "ERROR"
        spark.cores.max = 2
        spark.yarn.am.memory = "512m"
        spark.yarn.am.cores = 1
        spark.executor.instances = 2
        spark.executor.cores = 1
        spark.executor.memory = "2g"
      }]
  }
  }

optional: 如果HDFS 配置了高可用(HA)、或者HDFS 配置了kerberos、或者YARN 配置了高可用(HA)、或者YARN 配置了kerberos

將cluster元素中相關部分改為以下配置, 請根據實際情況修改。具體值可查閱hdfs配置檔案和yarn配置檔案。

  #### HDFS HA ####
  spark.hadoop.fs.defaultFS="hdfs://service_name"
  spark.hadoop.dfs.nameservices="service_name"
 spark.hadoop.dfs.ha.namenodes.service_name="xxx1,xxx2"
  spark.hadoop.dfs.namenode.rpc-address.abdt.xxx1="xxx1_host:8020"
  spark.hadoop.dfs.namenode.rpc-address.abdt.xxx2="xxx2_host:8020"
  spark.hadoop.dfs.client.failover.proxy.provider.abdt="org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
  spark.yarn.stagingDir = "hdfs://service_name/tmp"

  #### HDFS kerberos ####
  dfs.namenode.kerberos.principal = ""
  dfs.namenode.kerberos.keytab = ""

  #### YARN HA ####
  spark.hadoop.yarn.resourcemanager.ha.enabled=true
  spark.hadoop.yarn.resourcemanager.ha.rm-ids="yyy1,yyy2"
 spark.hadoop.yarn.resourcemanager.hostname.rm1="yyy1_host"
  spark.hadoop.yarn.resourcemanager.hostname.rm2="yyy2_ho
st"

  #### YARN kerberos ####
  spark.yarn.principal = ""
  spark.yarn.keytab = ""

五、分發安裝包

將MySQL Jdbc驅動包放置到libs和runtime目錄下, 然後將整個moonbox安裝目錄拷貝到所有安裝節點, 確保位置與主節點位置一致。

六、啟動叢集

在master節點執行

   sbin/start-all.sh

七、停止叢集

在master節點執行

   sbin/stop-all.sh

八、檢查叢集是否成功啟動

在master節點執行如下命令, 將會看到 MoonboxMaster 程序

   jps | grep Moonbox

在worker節點執行如下命令, 將會看到 MoonboxWorker 程序

   jps | grep Moonbox

在worker節點執行如下命令, 將會看到與配置檔案對應個數的 SparkSubmit 程序

   jps -m | grep Spark

使用moonbox-cluster命令檢視叢集資訊

   bin/moonbox-cluster workers
   bin/moonbox-cluster apps

如果檢查通過, 則叢集啟動成功, 即可參閱examples部分開始體驗啦。如果檢查失敗, 可通過檢視master節點或者worker節點上logs目錄下的日誌進行問題排查。

開源地址：https://github.com/edp963/moonbox

拓展閱讀：資料虛擬化即服務（DVtaaS）平臺解決方案 - Moonbox 宜信開源|Moonbox_v0.3_beta重大發布 | Grid全新重構，更快更解耦

來源

宜信開源|大資料虛擬混算平臺Moonbox配置指南

三、解壓 tar -zxvf moonbox-assembly_2.11-0.3.0-beta-dist.tar.gz 四、修改配置檔案配置檔案位於conf目錄下 step 1: 修改slaves mv slaves.example slaves vim slaves 將會看到如下內容:

宜信開源|一個例項解析PaaS平臺LAIN的9大殺手級功能

一、基於Docker的PaaS平臺LAIN 在金融的場景下，LAIN 是為解放各個團隊和業務線的生產力而設計的一個雲平臺。LAIN

一共81個，開源大資料處理工具彙總（下）

日誌收集系統　　一、Facebook Scribe 　　貢獻者：Facebook 　　簡介：Scribe是Facebook開源的日誌收集系統，在Facebook內部已經得到大量的應用。它能夠從各種日誌源上收集日誌，儲存到一箇中央儲存系統（可以是NFS，分散式檔案系

詳解開源大資料引擎Greenplum的架構和技術特點

作者：周雷皓，百度外賣大資料工程師，本文為《程式設計師》原創文章，未經允許不得轉載，更多精彩文章請訂閱《程式設計師》本文介紹了大資料引擎Greenplum的架構和部分技術特點。從GPDB基本背景開始，在架構的層面上講解GPDB系統內部各個模組的概貌，然

開源大資料利器彙總

類別名稱官網備註查詢引擎 Phoenix Salesforce公司出品，Apache HBase之上的一個SQL中間層，完全使用Java編寫 Kylin eBay開源的

一共81個，開源大資料處理工具彙總

http://www.cnblogs.com/AloneSword/p/4874112.html http://www.cnblogs.com/AloneSword/p/4874114.html 查詢引擎

10款超好用的開源大資料分析工具

現如今，整個網際網路已經進入大資料時代，“大資料”一詞的重點現也已經不僅在於資料規模的定義，它更代表著資訊科技發展進入了一個新的里程，代表著爆炸性的資料資訊給傳統的計算技術和資訊科技帶來的技術挑戰和困難，代表著大資料處理所需的新的技術和方法，也代表著大資料分析和應用所帶來的

一共81個，開源大資料處理工具彙總（下）（轉）

接上一部分：一共81個，開源大資料處理工具彙總（上），第二部分主要收集整理的內容主要有日誌收集系統、訊息系統、分散式服務、叢集管理、RPC、基礎設施、搜尋引擎、Iaas和監控管理等大資料開源工具。日誌收集系統一、Facebook Scribe 貢獻者

一共81個，開源大資料處理工具彙總（上）（轉）

本文一共分為上下兩部分。我們將針對大資料開源工具不同的用處來進行分類，並且附上了官網和部分下載連結，希望能給做大資料的朋友做個參考。下面是第一部分。查詢引擎一、Phoenix 貢獻者：：Salesforce 簡介：這是一個Java中間層，可以讓開發者在Apache HBase

開源大資料分析引擎Impala實戰筆記

第三章 Impala 概念及架構 3.1 Impala服務元件 3.1.1 Impala Deamon 該程序運行於叢集每個節點的守護程序，是Impala的核心元件，每個節點該程序的名稱為 impalad 。 > ps -ef|grep impalad

開源大資料引擎：Greenplum 資料庫架構分析

Greenplum 資料庫是最先進的分散式開源資料庫技術，主要用來處理大規模的資料分析任務，包括資料倉庫、商務智慧（OLAP）和資料探勘等。自2015年10月正式開源以來，受到國內外業內人士的廣泛關注。本文就社群關心的Greenplum資料庫技術架構進行介紹。一

開源|宜信開源專註業務邏輯的輕量級服務框架nextsystem4

經驗可選金融狀態 qqbot 集成理解 tom 其中宜信於2019年3月29日正式開源nextsystem4（以下簡稱“NS4”）系列模塊。此次開源的NS4系列模塊是圍繞當前支付系統笨重、代碼耦合度高、維護成本高而產生的分布式業務系統解決方案。NS4系列框架允許

宜信開源|數據庫審核軟件Themis的規則解析與部署攻略

類信息插入密碼指數 csdn 設置技術學 ORC setting 一、介紹 Themis是宜信公司DBA團隊開發的一款數據庫審核產品，可幫助DBA、開發人員快速發現數據庫質量問題，提升工作效率。其名稱源自希臘神話中的正義與法律女神。項目取此名稱，寓意此平臺對數據庫質

宜信開源|詳解PaaS平臺LAIN的功能和架構

宜信開源|詳解PaaS平臺LAIN的功能和架構 LAIN是宜信公司大資料創新中心開發的開源PaaS平臺。在金融的場景下，LAIN

宜信開源微服務任務排程平臺（SIA-TASK）

背景無論是網際網路應用或者企業級應用，都充斥著大量的批處理任務。常常需要一些任務排程系統幫助開發者解決問題。隨著微服務化架構的逐步演進，單體架構逐漸演變為分散式、微服務架構。在此的背景下，很多原先的任務排程平臺已經不能滿足業務系統的需求。於是出現了一些基於分散式的任務排程平臺。這些平臺各有

宜信開源|分散式任務排程平臺SIA-TASK的架構設計與執行流程

一、分散式任務排程的背景無論是網際網路應用或者企業級應用，都充斥著大量的批處理任務。我們常常需要一些任務排程系統來幫助解決問題。隨著微服務化架構的逐步演進，單體架構逐漸演變為分散式、微服務架構。在此背景下，很多原先的任務排程平臺已經不能滿足業務系統的需求，於是出現了一些基於分散式的任務排程

宜信開源|微服務任務排程平臺SIA-TASK入手實踐

引言最近宜信開源微服務任務排程平臺SIA-TASK，SIA-TASK屬於分散式的任務排程平臺，使用起來簡單方便，非常容易入手，部署搭建好SIA-TASK任務排程平臺之後，編寫TASK後配置JOB進行排程，進而實現整個排程流程。本文新建了JOB示例，該JOB關聯了前後級聯的兩個TASK，TASKONE(前置

宜信開源|資料庫稽核軟體Themis的規則解析與部署攻略

一、介紹 Themis是宜信公司DBA團隊開發的一款資料庫稽核產品，可幫助DBA、開發人員快速發現數據庫質量問題，提升工作效率。其名稱源自希臘神話中的正義與法律女神。專案取此名稱，寓意此平臺對資料庫質量公平判斷，明察秋毫。此平臺可實現對Oracle、MySQL資料庫進行多維度（物件結構、SQL文字、執行

宜信開源|漏洞管理平臺『洞察』部署指南

『洞察』——整合應用系統資產管理、漏洞全生命週期管理、安全知識庫管理三位一體的管理平臺。『洞察』使用了Python語言進行開發，

深度解析大快DKM大資料運維管理平臺功能

深度解析大快DKM大資料運維管理平臺功能之前幾周的時間一直是在圍繞DKhadoop的執行環境搭建寫分享，有一些朋友留言索要了dkhadoop安裝包，不知道有沒有去下載安裝一探究竟。關於DKHadoop下載安裝基本已經講清楚了，這幾天有點空閒把大快DKM大資料運維管理平臺的內容整理了一些，作

宜信開源|大資料虛擬混算平臺Moonbox配置指南

三、解壓

四、修改配置檔案

step 1: 修改slaves

step 2: 修改moonbox-env.sh

step 3: 修改moonbox-defaults.conf

五、分發安裝包

六、啟動叢集

七、停止叢集

八、檢查叢集是否成功啟動

相關推薦