HadoopDB叢集配置方法

阿新 • • 發佈：2019-02-10

Author:謝

本文介紹在2個節點上安裝配置HadoopDB方法。各節點的名稱分別為Cluster01(192.168.0.1)，Cluster02(192.168.0.2)。

以下若是用 [email protected]:~ 代表 Cluster01 ~ Cluster02 都要做的.

1 首先在各節點上安裝Hadoop-0.20.2，參考此文。

2 各節點安裝設定 PostgreSQL：

安裝併為資料庫建立 hadoop 帳號，假定使用密碼為 1234
[email protected]:~$ sudo apt-get install postgresql
[email protected]

:~$ sudo vim /etc/postgresql/8.4/main/pg_hba.conf
- #local   all         all                               ident
  local   all         all                               trust
  # IPv4 local connections:
  #host    all         all         127.0.0.1/32          md5
  host    all         all         127.0.0.1/32          password
  host    all         all         192.168.0.1/24          password            # 加上Cluster 機器 IP 範圍
  # IPv6 local connections:
  #host    all         all         ::1/128               md5
  host    all         all         ::1/128               password
[email protected]:~$ sudo /etc/init.d/postgresql-8.4 restart
[email protected]:~$ sudo su - postgres
[email protected]:~$ createuser hadoop
- Shall the new role be a superuser? (y/n) y
  [email protected]:~$ psql
  psql (8.4.2)
  Type "help" for help.
  
  postgres=# alter user hadoop with password '1234';
  ALTER ROLE
  postgres=# /q
測試其他機器可否連線
- [email protected]:~$ createdb testdb
- [email protected]:~$ psql -h Cluster01 testdb
  - 如果能夠連線上，則出現以下提示：
    - 口令:
      psql (8.4.2)
      SSL connection (cipher: DHE-RSA-AES256-SHA, bits: 256)
      Type "help" for help.
      
      testdb=#

3 設定HadoopDB

[email protected]:~$ cp hadoopdb.jar HADOOP_HOME/lib/ [email protected]:~$ cp postgresql-8.4-701.jdbc4.jar HADOOP_HOME/lib/ [email protected]:~$ vim HADOOP_HOME/conf/core-site.xml

core-site.xml 檔案中新增以下內容：
<property>
<name>hadoopdb.config.file</name>
<value>HadoopDB.xml</value>
<description>The name of the HadoopDB cluster configuration file</description>
</property>

<property>
<name>hadoopdb.fetch.size</name>
<value>1000</value>
<description>The number of records fetched from JDBC ResultSet at once</description>
</property>

<property>
<name>hadoopdb.config.replication</name>
<value>false</value>
<description>Tells HadoopDB Catalog whether replication is enabled.
Replica locations need to be specified in the catalog.
False causes replica information to be ignored.</description>
</property>

[email protected]:~$ vim nodes.txt 將叢集中的所有節點IP寫入此檔案：

192.168.0.1
192.168.0.2

[email protected]:~$ vim Catalog.properties

#Properties for Catalog Generation
##################################
nodes_file=nodes.txt
# Relations Name and Table Name are the same
relations_unchunked=raw
relations_chunked=poi
catalog_file=HadoopDB.xml
##
#DB Connection Parameters
##
port=5432
username=hadoop
password=1234
driver=org.postgresql.Driver
url_prefix=jdbc/:postgresql/://
##
#Chunking properties
##
# the number of databases on a node
chunks_per_node=2
# for udb0 ,udb1 ( 2 nodes = 0 ~ 1 )
unchunked_db_prefix=udb
# for cdb0 ,cdb1, ... , cdb5 (2 nodes x 3 chunks = 0~5 )
chunked_db_prefix=cdb
##
#Replication Properties
##
dump_script_prefix=/root/dump_
replication_script_prefix=/root/load_replica_
dump_file_u_prefix=/mnt/dump_udb
dump_file_c_prefix=/mnt/dump_cdb
##
#Cluster Connection
##
ssh_key=id_rsa-gsg-keypair

[email protected]:~$ java -cp lib/hadoopdb.jar edu.yale.cs.hadoopdb.catalog.SimpleCatalogGenerator Catalog.properties

產生的 HadoopDB.xml 類似下面：
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>

    <Nodes Password="1234" Username="hadoop" Driver="org.postgresql.Driver" Location=" 192.168.0.1 ">
        <Relations id="raw">
            <Partitions url="jdbc:postgresql:// 192.168.0.1 :5432/udb0" id="0"/>
        </Relations>
        <Relations id="poi">
            <Partitions url="jdbc:postgresql:// 192.168.0.1 :5432/cdb0" id="0"/>
            <Partitions url="jdbc:postgresql:// 192.168.0.1 :5432/cdb1" id="1"/>
        </Relations>
    </Nodes>
    <Nodes Password="1234" Username="hadoop" Driver="org.postgresql.Driver" Location=" 192.168.0.2 ">
        <Relations id="raw">
            <Partitions url="jdbc:postgresql:// 192.168.0.2 :5432/udb1" id="1"/>
        </Relations>
        <Relations id="poi">
            <Partitions url="jdbc:postgresql:// 192.168.0.2 :5432/cdb2" id="2"/>
            <Partitions url="jdbc:postgresql:// 192.168.0.2 :5432/cdb3" id="3"/>
        </Relations>
    </Nodes>
</DBClusterConfiguration>

將HadoopDB.xml放入HDFS中： [email protected]:~$ hadoop dfs -put HadoopDB.xml HadoopDB.xml

4 資料載入

在此以 raw 這個 talbe 當作例子進行講解。根據前面HadoopDB.xml的內容，叢集中的兩個節點，第一個節點的資料庫名稱為udb0 ，第二個節點為udb1，首先分別建立這兩個資料庫：

[email protected]:~$ createdb udb0
[email protected]:~$ createdb udb1

在對應資料庫上建立raw 這個table：

[email protected]:~$ psql udb0
udb0=#
CREATE TABLE raw (
ID int,
NAME varchar(300)
);
同理如 Cluster02

先將本地檔案系統中的資料put到HDFS中： $ hadoop fs -put localfile input_in_hdfs/ 資料切割：使用 HadoopDB 所提供的切割工具將資料切割成n份(一般，n是叢集有節點數目)，以下例子中：n=2，每一份資料的分割符是'/n':
$ hadoop jar lib/hadoopdb.jar edu.yale.cs.hadoopdb.dataloader.GlobalHasher input_in_hdfs out_in_hdfs 2 '/n' 0 在各個節點上，將切割後的資料，從hdfs中傳到各個節點的本地檔案系統中: $ hadoop fs -get out_in_hdfs/part-00000 /home/hadoop/p0 將本地檔案載入到資料庫中：
[email protected]:~$ psql udb0
udb0=# COPY RAW FROM '/home/hadoop/p0' WITH DELIMITER E'/t' ; 同理如 Cluster02

5 SMS安裝配置

第3步下載的hadoopdb解壓後包含SMS_dist.tar.gz資料夾。

SMS的安裝方法很簡單：首先將其解壓，然後開啟bin目錄下的hive-config.sh檔案，再最後加上一句：

export HADOOP_HOME="此處寫hadoop的安裝路徑"。

然後在hive上建立上面raw這個table對應的資料庫：假設 Hive 使用的資料將儲存在 HDFS 的 /db [email protected]:~ $ hadoop dfs -mkdir /db [email protected]:~ $ SMS_dist/bin/hive
CREATE EXTERNAL TABLE raw (
ID int,
NAME string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
STORED AS
INPUTFORMAT 'edu.yale.cs.hadoopdb.sms.connector.SMSInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/db/raw'; /db/raw中的raw是指table的名稱

5 以上設定完後，即可在一臺機器上(Ex: Cluster1) 執行 $ SMS_dist/bin/hive 看看成果

[email protected]:~ $ SMS_dist/bin/hive
hive> show tables;
hive> select name from raw;

HadoopDB叢集配置方法

HadoopDB叢集配置方法

NGINX+TOMCAT搭建高效能負載均衡叢集配置方法

Resin 多站點叢集配置方法

weblogic tomcat 叢集配置方法(轉)軟體層次上的分散式與叢集

centos7.5+mysql主主叢集+keepalived+郵件報警配置方法

hadoop叢集配置無密碼登陸啟動關閉namenode輸入密碼的解決方法

springmvc和json整合配置方法

Linux操作系統下/etc/hosts文件配置方法

j2ee監聽器的實現及配置方法

phpunit 生成三種日誌文件的配置方法

Python的Flask框架使用Redis做數據緩存的配置方法

Windows訪問Linux下的共享目錄的配置方法

【STORAGE】Qlogic FC存儲交換機cmd配置方法

Spring之AOP在XML中的配置方法

PPP的兩種配置方法（pap和chap）

mongodb切片配置方法

cmake安裝mysql及多實例配置方法

Spring-boot之jQuery File Upload後臺配置方法

mysql-5.7.13-winx64 免安裝版配置方法

Spring+Quartz實現定時任務的配置方法

HadoopDB叢集配置方法

相關推薦