Pentaho Work with Big Data（八）—— kettle叢集

阿新 • • 發佈：2019-01-18

一、簡介
叢集技術可以用來水平擴充套件轉換，使它們能以並行的方式執行在多臺伺服器上。轉換的工作可以平均分到不同的伺服器上。
一個叢集模式包括一個主伺服器和多個子伺服器，主伺服器作為叢集的控制器。簡單地說，作為控制器的Carte伺服器就是主伺服器，其他的Carte伺服器就是子伺服器。
一個叢集模式也包含元資料，元資料描述了主伺服器和子伺服器之間怎樣傳遞資料。在Carte伺服器之間通過TCP/IP套接字傳遞資料。

二、環境
4臺CentOS release 6.4虛擬機器，IP地址為
192.168.56.104
192.168.56.102
192.168.56.103

192.168.56.104作為主Carte。
192.168.56.102、192.168.56.103作為子Carte。
192.168.56.104、192.168.56.102、192.168.56.103分別安裝Pentaho的PDI，安裝目錄均為/home/grid/data-integration。

PDI版本：6.0

三、配置靜態叢集

1. 建立子伺服器
（1）開啟PDI，新建一個轉換。
（2）在“主物件樹”標籤的“轉換”下，右鍵點選“子伺服器”，新建三個子伺服器。如圖1所示。

圖1

說明：
. master、slave1、slave2的配置分別如圖2、圖3、圖4所示。

圖2

圖3

圖4

. “使用者名稱”和“密碼”項在各自子伺服器的/home/grid/data-integration/pwd/kettle.pwd檔案中定義，如圖5所示。

圖5

2. 建立叢集模式
在“主物件樹”標籤的“轉換”下，右鍵點選“Kettle叢集Schemas”，新建一個名為“cluster”叢集模式。如圖6所示。

圖6

說明：
. cluster的配置如圖7所示。

圖7

. 叢集模式中加入了上一步建立的一主兩從Carte子伺服器。

3. 編輯轉換
（1）建立轉換如圖8所示。

圖8

說明：
. 這個轉換的詳細配置參考http://blog.csdn.net/wzy0623/article/details/51160948中的“把資料從Hive抽取到RDBMS”。
. 右鍵點選“Table output”，選擇彈出選單裡的“叢集...”，如圖9所示。

圖9

. 在彈出視窗中選擇上一步建立的叢集模式“cluster”後，點選確定，如圖10所示。

圖10

此時會看到“Table output”步驟的右上角出現“Cx2”標誌，如圖8的紅框中所示，說明此步驟在叢集的兩個子伺服器上執行。
. “Table input”沒有叢集標誌，說明此步驟在主伺服器上執行。

4. 執行與監控
（1）在192.168.56.104上執行下面的命令啟動master。

cd /home/grid/data-integration/
./carte.sh 192.168.56.104 8181

（2）在192.168.56.102上執行下面的命令啟動slave1。

cd /home/grid/data-integration/
./carte.sh 192.168.56.102 8181

（3）在192.168.56.103上執行下面的命令啟動slave2。

cd /home/grid/data-integration/
./carte.sh 192.168.56.103 8181

（4）儲存並執行轉換，如圖11所示，選擇“叢集方式執行”，勾選“提交轉換”、“準備執行”、“開始執行”三項，然後點選“啟動”執行轉換。

圖11

（5）右鍵點選“cluster”，選擇彈出選單中的“Monitor all slave servers”，如圖12所示。

圖12

（6）轉換成功執行後，會在監控標籤中看到執行資訊，如圖13到15所示。

圖13

圖14

圖15

從圖13可以看到，“Table input”步驟在master執行，從hive表讀取36616行記錄，向“Table output”步驟輸出36616行記錄。
從圖14、圖15可以看到，“Table output”步驟分別在兩個子伺服器slave1、slave2上執行，各自讀取了18308行記錄，並分別向mysql表寫了18308行記錄。此時檢視mysql表，共寫入了36616行記錄。如圖16所示。

圖16

四、配置動態叢集
1. 建立子伺服器，這步和配置靜態叢集相同。

2. 建立叢集模式
在“主物件樹”標籤的“轉換”下，右鍵點選“Kettle叢集Schemas”，新建一個名為“cluster_dynamic”叢集模式。如圖17所示。

圖17

說明：
. cluster_dynamic的配置如圖18所示。

圖18

. 與配置靜態叢集不同，這裡只加入了master。

3. 編輯轉換
（1）建立轉換如圖19所示。

圖19

說明：
. 這個轉換的詳細配置參考http://blog.csdn.net/wzy0623/article/details/51160948中的“把資料從Hive抽取到RDBMS”。
. 右鍵點選“Table output”，選擇彈出選單裡的“叢集...”，如圖9所示。
. 在彈出視窗中選擇上一步建立的叢集模式“cluster_dynamic”後，點選確定，如圖20所示。

圖20

此時會看到“Table output”步驟的右上角出現“CxN”標誌，如圖19的紅框中所示，說明此步驟在叢集的兩個子伺服器上執行。
. “Table input”沒有叢集標誌，說明此步驟在主伺服器上執行。

4. 執行與監控
（1）在192.168.56.104上編輯/home/grid/data-integration/pwd/carte-config-8181.xml檔案，內容如下：

<slave_config>
 <slaveserver>
   <name>master</name>
   <hostname>192.168.56.104</hostname>
   <port>8181</port>
   <username>cluster</username>
   <password>mypassword</password>
   <master>Y</master>
 </slaveserver>
</slave_config>

（2）在192.168.56.102上編輯/home/grid/data-integration/pwd/carte-config-8181.xml檔案，內容如下：

<slave_config>
  <masters>
    <slaveserver>
      <name>master</name>
      <hostname>192.168.56.104</hostname>
      <port>8181</port>
      <username>cluster</username>
      <password>mypassword</password>
      <master>Y</master>
    </slaveserver>
  </masters>

  <report_to_masters>Y</report_to_masters>

  <slaveserver>
    <name>slave1</name>
    <hostname>192.168.56.102</hostname>
    <port>8181</port>
    <username>cluster</username>
    <password>mypassword</password>
    <master>N</master>
  </slaveserver>
</slave_config>

（3）在192.168.56.103上編輯/home/grid/data-integration/pwd/carte-config-8181.xml檔案，內容如下：

<slave_config>
  <masters>
    <slaveserver>
      <name>master</name>
      <hostname>192.168.56.104</hostname>
      <port>8181</port>
      <username>cluster</username>
      <password>mypassword</password>
      <master>Y</master>
    </slaveserver>
  </masters>

  <report_to_masters>Y</report_to_masters>

  <slaveserver>
    <name>slave2</name>
    <hostname>192.168.56.103</hostname>
    <port>8181</port>
    <username>cluster</username>
    <password>mypassword</password>
    <master>N</master>
  </slaveserver>
</slave_config>

（4）執行下面的命令啟動master。

cd /home/grid/data-integration/
./carte.sh pwd/carte-config-8181.xml

master啟動之後，啟動slave。
（5）在192.168.56.102上執行下面的命令啟動slave1。

cd /home/grid/data-integration/
./carte.sh pwd/carte-config-8181.xml

（6）在192.168.56.103上執行下面的命令啟動slave2。

cd /home/grid/data-integration/
./carte.sh pwd/carte-config-8181.xml

（7）儲存並執行轉換，如圖21所示，選擇“叢集方式執行”，勾選“提交轉換”、“準備執行”、“開始執行”三項，然後點選“啟動”執行轉換。

圖21

（5）右鍵點選“cluster”，選擇彈出選單中的“Monitor all slave servers”，如圖12所示。
（6）轉換成功執行後，會在監控標籤中看到執行資訊，如圖22到24所示。

圖22

圖23

圖24

從圖23可以看到，“Table input”步驟在master執行，從hive表讀取36616行記錄，向“Table output”步驟輸出36616行記錄。
從圖23可以看到，“Table output”步驟分別在動態子伺服器slave1執行，讀取了18308行記錄，並向mysql表寫了18308行記錄。
從圖24可以看到，“Table output”步驟分別在動態子伺服器slave2執行，讀取了18308行記錄，並向mysql表寫了18308行記錄。
此時檢視mysql表，共寫入了36616行記錄。如圖16所示。

參考：
Kettle解決方案：使用PDI構建開源ETL解決方案

Pentaho Work with Big Data（八）—— kettle叢集

Pentaho Work with Big Data（八）—— kettle叢集

【專欄】- Pentaho Work with Big Data

kettle學習筆記（八）——kettle查詢步驟與連接步驟

（八）Redis叢集常用命令、叢集節點新增刪除

《Hadoop》之"踽踽獨行"（八）Hadoop叢集的啟動指令碼整理及守護執行緒原始碼

Apache shiro叢集實現（八） web叢集時session同步的3種方法

Android開發教程 - 使用Data Binding（八）使用自定義Interface

MongoDB進階（八）Spring整合MongoDB（Spring Data MongoDB）

解壓縮模組zipfile — Work with ZIP archives（檔案檔案）

Notes on tensorflow（八）read tfrecords with slim

設計模式學習總結（八）策略模式(Strategy)

機器學習筆記（八）非線性變換

學習MVC之租房網站（八）- 前臺註冊和登錄

黑盒測試用例設計-功能圖法和場景法（八）

Python（八）之函數

自然語言交流系統 phxnet團隊創新實訓項目博客（八）

uml系列（八）——部署圖與構件圖

webots自學筆記（八）麥克納母輪移動機器人平臺，可控制攝像頭視角

網絡命令（八）

Hibernate（八）：基於外鍵映射的1-1關聯關系

Pentaho Work with Big Data（八）—— kettle叢集

相關推薦