1. 程式人生 > >Kettle(Pentaho DataIntegration) 安裝Hadoop-2.2.0外掛

Kettle(Pentaho DataIntegration) 安裝Hadoop-2.2.0外掛

1安裝前的準備工作

   1.1 Pentaho Data Integration

當前的CE 版本Pentaho Data Integration 5.0.1,下載地址:

   1.2 Hadoop 2.2.0

下載最新穩定版本的Hadoop 2.2.0,下載地址:

安裝步驟

2.1 配置 PID Hadoop外掛

進入hadoop-configurations目錄下,複製chd42,並重命名為hadoop-2.2.0

並且清空client目錄下的jar包。完成後,將Hadoop安裝目錄下share目錄下的所有jar包複製到client目錄下,包括hadoop libjar包。清除client

同級別的jar中的protobuf-java-2.4.0.jar使用protobuf-java-2.5.0.jar替代。

2.2 新增配置

hadoop的安裝目錄下的配置檔案複製到PID的外掛hadoop-2.2.0 下,hadoop安裝路徑etc/hadoop/,重要的檔案包括:

core-site.xml,hdfd-site.xml,mapred-site.xml,yarn-site.xml,slaves等,到hadoop-2.2.0目錄下。

2.3 修改PID外掛的配置檔案

~/data-integration/plugins/pentaho-big-data-plugin目錄下,找到plugin.properties

檔案。修改一行資料:

    active.hadoop.configuration=hadoop-2.2.0



3.測試

測試這個配置是否成功,最簡單的方法是建立job任務。建立一個job, 新增開始按鈕和Hadoo copy File 元件。

點選瀏覽HDFS檔案按鈕,彈出框中配置Hadoop連結配置,點選Connect按鈕。如果成功的話,下面的面板中會顯示HDFS的樹形檔案結構。