kettle安裝以及執行注意事項
問題0:
解決辦法:
如果安裝了Oracle資料庫軟體,$ORACLE_HOME\jdbc\lib下的ojdbc5.jar ojdbc6.jar包copy到kettle安裝目錄\lib 下面。重新執行spoon程式。
建立資料庫連線: 資料庫名:為資料庫連線串@後的部分。
表空間:可以檢視需要同步的表的建表語句。
使用者名稱/密碼需要是該表空間的使用者
kettle配置oracle資料庫連線:
問題1:
個人安裝kettle遇到的問題:
連線hadoop叢集:
當 User Home Directory Access報錯,需要在hadoop 的 hdfs上建立
kettle 系統當前使用者名稱的資料夾, xshell登入到 Hadoop master 上,執行
hadoop fs -mkdir /user/你本機的使用者名稱 如我的就是 hadoop ,所以執行
hadoop fs -mkdir /user/hadoop
右側hdfs的使用者名稱密碼是登陸hadoop所在伺服器的linux的使用者名稱密碼:root/guanghua
下面的oozie這些地址和埠號可以在cdh中進入到對應的web管理頁面檢視到url地址,及對應的埠號
問題2:
連線hbase的時候:選擇完配置檔案之後點選get table name會彈出下面的錯誤,uknown host。
解決方案:在選擇hbase-site.xml的檔案目錄中新增:file:/// 即可或者/
或者\都可以
linux環境下:不需要新增file:///
連線hbase以及建立hbase 傳輸過程
我用的是Kettle7.0
第一步:
準備好資料:資料可以是文字,表...
第二步:配置Hadoop
點選測試:
通過即可。
第三步:配置 HBase Output
第一步:
配置好的hadoop匯入
第二步:
圖中第三步:Mappingname 名字可以隨便起。
圖中低五步:把'key'的值改為Y 去掉'Columnfamily' 和 'Column name' 的值 ,'type'改為String
第三步:
在重新開啟獲取圖中資料,點選確定即可。
第四步:
完成。
問題3:
kettle連線hbase大資料環境的時候,在圖形介面資料可以寫入到hbase以及hdfs,但是在用pan/Kitchen命令執行的時候,就會出現,hbase資料無法寫入也不報明顯錯誤。寫入hdfs時日誌打出路徑為:file:F/kettle/data_file?hdfs:hadoop1:8020/user/dalong/data的本地路徑下:
解答:經測試,發現使用檔案資源庫,以及不使用資源庫的時候會出現這種情況,具體原因還不清楚。
將資源庫改為資料庫資源庫的時候,資料就寫入正常沒有問題。
pan.bat -rep=ywgl_Repository -user=admin -pass=admin-trans=orc_to_hbase_test -level=Rowlevel >F:\kettle\Kettle_workspace\hbase_Repository\test2.log pause;
Kitchen.bat -rep=hbase_Repository -user=admin-pass=admin -job=orc2hbase_ywgl_task_info -level=Rowlevel >F:\kettle\Kettle_workspace\hbase_Repository\test2.log pause;
問題4:
2017/09/11 10:37:40 - orc_to_hbase_test - 步驟 [表輸入 2.0] 初始化不完全,有缺陷.
2017/09/11 10:37:40 - orc_to_hbase_test - 步驟 [Hadoop File Output.0] 初始化不完全,有缺陷.
解答:
這種log出現並不影響job的執行,
但是具體出現的原因還沒有找到。