1. 程式人生 > >kettle 資料流合併,新增方法

kettle 資料流合併,新增方法

網上參考了大量方法,有的不知所云,有的版本較低已不再合適,最近的專案中用到了這個經過一天多實驗思考終於解決了,在此分享出來

1,首先表輸入裡新增兩個資料庫,我這兒是mysql和hive的資料庫連線


然後新增合併記錄,裡面這麼配置



這兒要注意,標緻欄位可以用預設,等會要用到

2,新增過濾記錄


其中一定要配置上面的標準欄位


然後資料資料流就可以了

這兒為什麼要這麼過濾呢,原因是我再debug時發現的


合併標識這兒會將重複的直接標識為deleted,我就想能否用過濾來過濾掉資料,最後成功了

但我第二天測試時發現有問題,資料新的還是deleted標識,然後我找到了這個


而且在輸出hadoop時一定要按下最小寬度,不然在重複取hive的資料時會出現匹配問題


所以現在不用再過濾記錄了……

附上整個流程圖