1. 程式人生 > >kettle案例六資料表關聯--排序記錄-記錄集連線-過濾記錄

kettle案例六資料表關聯--排序記錄-記錄集連線-過濾記錄

如果我們清洗的資料是多個維度的,那麼很有可能對資料進行關聯得到一張最終表進行分析。
比如
回答集合的資料裡有如下欄位
id optionId user
包含了 誰 回答了哪個問題,選項是什麼。

選項集合的資料裡有如下欄位
id question option

我們最終希望得到的資料集合是
id question option user

那麼就需要對兩個集合進行關聯
新建流程如下:

排序記錄

排序記錄只需要指定排序欄位和方向即可,其他臨時目錄可以使用預設目錄。

記錄集連線

記錄集連線可以實現資料集合的關聯,也分為內連線,左連線,右連線,外連線。
我們

這裡以使用者回答為主表,則選擇左連線即可。
連線欄位就是集合一與集合二哪個欄位相等時合併成一條記錄。
這裡是回答集合的optionId和選項集合的id

過濾記錄

把兩個集合連線關聯起來之後我們發現有些髒資料存在,就是一些老的使用者回答沒有對應的問題和選項,那麼這部分資料我們是不存入資料庫的,則在入庫之前需要對資料進行過濾。
新建過來記錄流程如下:

填寫過濾的條件即可。
我們這裡判斷條件是
option 不為空時 為true,然後把為true的資料傳送到下一步MongoDB Output裡。
如下: