1. 程式人生 > >ETL工具kettle原理簡介

ETL工具kettle原理簡介

一、kettle是什麼?

       一款國外開源的ETL工具,純JAVA編寫,無需安裝。

       Kettle 主要包含4個產品:

                 Spoon:kettle圖形設計工具(GUI)

Pan:transform執行器,可命令列執行transform,如:Pan /file  ***.ktr

Kitchen:Job執行器,可命令列執行Job,如 Kitchen /file ****.kjb

Carte: kettle提供的web server的程式,在kettle呼叫叢集(cluster)來進行分散式分發、處理任務的時候,可以開啟多個carte服務程序來進行分發ETL(master)任務和        接收,執行,提交ETL任務(slave)

二、kettle主要元件

   

   1、job

         JOB:實際上就是kettle中的任務流,用於呼叫transformation和其他JOB,由entry和hop組成。

         

jobEntry類圖:

   

其執行流程:

     

2 、transform

       組成部分:step 和 hop

     

     執行流程:

     

      step直接是通過資料流進行交換,包括一個rowMeta和一組data,其中rowMeta就是元資料,指定了每列資料的名稱和型別

             

              3、資源庫

       實際就是儲存所有產生的kjb、ktr和資料庫連線等其他檔案,kettle提供了檔案庫和資料庫兩種方式,主要區別就是一個是直接將產生的檔案儲存在資料夾下,一個是儲存在資料庫中。


相關推薦

ETL工具kettle原理簡介

一、kettle是什麼?        一款國外開源的ETL工具,純JAVA編寫,無需安裝。        Kettle 主要包含4個產品:                  Spoon:kettle圖形設計工具(GUI) Pan:transform執行器,可命令列執行tr

ETL工具Kettle簡介

什麼是Kettle Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上執行,綠色無需安裝,資料抽取高效穩定。 Kettle 中文名稱叫水壺,該專案的主程式設計師MATT 希望把各種資料放到一個壺裡,然後以一種指定的格式流出。 Kett

ETL工具Kettle數據的導入導出—Excel表到數據庫

data ttl 文件 啟動 連接 alt block 9.png etl 案例目的:當Excel中有幾萬條記錄或者更多數據時,使用Kettle導入到數據庫中。速度就能感到比復制粘貼快很多。 這裏我會演示將"data.xlsx"表中數據有15萬多條記錄,使用Kettle導

大數據之ETL工具Kettle的--1功能介紹

excel lin ice server 作業 rac 創造力 操作系統 pan   Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行。   說白了就是,很有必要去理解一般ETL工具必備的特性和功能,這樣才更好的掌握

ETL工具kettle的csv輸入和excel輸入

vpd 分享 類型 需要 點擊 選擇 其他 exc 搜索 實際工作中我們可能回經常將excel或者csv的數據導入到數據庫中,這裏講下怎麽通過kettle進行導入;首先說下這兩種格式的區別:CSV是文本文件,用記事本就能打開,XLS是二進制的文件只有用EXCEL才能打同時C

ETL工具kettle怎麽進行增量數據抽取:一、通過標誌位

text term ESS log 繼續 需要 roc 默認值 RoCE 在平時的操作過程中可能大家需要經常進行增量的數據抽取,方法有很多種,接下來幾天講給大家介紹幾種我本人經常使用的幾種方式;首先給大家介紹我最喜歡的一種,就是通過標誌位;操縱方法如下,在源表中增加一個標識

ETL工具kettle怎麽實現增量數據抽取:二 時間戳

字段 ima 數據抽取 最好 工具 water 增量 -o ket 再進行增量數據抽取的時候,通過標誌位來進行之外,還可以通過時間戳,所謂的時間戳就是某個時間字段,最好每條記錄的該字段都是非空的;這種方法很簡單,就是在輸入的時候增加where條件;where條件語句就是一個

ETL工具kettle的數據分發和復制的區別

疑惑 image text 朋友 完全 color water mage vpd 大家在實際 操作過程中可能會出現一個這樣的情況,當你將一個組件與另一個組件進行連接時,會出現一個告知框,如圖這時候會讓你選擇分發或者復制,這時候很多朋友會疑惑,這倆有啥區別呢;當你的目標組件是

ETL工具kettle簡單的性能調優

轉換 src roc 設置 color -o 雜項 fff nag 一般有 幾項1.雜項,這個是設置的前一個步驟到下個步驟的緩存,默認是10000操作為,進入轉換,右鍵點擊空白處或者雙擊空白處,單擊的話進入設置,會出現如圖選擇雜項,主要設置‘記錄集合裏的記錄數’,可以適當的

ETL工具kettle怎麽做定時任務

是你 root用戶 com kit roc 觸發 不同版本 兩種 win kettle做定時任務平時任務中經常需要用兩種方法;一、kettle自帶的功能。具體操作如下:首先形成一個job,然後點擊開始組件;結果如圖:當需要定時時,那麽就是需要重復;此時勾選重復選項,然後點擊

ETL工具kettle怎麽將多個轉換集成到一個作業中

順序 tar size 作業 ext watermark mar proc 很多 在實際工作中,經常會出現很多個轉換,這樣管理成本會很高,那麽這時就可以采取一種方式將這些轉換集成到一個作業之中,可以看一個現成的例子,如圖我們在這一個作業中集成了四個轉換,有一點需要說明,就是

ETL工具kettle怎麽進行錯誤定義

輸出 nag tex vpd 需要 是我 oss 51cto proc 在實際操作過程中,數據有可能會報錯,這時我們可能會需要進行錯誤定義,所謂的錯誤定義就是怎麽對錯誤進行錯誤處理,這裏解說一種很基礎的錯誤處理,就是把錯誤輸出:這是我的 一個實際業務操作,大家可以看到在這中

ETL工具kettle的幾個小組件(剪切字符串,增加常量,計算器)

src 增加 一個 png 位置 就是 進行 http text 接下來幾天給大家介紹下幾個常用的kettle組件1.剪切字符串所謂的剪切字符串,就類似於Oracle的substr函數,具體位置在某個轉換的核心對象-轉換中,如圖使用方法為--雙擊打開組件,選擇你要裁剪的流字

ETL工具kettle的幾個小插件(字符串替換,字段選擇,將字段值設置為常量)

sha oracle rac 正則 com 修改字符集 繼續 kettle 輸出 繼續給大家介紹幾個小組件:一、字符串替換這個功能類似於oracle的replace函數,就是將某個字段的某些字符替換成我們給定的字符首先,選擇【輸入流字段】,【輸出流字段】自己命名(就是用來保

ETL工具kettle的組件--生成記錄

組件 它的 proc pro ima 記錄 自己的 kettle -o 今天介紹下kettle的一個比較實用的組件——生成記錄;當我們想將一部分文本數據變成數據行,每個字段作為一個數據行的一個列,那麽我們可以利用這個組件;它的位置在雙擊點開根據自己的實際需要進行設置當設置後

ETL工具kettle入門

        ETL(Extract-Transform-Load的縮寫,即資料抽取、轉換、裝載的過程),對於企業或行業應用來說,我們經常會遇到各種資料的處理,轉換,遷移,所以瞭解並掌握一種etl工具的使用,必不可少。kettle是純java編寫,支援圖形化的GUI設計介面

ETL工具kettle基本使用

1.下載kettle:https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.0/pdi-ce-7.0.0.0-25.zip/download 說明:kettle 是pentaho收購的一個et

ETL工具-Kettle Spoon教程

一 。Kettle Spoon簡介      ETL(Extract-Transform-Load的縮寫,即資料抽取、轉換、裝載的過程),對於企業或行業應用來說,我們經常會遇到各種資料的處理,轉換,遷移,瞭解並掌握一種etl工具的使用,必不可少,支援圖形化的GUI設計介面,

ETL工具Kettle

轉載自 https://www.cnblogs.com/SunHuaJ/p/7593239.htmlETL是EXTRACT(抽取)、TRANSFORM(轉換)、LOAD(載入)的簡稱,實現資料從多個異構資料來源載入到資料庫或其他目標地址,是資料倉庫建設和維護中的重要一環也是工

ETL工具Kettle的基本使用

0.ETL簡介 ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將資料從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。 ETL包含了三方面: 抽取:將資料從各種原始的業務系統中讀