1. 程式人生 > >kettle教程(1) 簡單入門、kettle簡單插入與更新。開啟kettle

kettle教程(1) 簡單入門、kettle簡單插入與更新。開啟kettle



本文要點:Kettle的建立資料庫連線、使用kettle進行簡單的全量對比插入更新:kettle會自動對比使用者設定的對比欄位,若目標表不存在該欄位,則新插入該條記錄。若存在,則更新。

Kettle簡介:Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上執行,資料抽取高效穩定。Kettle 中文名稱叫水壺,該專案的主程式設計師MATT 希望把各種資料放到一個壺裡,然後以一種指定的格式流出。Kettle這個ETL工具集,它允許你管理來自不同資料庫的資料,通過提供一個圖形化的使用者環境來描述你想做什麼,而不是你想怎麼做。Kettle中有兩種指令碼檔案

,transformation和job,transformation完成針對資料的基礎轉換,job則完成整個工作流的控制。(引用百度百科)

1、Kettle的下載與安裝(在本文中使用的kettle版本為6.1.0.1-196)

2、開啟kettle。

  首先解壓下載下來的壓縮包如:pdi-ce-6.1.0.1-196.zip

  然後開啟Spoon.bat,如圖所示:

  

  開啟後請耐心等待一會兒時間。

3、建立轉換。

  在檔案->新建裝換。

  新建轉換後在左邊的主物件樹中建立DB連線用以連線資料庫。如圖所示:

  

  建立資料庫連線的過程與其他資料庫管理軟體連線資料庫類似。

  注意:在資料庫連結的過程中,可能會報某個資料庫連線找不到的異常。那是因為你沒有對應的資料庫連結驅動,請下載對應驅動後,放入kettle的lib資料夾。

4、簡單的資料表插入\更新

  (1)新建表插入

  在左邊的面板中選擇“核心物件”,在核心物件裡面選擇“輸入->表輸入”,用滑鼠拖動到右邊面板。如圖所示:

  雙擊拖過來的表,可以編輯表輸入。

  選擇資料庫連線和編輯sql語句,在這一步可以點選預覽,檢視自己是否連線正確。

  (2)通過插入\更新輸出到表。

  在左邊面板中選擇核心物件、選擇“輸出->插入\更新”如圖所示:

  編輯插入更新:

  首先:表輸入連線插入更新。

    選中表輸入,按住shift鍵,拖向插入更新。

  然後:雙擊插入更新,編輯它。

  到這裡基本上,這個轉換就要做完了,可以點選執行檢視效果,看是否有誤,這個要先儲存了才能執行,可以隨意儲存到任何一個地方。

5、使用作業控制上面裝換執行。

  使用作業可以定時或週期性的執行轉換,新建一個作業。並從左邊面板拖入start 和轉換。

  

  雙擊start可以編輯,可以設定執行時間等等

  點開裝換,可以設定需要執行的轉換任務,比如可以執行上面我們做的轉換,XXX.ktr

  最後點選執行即可。

  到這裡,一個簡單的通過作業排程的kettle就算做完了。

附錄:測試資料表

複製程式碼
 1 -- ----------------------------
 2 DROP TABLE IF EXISTS `student`;
 3 CREATE TABLE `student` (
 4   `userId` int(11) NOT NULL AUTO_INCREMENT,
 5   `userName` varchar(20) DEFAULT NULL,
 6   `userage` int(11) DEFAULT NULL,
 7   `timestamp` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
 8   PRIMARY KEY (`userId`)
 9 ) ENGINE=InnoDB AUTO_INCREMENT=6 DEFAULT CHARSET=utf8;
10 
11 -- ----------------------------
12 -- Table structure for student2
13 -- ----------------------------
14 DROP TABLE IF EXISTS `student2`;
15 CREATE TABLE `student2` (
16   `userId` int(11) NOT NULL AUTO_INCREMENT,
17   `userName` varchar(20) DEFAULT NULL,
18   `userage` int(11) DEFAULT NULL,
19   `timestamp` timestamp NOT NULL DEFAULT '0000-00-00 00:00:00' ON UPDATE CURRENT_TIMESTAMP,
20   PRIMARY KEY (`userId`)
21 ) ENGINE=InnoDB AUTO_INCREMENT=6 DEFAULT CHARSET=utf8;
複製程式碼 建立表語句

相關推薦

kettle教程1 簡單入門kettle簡單插入更新開啟kettle

 本文要點:Kettle的建立資料庫連線、使用kettle進行簡單的全量對比插入更新:kettle會自動對比使用者設定的對比欄位,若目標表不存在該欄位,則新插入該條記錄。若存在,則更新。 Kettle簡介:Kettle是一款國外開源的ETL工具,純java編寫,可以在

kettle教程1 簡單入門kettle簡單插入更新kettle定時器

本文要點:Kettle的建立資料庫連線、使用kettle進行簡單的全量對比插入更新:kettle會自動對比使用者設定的對比欄位,若目標表不存在該欄位,則新插入該條記錄。若存在,則更新。 Kettle簡介:Kettle是一款國外開源的ETL工具,純java編寫,可以在W

爬蟲教程1基礎入門

爬蟲介紹 網路爬蟲,英譯為 web crawler ,是一種自動化程式,現在我們很幸運,生處網際網路時代,有大量的資訊在網路上都可以查得到,但是有時我們需要網路上的資料,活著文章,圖片等等,但是,一個個地複製,貼上是不是太傻了,循著 “DRY” 的設計原則,我們希望用一

SmartSql使用教程1——初探,建立一個簡單的CURD介面服務

一、引言 最近SmartSql被正式引入到了NCC,藉著這個契機寫一個使用教程系列   二、SmartSql簡介[摘自官方文件] 1. SmartSql是什麼? SmartSql = MyBatis + Cache(Memory | Redis) + R/W Splitting +Dy

ML的45問1——概念學習歸納偏置候選消除法

0. 寫在前面 從這章開始,我們針對機器學習的45問進行一個個的解答,這45問來自於Tom M.Mitchell的機器學習一書。大家可以參考一下。希望這45個問題能夠解決一些關於機器學習相關知識的疑惑。 1. 機器學習的定義 機器學習的定義是: 對於

Kettle 使用教程1入門

大資料的開發過程中使用的是Kettle為6.1.0版本 簡介 Kettle是一款純Java開發的ETL工具,它是跨平臺的,所以它可以在Window、Linux、Unix上執行。注意什麼是ETL,讀者可以自行百度瞭解,我的理解是將一個數據庫的資料匯入到另外一個數據庫中,

Unreal Engine 4虛幻UE4GameplayAbilities 插件入門教程技能屏蔽和簡單的Buff等

網絡 important any time sim sed exe triggers 進入 本節內容繼續上一節教程的內容(如果沒有看過前面的教程,請前往學習),不會講太難的新東西,而是繼續探究技能標簽(Abiilty Tags)的內容。先來一道開胃菜。 第1.1步: 將

Metasploit Framework1基本命令簡單使用

文章的格式也許不是很好看,也沒有什麼合理的順序 完全是想到什麼寫一些什麼,但各個方面都涵蓋到了 能耐下心看的朋友歡迎一起學習,大牛和槓精們請繞道   基本的控制檯命令介紹: banner 檢視metasploit的基本資訊   connect 這裡理解成kali的nc命令

SSH入門Struts2篇1——Struts2的配置和簡單示例

1.下載struts2.3並把核心jar包新增到WEB-INF/lib目錄下 struts2.3下載地址 核心jar包指的是以下八個,在這個簡單的例子裡我們暫時只需要這八個 2.struts的表單處理流程 對於一般的web應用而言,表單提交之後交給servl

React從入門到架構1--手把手建立解讀以及開發第一個ReactApp

在開始建立第一個專案之前,我們有一些準備工作要做: 1. 前置工作–安裝軟體 安裝nodejs軟體,官網都有免費的可以下載:nodejs下載地址. 安裝VS Code軟體,不喜歡VS Code的也可以使用sublime Text都可以的,官網可以免費下載安裝:V

Tomcat學習總結1——Tomcat入門教程

一、Tomcat伺服器埠的配置  Tomcat的所有配置都放在conf資料夾之中,裡面的server.xml檔案是配置的核心檔案。  如果想修改Tomcat伺服器的啟動埠,則可以在server.xml配

Hadoop的基本使用1——環境搭建HDFS的簡單使用

Hadoop HDFS 簡介 概念: namenode:負責記錄 資料塊 的分佈情況– 資料元資料資訊 datanode:負責實際儲存 資料塊 block:是Hadoop最小儲存資料單位 預設 128M secondarynamenode: 輔助n

Sony深度學習框架 - Neural Network Console - 教程1- 原來深度學習可以如此簡單

“什麼情況!?居然不是黑色背景+白色文字的命令列。對,今天要介紹的是一個擁有白嫩的使用者介面的深度學習框架。” 人工智慧、神經網路、深度學習,這些概念近年已經湧入每個人的生活中,我想很多人早就按捺不住想親自試一試怎麼玩了。 然額,百度一下相關教程後,本來對人工智慧懷揣著美好憧憬的壯志青年開始懷疑人生了

kettle 教程:常用輸出插入更新表輸出執行 SQL 指令碼

上一篇 文章 ,主要講了 kettle 的原理、安裝及簡單的使用。其中用到了一種輸出方式:插入更新。 這篇文章,主要介紹下常用的輸出方式:插入更新、表輸出、執行 SQL 指令碼。 插入更新 插入更新,顧名思義,包括插入和更新兩種情況。 我們需要先設定

Spring cloud入門教程1

       看到網上關於Spring cloud的入門教程基本是基於Eclipse的,因為我用的是IDEA,所以打算寫一份IDEA使用Spring cloud的入門教程。        廢話不多說,直接來幹。        Spring cloud是一個分散式架構的服務

入門1--螢幕解析度PPI,螢幕尺寸,dpr

1.螢幕解析度 螢幕在縱橫座標上的畫素,1280*960,表示縱座標上1280個畫素,橫座標960個畫素 2.螢幕尺寸 螢幕的對角線長度,使用英寸表示,1in=2.54cm 3.ppi 每英寸上面的畫素個數。ppi=對角線上的畫素個數/螢幕尺寸 4.dpr dpr=物理畫素

Python入門筆記1_ 安裝IDLE設定 及 opencv 配置

近期學習Python,計劃用Python做影象處理。於是用一天時間學習了imooc中的Python入門教程。這裡做個總結。 安裝 很簡單,直接進官網下載,一般為了相容性,大多選擇 2.7 版本。 按

Numpy 入門教程1

Numpy 入門教程 NumPy 提供了對多維陣列的支援,與Python原生支援的List型別不同,陣列的所有元素必須同樣的型別。陣列的維度被稱為axes,維數稱為 rank。  Numpy的陣列型別為 ndarray, ndarray 的重要屬性包括:  ndarray

Git的簡單使用教程1

一、安裝Git 這裡介紹的是windows下安裝Git,官方下載地址:https://git-for-windows.github.io/,但是會比較慢。建議在各大資源網站上下載Git客戶端。 下載好以後找到Git安裝目錄->“Git Bash”,出現

python-pandas工具包入門教程1

1)python-pandas簡介 pandas是Python強大又高效的資料分析工具包,該工具包是為了解決資料分析任務而建立的, 納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工