1. 程式人生 > >自己總結的etl數挖掘據工具-Kettle

自己總結的etl數挖掘據工具-Kettle

流程 rip win 十分 jdk nta 基礎 nsf 處理

etl工作中
Kettle軟件介紹
Pentaho Data Integration (Kettle)是Pentaho生態系統中默認的ETL工具。Kettle是一款國外開源的etl工具,純java編寫,綠色無需安裝,數據抽取高效穩定(數據遷移工具)。Kettle中有兩種腳本文件,transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。
通過非常直觀的圖形化編輯器(Spoon),您可以定義以XML格式儲存的流程。在Kettle運行過程中,這些流程會以不同的方法編譯。用到的工具包括命令行工具(Pan),小型服務器(Carte),數據庫存儲庫(repository)(Kitchen)或者直接使用IDE(Spoon)。
?
Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺裏,然後以一種指定的格式流出。
Kettle 將 ELT 流程編譯為 XML 格式,學起來十分簡單,Pentaho Data Integration (Kettle) 使用 Java (Swing)開發。Kettle 作為編譯器對 XML 格式書寫的流程進行編譯。這些功能和組件比起 Talend 在豐富性方面稍遜一些,但是您建立復雜 ETL 流程需要的一切元素。Kettle 的 JavaScript 引擎(和 Java 引擎)可以深層地控制對數據的處理。
Kettle使用教程:
Kettle自己有三個主要組件:Spoon,Kitchen,Pan。其中Spoon是一個圖形化的界面,用於windows的時候,先設置環境變量:pentaho_java_home,例如:C:\Program Files\Java\jdk1.7.0_25,其實就是你的java安裝目錄,1.6以上即可。windows下雙擊Spoon.bat就可以了.

安裝Kettle

1.由於軟件是由java 編寫 需要 先安裝jdk jdk 版本要求是1.6
2.安裝完成後 要在window 下 設置環境變量
3.在administratorbian變量path 中 增加java變量 ;C:\Program Files\Java\jdk1.6.0_43\bin
4.新建 系統變量 JAVA_HOME C:\Program Files\Java\jdk1.6.0_43

  1. 系統變量path 中 ;C:\Program Files\TortoiseSVN\bin;C:\Program Files\Java\jdk1.6.0_43\bin
    6.在dos 下 輸入javac 測試 環境變量
    7.如果需要連接mysql 數據庫需要把mysql 數據庫的安裝包mysql-connector-java-5.1.18-bin放到D:\工具\kettle\data-integration\libext\JDBC
    8.使用spoon 不需要安裝 雙擊spoon 用戶名admin 密碼不輸入 進入軟件界面
    9.進入界面後 新建作業或者轉換 進行數據庫連接

自己總結的etl數挖掘據工具-Kettle