Informatica PowerCenter 和 ETL
本文轉載自:Informatica基礎系列(零)——前言 http://blog.csdn.net/water_0815/article/details/76512470
Informatica PowerCenter,簡稱 Infa,是一款非常強大的ETL工具,支援各種資料來源之間的資料抽取、轉換、載入等資料傳輸,多用於大資料和商業智慧等領域。一般應用企業根據自己的業務資料構建資料倉庫,通過 Infa 在業務資料和資料倉庫間進行 ETL 操作。其中 E(Extract)指資料抽取,T(Transform)指資料轉換,L(Load)指資料載入。在挖掘到的這些零碎無規律的原始資料的基礎上,進行維度的資料分析,找到使用者的習慣和需求,以指導業務拓展及戰略轉移的方向。
這個系列是一個 Infa 基礎入門的介紹,包括匯入資料來源表/目標表、開發 Mapping 與 Workflow、Workflow 定時執行計劃、監控工作流的執行狀況、變數與引數、內建函式、環境資料的匯入匯出(比如從 Trial 環境遷移到 Product)、Infa的備份與恢復等。
Mapping 的開發一般會佔據很大的時間比例,它主要負責從資料來源表(Source)到目標表(Target)之間的資料轉換,利用它的各種元件能夠做很多工作,來滿足各種轉換的需求。 這些元件包括更新策略元件(UPDTRANS)、表示式元件(EXPTRANS)、過濾器元件(FILTRANS)、查詢元件(LOOKUP)、聯合元件(JNRTANS)、路由元件(RTRTRANS)等。除此之外,還可以開發可重用的Transformation 和 Maplet,避免重複性工作。
下文內容來源於:ETL介紹與ETL工具比較 http://blog.csdn.net/u013412535/article/details/43462537
ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將資料從來源端經過萃取(extract)、轉置(transform)、載入(load)至目的端的過程。ETL一詞較常用在資料倉庫,但其物件並不限於資料倉庫。
ETL負責將分佈的、異構資料來源中的資料如關係資料、
平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉庫或資料集市中,成為聯機分析處理、資料探勘的基礎。
ETL是資料倉庫中的非常重要的一環。它是承前啟後的必要的一步。相對於關係資料庫,資料倉庫技術沒有嚴格的數學理論基礎,它更面向實際工程應用。所以從工程應用的角度來考慮,按著物理資料模型的要求載入資料並對資料進行一些系列處理,處理過程與經驗直接相關,同時這部分的工作直接關係資料倉庫中資料的質量,從而影響到聯機分析處理和資料探勘的結果的質量。
資料倉庫是一個獨立的資料環境,需要通過抽取過程將資料從聯機事務處理環境、外部資料來源和離線的資料儲存介質匯入到資料倉庫中;在技術上,ETL主要涉及到關聯、轉換、增量、排程和監控等幾個方面;資料倉庫系統中資料不要求與聯機事務處理系統中資料實時同步,所以ETL可以定時進行。但多個ETL的操作時間、順序和成敗對資料倉庫中資訊的有效性至關重要。
ETL中的關鍵技術
ETL過程中的主要環節就是資料抽取、資料轉換和加工、資料裝載。為了實現這些功能,各個ETL工具一般會進行一些功能上的擴充,例如工作流、排程引擎、規則引擎、指令碼支援、統計資訊等。