1. 程式人生 > >大資料測試(開源優測)

大資料測試(開源優測)

什麼是BI?

BI(Business Intelligence)即商務智慧,它是一套完整的解決方案,用來將企業中現有的資料(原始資料或商業資料或業務資料等)進行有效的整合,快速準確地提供報表並提出決策依據,幫助企業做出明智的業務經營決策。

原始資料記錄了企業日常事務,例如與客戶互動的資訊、財務資訊,員工相關記錄等等。

這些資料可以用於彙報、分析、挖掘、資料質量、互動、預測分析等等

什麼是資料倉庫

資料倉庫是為查詢和分析而不是事務處理而設計的資料庫。

資料倉庫是通過整合不同的異構資料來源而構建起來的。

資料倉庫的存在使得企業或組織能夠將整合、分析資料工作與事務處理工作分離。

資料能夠被轉換、整合為更高質量的資訊來滿足企業級使用者不同層次的需求。

什麼是ETL

ETL是Extract-Transform-Load的縮寫(提取-轉換-載入),是一個完整的從源系統提取資料,進行轉換處理,載入至資料倉庫的過程。

下面我們看一下ETL過程完整的流程圖:

ETLProcess.png

  1. Extract 提取有效的資料

  2. Transform

  • 將提取的資料轉換為資料倉庫模式/格式

  • 構建keys:一個key是一個或多個數據屬性的惟一標識例項,key的型別可以是主鍵(primary key)、外來鍵(foreign key)、替代鍵(alternate key)、複合鍵(composite key)以及代理鍵(surrogate key)。這些key只允許資料倉庫進行維護管理,且不允許其他任何實體進行分配。

  • 資料清理:在提取好資料後,則進入下一個節點:資料清理。對提取的資料中的錯誤進行標識和修復。解決不同資料集之間的不相容的衝突問題,使資料一致性,以便資料集能用於目標資料倉庫。通常,通過轉換系統的處理,我們能建立一些元資料(meta data)來解決源資料的問題,並改進資料的質量。

  1. Load

  • 將轉換後的資料載入資料倉庫

  • 構建聚集:建立聚集對資料進行彙總並存儲資料至表中,以改進終端使用者的查詢體驗。