資料庫管理越來越複雜,更簡潔統一的解決方案在哪裡?
現在有各種各樣的資料管理系統來儲存與管理資料:關係型資料庫、NoSQL資料庫,文件資料庫、Key-value資料庫,物件儲存系統等等。形態多樣的資料管理系統為企業組織在管理資料上帶來便利的同時,隨之而來的是管理與充分利用這些資料系統儲存的資料的難題。
資料分析師想要分析某一種資料管理系統的資料,為了對不同資料來源進行聯合查詢,那麼就得在應用程式邏輯中使用不同的客戶端去連線不同的資料來源,整個分析過程架構複雜,程式設計入口多,系統整合困難,這對於涉及海量資料的資料分析師而言這樣的分析過程十分痛苦。
今天 Gitee 推薦的這款開源專案就是針對解決這個問題而生,它就是資料虛擬化引擎 openLooKeng。
專案名稱:openLooKeng
專案作者:openLooKeng
開源許可協議:Apache-2.0
專案地址:https://gitee.com/openlookeng/hetu-core
專案簡介
openLooKeng是一種"開箱即用"的引擎,支援在任何地點(包括地理上的遠端資料來源)對任何資料進行原位分析。它通過SQL 2003介面提供了所有資料的全域性檢視。openLooKeng具有高可用性、自動伸縮、內建快取和索引支援,為企業工作負載提供了所需的可靠性。
openLooKeng用於支援資料探索、即席查詢和批處理,具有100+毫秒至分鐘級的近實時時延,而無需移動資料。openLooKeng還支援層次化部署,使地理上遠端的openLooKeng叢集能夠參與相同的查詢。利用其跨區域查詢計劃優化能力,涉及遠端資料的查詢可以達到接近“本地”的效能。
應用場景
- 高效能的互動式查詢場景
- 跨源異構的查詢場景
- 跨域跨DC的查詢場景
- 計算儲存分離的場景
- 快速進行資料探索的場景
專案特性
- 專為海量資料設計的記憶體計算框架
openLooKeng 具有 SQL on Hadoop 的分散式處理架構,採用了儲存與計算分離的設計理念,可方便的實現計算或儲存節點的水平擴充套件。
- ANSI SQL2003語法的支援
使用者使用openLooKeng語法進行查詢時,無論底層資料來源是RDBMS還是NoSQL 或者其他資料管理系統,藉助openLooKeng的Connector框架,資料可以依然存放在原始的資料來源中,從而實現資料“0搬遷”的查詢。
- 多種多樣的資料來源 Connector
openLooKeng針對這些資料管理系統開發了多種多樣的資料來源Connector,包括RDBMS,NoSQL,全文檢索資料庫。openLooKeng可以通過這些多樣的Connector方便的獲取到資料來源資料,從而進一步進行基於記憶體的高效能聯合計算。
- 跨域跨DC的DataCenter Connector
通過這個新Connector可以連線到遠端另外的openLooKeng叢集,從而提供在不同資料中心間協同計算的能力。
- 高效能的查詢優化技術
openLooKeng在記憶體計算框架的基礎上,還利用動態過濾、運算元下推等多種查詢優化技術來滿足高效能的互動式查詢的需要。
參與共建
openLooKeng 目前也在期待廣大對大資料感興趣的開發者們一起加入到 openLooKeng 開源社群中,如果你想要看看它的程式碼長什麼樣,那麼就點選後面的連結去專案主頁看看吧:https://gitee.com/openlookeng/hetu-core