KYLIN基於CDH入門實戰(1)之kylin簡介
官網地址:http://kylin.apache.org/cn/
kylin詳細介紹檢視官網
本文僅作學習筆記。
1. 由來
在現在的大資料時代,Hadoop已經成為大資料事實上的標準規範,一大批工具陸陸續續圍繞Hadoop平臺來構建,用來解決不同場景下的需求。比如Hive是基於Hadoop的一個用來做企業資料倉庫的工具,可以將儲存在HDFS分散式檔案系統上的資料檔案對映為一張資料庫表,並提供SQL查詢功能,Hive執行引擎可以將SQL轉換為MapReduce任務來進行執行,非常適合資料倉庫的資料分析。再比如HBase是基於Hadoop,實現高可用性,高效能,面向列,可伸縮的分散式儲存系統,Hadoop架構中的HDFS為HBase提供了高可靠性的底層儲存支援。
但是缺少一個基於Hadoop的分散式分析引擎,雖然目前存在業務分析工具,如Tableau等,但是他們往往存在很大的侷限,比如難以水平擴充套件、無法處理超大規模資料,同時也缺少Hadoop的支援。Apache Kylin(中文:麒麟)的出現,能夠基於Hadoop很好地解決上面的問題。ApacheKylin是一個開源的分散式儲存引擎,最初由eBay開發貢獻至開源社群。它提供Hadoop之上的SQL查詢介面及多維分析(OLAP)能力以支援大規模資料,能夠處理TB乃至PB級別的分析任務,能夠在亞秒級查詢巨大的Hive表,並支援高併發。
2. 應用場景
假如你的資料存在於Hadoop的HDFS分散式檔案系統中,並且你使用Hive來基於HDFS構建資料倉庫系統,並進行資料分析,但是資料量巨大,比如TB級別。
同時你的Hadoop平臺也使用HBase來進行資料儲存和利用HBase的行鍵實現資料的快速查詢等應用
你的Hadoop平臺的資料量逐日累增
對於資料分析的維度大概10個左右
如果你的應用類似上面,那麼非常適合採用Apache Kylin來做大資料量的多維資料分析。ApacheKylin的核心思想是利用空間換時間,將計算好的多維資料結果存入HBase,實現資料的快速查詢。同時由於Apache Kylin在查詢方面制定了多種靈活的策略,進一步提高空間的利用率,使得這樣的平衡策略在應用中值得采用。