Hudi-核心概念(時間軸、檔案管理、索引)
阿新 • • 發佈:2022-02-25
總述
hudi提供了hudi表的概念,這些表支援CRUD操作,可以利用現有的大資料叢集比如HDFS做資料檔案儲存,然後使用SparkSQL或Hive等分析引擎進行資料分析查詢 hudi表的三個主要元件 a.有序的時間軸元資料,類似於資料庫事務日誌 b.分層佈局的資料檔案:實際寫入表中的資料 c.索引(多種實現方式):對映包含指定記錄的資料集;資料有唯一主鍵,可快速定位資料總述
hudi提供了hudi表的概念,這些表支援CRUD操作,可以利用現有的大資料叢集比如HDFS做資料檔案儲存,然後使用SparkSQL或Hive等分析引擎進行資料分析查詢 hudi表的三個主要元件 a.有序的時間軸元資料,類似於資料庫事務日誌 b.分層佈局的資料檔案:實際寫入表中的資料 c.索引(多種實現方式):對映包含指定記錄的資料集;資料有唯一主鍵,可快速定位資料