Hive 3.x 功能介紹
阿新 • • 發佈:2019-01-11
這個版本中有什麼新東西:Apache Hive
hvie 3.1包括物化檢視的分割槽,這可以提高查詢響應能力和維護修復。
工作量管理
使用工作負載管理,您可以配置誰使用資源,可以使用多少以及Hive響應資源請求的速度。管理資源對於Hive LLAP(低延遲分析處理)至關重要,尤其是在多租戶環境中。使用工作負載管理,您可以建立資源池並分配資源以滿足可用性需求,並防止對這些資源的爭用。工作負載管理改進了在Hive LLAP上執行的查詢的並行查詢執行和叢集共享,還提高了非LLAP查詢的效能。工作負載管理可減少大型叢集中的資源不足。您可以使用Hive查詢語言在命令列上實現工作負載管理。
事務改進
成熟版本的ACID(原子性,一致性,隔離性和永續性)事務處理和低延遲分析處理(LLAP)在Hive和HDP 3.0中發展。增強ACID表作為HDP 3.0中的預設表型別,沒有效能或操作過載。使用ACID表操作有助於遵守GDPR(通用資料保護法規)要求被遺忘的權利。通過更強的事務保證和更簡單的SQL命令語義,簡化了應用程式開發和操作。您不需要儲存ACID表,因此維護更容易。您不再需要在Hive表中執行ACID刪除操作。
物化檢視
隨著事務語義的改進,出現了高階優化,例如物化檢視重寫和自動查詢快取。通過這些優化,您可以部署新的Hive應用程式型別。由於多個查詢經常需要相同的中間彙總或連線表,因此可以通過預先計算和將中間表快取到檢視中來避免代價高昂的重複查詢部分共享。查詢優化器自動利用預先計算的快取,從而提高效能。例如,物化檢視可提高商業智慧(BI)和儀表板應用程式中的連線和聚合查詢的速度。
Kafka主題的連線接,低延遲Hive查詢
可以在單個命令中從Kafka主題在Hive中建立Druid表。此功能通過消除Kafka交付和查詢德魯伊之間的資料處理步驟,簡化了對Kafka資料的查詢。
Spark與Hive整合
您可以使用Hive 3從Apache Spark和Apache Kafka應用程式查詢資料,而無需解決方法。Hive Warehouse Connector支援從Spark讀取和編寫Hive表。
Hive安全性改進
Apache Ranger預設保護Hive資料。為滿足客戶對併發性改進的需求,ACID對GDPR(通用資料保護法規)的支援,渲染安全性和其他功能,Hive現在嚴格控制檔案系統和計算機記憶體資源。通過額外的控制,Hive可以更好地優化共享檔案和YARN容器中的工作負載。Hive控制檔案系統越多,Hive就越能保護資料安全。
查詢結果快取
Hive過濾並快取類似或相同的查詢。Hive不會重新計算未更改的資料。當數百或數千名BI工具和Web服務使用者查詢Hive時,快取重複查詢可以大大減輕負載。
資訊模式資料庫
將Hive服務新增到叢集時,Hive會從JDBC資料來源建立兩個資料庫:information_schema和sys。所有Metastore表都對映到您的表空間,並在sys中可用。information_schema資料顯示系統的狀態,類似於sys資料庫資料。您可以使用SQL標準查詢來查詢information_schema,這些查詢可以從一個DBMS移植到另一個DBMS。