1. 程式人生 > >使用Alluxio加速基於Ceph物件儲存的資料分析

使用Alluxio加速基於Ceph物件儲存的資料分析

本文由南京大學顧榮、陳敏翻譯整理自Alluxio公司技術部落格,由Alluxio公司授權CSDN首發(聯合),版權歸Alluxio公司所有,未經版權所有者同意請勿轉載。

1.介紹

這是一篇摘要,取自白皮書《使用Alluxio加速Ceph物件儲存的資料分析》。除了本部落格中的參考架構,白皮書還提供了一份詳細的能重現環境的實施指南。

隨著企業收集的資料量的不斷增長,人們迫切需要找到高效的儲存解決方案。由於簡單性,可擴充套件性和具有成本效益,物件儲存(包括Ceph)已經越來越成為傳統檔案系統的常用替代方案。在大多數情況下,物件儲存系統採用內部部署或在雲中部署,與進行分析的計算節點相互分離。這種分離有幾點好處。

  • 提高成本效益——儲存容量和計算能力可以單獨配置。這樣做簡化了容量規劃,並確保能夠更好地利用資源。
  • 易於管理——將資料與計算分離意味著單個儲存平臺可被不同的計算叢集所共享。例如,一個執行著長時間服務的叢集將資料傳送到物件儲存,可以和資料處理叢集一起執行,從而挖掘出一些價值。

然而,這種架構的後果是資料遠離計算節點。當直接在物件儲存上進行分析時,會從儲存節點反覆提取資料,從而導致效能下降。這種延遲可能會妨礙一些關鍵的資料價值被及時提取。

在計算節點上部署Alluxio可以解決這一問題。通過智慧地儲存與計算密切相關的活動歸檔資料,將效能提升至記憶體級速度,從而實現對資料熱點的快速分析。

2.示例架構

這裡寫圖片描述

3.為什麼選擇Alluxio

Alluxio是一個能達到記憶體級速度的虛擬分散式檔案系統。它駐留在計算節點上,並按照叢集的規模進行擴充套件。Alluxio管理記憶體中的資料,並且選擇性地管理輔助儲存層的資料,例如便宜的SSD和HDD,從而獲得額外的容量。通過將熱資料儲存在計算節點的記憶體中,並在任意輔助層之間無縫地遷移資料,Alluxio在大多數情況下可以實現以記憶體速度訪問遠端資料。這種加速是熱點資料分析的一個關鍵推動者。

Alluxio還能在不同的計算框架之間以及同一框架內的不同作業之間共享資料。無論上層使用的是何種計算引擎,計算叢集的所有使用者都可以在本地獲取資料並重復訪問。因此,計算節點上資料的生命週期與訪問它的作業或框架是分離的。通過資料共享,Alluxio可確保記憶體中不存在冗餘的資料副本,從而降低了容量需求和成本。

應用程式利用Alluxio的簡單性和靈活性持續訪問資料,就像是執行在運程物件儲存上一樣。任何需要持久化的結果或轉換都可以由Alluxio通過配置同步地將更改傳播到底層物件儲存系統中來完成。這樣確保了沒有資料丟失從而易於管理。此外,使用者可以選擇僅在Alluxio記憶體中儲存臨時資料或中間資料,從而允許以記憶體速度寫入。

4.結論

計算資源與物件儲存的分離提供了一個具有成本效益的解決方案。通過在進行分析的節點上執行Alluxio,遠端物件儲存的主要限制被消除了。Alluxio的設計使其成為發掘計算和儲存分離架構的效能潛力的資料分析棧的關鍵元件。

如果您有興趣學習如何使用Alluxio從遠端物件儲存中及時獲取資料價值,請下載我們的白皮書,白皮書詳細說明了如何使用Alluxio和Spark以及Ceph物件儲存叢集來配置和使用一個計算叢集。