1. 程式人生 > 其它 >資料湖加速器GooseFS,加速湖上資料分析效能

資料湖加速器GooseFS,加速湖上資料分析效能

通過資料湖加速器 GooseFS 無縫對接各類計算和機器學習平臺,打破資料孤島。

資料湖加速器 GooseFS 是由騰訊雲推出的高效能、高可用、彈性的分散式快取方案。依靠物件儲存(Cloud Object Storage,COS)作為資料湖儲存底座的成本優勢,為資料湖生態中的計算應用提供統一的資料湖入口,加速海量資料分析、機器學習、人工智慧等業務訪問儲存的效能。

GooseFS 採用了分散式叢集架構,具備彈性、高可靠、高可用等特性,為上層計算應用提供統一的名稱空間和訪問協議,方便使用者在不同的儲存系統之間管理和流轉資料。

零、產品背景

近些年來以物件儲存作為統一資料湖儲存的趨勢越來越明顯。物件儲存具有低成本、高可靠、彈性等特性,因此很適合資訊爆炸時代海量資料的儲存,越來越多的企業將大資料儲存從 HDFS 遷移到物件儲存中,採用物件儲存或者物件儲存+HDFS混合儲存架構實現企業級冷熱資料分層方案。但在資料湖方案下,企業仍然面對以下問題:

效能問題:大資料場景中,Map 和 Reduce環節均需要頻繁對檔案進行List 和 Rename 操作;但物件儲存的扁平式架構設計導致在這些操作上天然具有效能瓶頸。此外,資料跨機房儲存會進一步增加資料湖架構下的請求延遲,而近年來流批一體的應用越來越廣泛和深入,大資料業務對實時性要求越來越高,因此需要儘可能讓熱資料更靠近計算端,以便提升業務效能。

成本問題:對於離線大資料業務而言,往往需要儘可能快速地拉取大量重複的資料到計算叢集中進行分析,在資料湖的存算分離架構下,會對儲存頻寬有很大的壓力。這種模式下峰值頻寬高,平均頻寬小,容易產生大量的資源浪費和成本消耗。因此將熱資料快取到計算節點,減少頻寬消耗能夠降低業務成本。

運維問題:相當多的業務採用 HDFS 和 物件儲存等不同儲存服務構建混合儲存架構,在這種業務模型下需要維護多種不同的儲存介面,增加了運維的複雜度。因此,如果有一套儲存服務能夠對接不同的後端儲存系統,為上層計算業務提供一致的訪問檢視,將能極大地減少業務開發的難度,提升儲存服務使用效率。

一、產品功能

GooseFS 旨在提供一站式的快取解決方案,在利用資料本地性和快取記憶體,統一儲存訪問語義等方面具有天然的優勢;GooseFS 在騰訊雲資料湖生態中扮演著“上承計算,下啟儲存”的核心角色,如下圖所示。

GooseFS 基於開源大資料快取方案 Alluxio 進行設計和研發,相較於開源方案,GooseFS 提供了更多關鍵特性,穩定性和效能優化;同時深度融合了騰訊雲生態,對接了騰訊雲TKE、EMR等計算服務,為使用者提供開箱即用的能力。

主要功能如下:

快取加速和資料本地化:GooseFS 可以與計算節點混合部署提高資料本地性,利用快取記憶體功能解決儲存效能問題,提高讀寫物件儲存 COS 檔案的效率。

融合儲存語義:GooseFS 上層統一的介面協議,支援對接物件儲存COS,雲上HDFS和私有化儲存CSP,並且針對騰訊雲COS,CHDFS,CSP等產品做了特殊優化,適用於多種生態和應用場景。

統一的騰訊雲相關生態服務:包括騰訊雲監控、日誌和鑑權的支援。GooseFS 已經順利對接騰訊雲 EMR,騰訊雲 TKE 和騰訊雲 EKS 等;同時支援對接騰訊雲監控,騰訊雲日誌服務 CLS 和騰訊雲 ES,Prometheus和 Grafana 等服務。

元資料管理功能:GooseFS 支援按照 Hive Table 或者 Table partition 級別將儲存在COS或者CHDFS 上的資料非同步快取到本地節點;支援按照 Namespace 配置不同元資料管理方案。

二、產品優勢

GooseFS 在資料湖場景中具有如下幾點明顯的優勢:

1.資料 I/O 效能GooseFS 部署提供近計算端的分散式共享快取,上層計算應用可以透明地、高效地從遠端儲存將需要頻繁訪問的熱資料快取到近計算端,加速資料 I/O 效能。GooseFS 提供了感知元資料 Table 的功能,能夠加速大資料場景下列出檔案列表(List),重新命名檔案(Rename)等元資料操作的效能。此外,業務可以按需選擇MEM, HDD, SSD,NVME SSD 等不同的儲存介質,平衡業務成本和資料訪問效能。 |

2.儲存一體化GooseFS 提供了統一的名稱空間,為上層業務提供了統一的介面協議,底層支援對接COS、CHDFS、CSP等不同的儲存服務,簡化業務側運維配置。儲存一體化能夠打通不同資料底座的壁壘,方便上層應用管理和流轉資料,提升資料利用的效率。

3.生態親和性GooseFS 全相容騰訊雲大資料平臺框架,也支援客戶側自定義的本地部署,具備優秀的生態親和性。業務側不僅可以在騰訊雲彈性 MapReduce 產品中使用,GooseFS 加速大資料業務,也可以便捷地將 GooseFS 本地化部署在公有云 CVM 或者自建 IDC 內。此外,GooseFS 也支援了透明加速能力,支援通過 COSN Interface一訪問物件儲存;對於已經使用 COS 大資料外掛 COSN 的使用者,可以非常方便地將 GooseFS 引入到 COSN 中使用。 |

三、結語

GooseFS 旨在提供一站式的資料湖快取加速解決方案,方便使用者在不同的儲存系統管理和流轉資料,提升您的資料利用效率。

如果您想要詳細瞭解 GooseFS,並進行部署和體驗,可以點選閱讀原文檢視 GooseFS的配置文件。

— END —