1. 程式人生 > >阿裏雲HBase發布冷存儲特性,輕松搞定冷數據處理

阿裏雲HBase發布冷存儲特性,輕松搞定冷數據處理

雲盤 dfs 部分 col ces 透明 mar 不變 thread

摘要: 9月27日,阿裏雲HBase發布了冷存儲特性。用戶可以在購買雲HBase實例時選擇冷存儲作為一個附加的存儲空間,並通過建表語句指定將冷數據存放在冷存儲介質上面,從而降低存儲成本。冷存儲的存儲成本僅為高效雲盤的1/3,適用於數據歸檔、訪問頻率較低的歷史數據等各種場景。

9月27日,阿裏雲HBase發布了冷存儲特性。用戶可以在購買雲HBase實例時選擇冷存儲作為一個附加的存儲空間,並通過建表語句指定將冷數據存放在冷存儲介質上面,從而降低存儲成本。冷存儲的存儲成本僅為高效雲盤的1/3,適用於數據歸檔、訪問頻率較低的歷史數據等各種場景。

阿裏雲HBase是基於Apache HBase深度優化的全托管、PB級、千萬級QPS隨機讀寫的雲數據庫,其在物聯網、車聯網、用戶畫像、歷史數據存儲、AI人工智能、Feeds等場景有廣泛的應用。自產品發布以來,我們一直在努力優化,為用戶提供更高的性能和更低的成本。此次發布的冷存儲特性,針對冷數據存儲的場景,可以在保證數據隨時可訪問及不低於雲盤的寫入性能的前提下,大幅降低用戶的存儲成本。

適用場景
一般隨著業務的發展,HBase中存儲的數據量會逐漸變大。在這些數據中,業務最關心的,最常訪問的,往往是某些特定範圍的數據,比如說最近7天的數據,業務對這類數據訪問頻次高,延遲要求高,即所謂的熱數據。而其他的數據,一般訪問量極少,性能要求不高, 但這類數據往往數據量大,即冷數據。如果能把冷熱數據分離開,把熱數據存儲在性能更好的介質中,而把龐大的冷數據放到成本更低的介質中,從而實現把更多優質資源用來提高熱數據的讀寫性能,同時節省存儲成本的目的。

通常來說,冷數據具有如下特點:
1 數據量大,因此對成本更敏感。
2 較低的訪問頻率,因此可以容忍更低的訪問qps和更高的訪問延時,但是大多數場景下都要求隨時可以訪問。

3 寫入tps並不低。無論是歷史數據還是歸檔數據,他們的寫入速度其實都和熱數據相當。

基於以上這些特點,HBase冷存儲在優化成本的同時,提供了和高效雲盤相當的寫入性能,並保證數據隨時可訪問。當然,作為優化成本的代價,冷存儲上HBase的讀操作qps較低,延時(在不命中緩存情況下)也比雲盤要高一些。

下表對HBase上的冷存儲和高效雲盤兩種形態做了比較。可以看出,冷存儲在冷數據場景下有極大的優勢。

技術分享圖片

大幅降低存儲成本
只看存儲成本的話,冷存儲的成本不到高效雲盤的1/3,由於冷數據的量通常都比較大,存儲介質的成本占大頭,因此即使考慮到計算資源的成本不變,整體上成本仍然有很大幅度的下降。
以某車聯網應用為例:擁有10萬臺車, 每臺車每30秒上傳7K的包,數據半年後就很少訪問了,但是有時會有查詢歷史數據的需求,所以這部分冷數據又不能刪除。有了雲HBase的冷存儲特性,就可以把半年之前的數據放在冷存儲上面節約存儲成本,半年內的數據仍然放在高效雲盤保證熱數據的高效訪問。

我們以3年的存儲 ( 約2P)來估算成本,見下圖。
技術分享圖片

可見,對於冷熱數據混合的場景,通過把冷數據存放在冷存儲上面可以大幅降低存儲成本。對於純冷數據的場景(例如歸檔數據),節省的成本就更加可觀了。

寫入性能與雲盤相當
測試環境:
HDFS 6臺8核32G DataNode
HBase 1臺8核32G RegionServer
每臺ECS掛載4塊300G 高效雲盤valueSize=100B
threads=120
測試結果:

技術分享圖片

無需代碼改動,輕松搞定冷數據
冷存儲可以獨立購買,作為一個附加存儲空間使用。購買冷存儲介質後,可以在建表時候中指定把表創建在冷存儲上(即冷表),默認是創建在雲盤介質上(即熱表)。HBase會根據表的屬性將數據放在對應的存儲介質上面,這個細節對應用是透明的,應用不需要關心表的數據存儲在哪裏,都是通過hbase的API對表進行讀寫操作,因此訪問冷數據的代碼不需要做任何改動。

註意事項
1.冷存儲的讀IOPS能力很低,所以冷表只適合存儲冷數據。
2.寫入吞吐上,冷表和基於高效雲盤的熱表相當,可以放心寫入數據。
3.建議平均每個core節點管理冷數據不要超過10T。如果是同時有冷熱表的集群,需要看region數量來衡量。

原文鏈接

本文為雲棲社區原創內容,未經允許不得轉載。

阿裏雲HBase發布冷存儲特性,輕松搞定冷數據處理