淘寶數據魔方技術架構解析讀後感
本次閱讀文章為:淘寶數據魔方技術架構解析
文章地址:https://mp.weixin.qq.com/s?__biz=MzAxNjAzMTQyMA==&mid=2648476063&idx=1&sn=882fb8584b82107d5af191af5b805d0e&chksm=83d3224cb4a4ab5a72e04dbaa6c6621cc866ab913bb7abb1aa8e6f7860e128501ca1a3c26d4a&scene=21#wechat_redirect
淘寶網擁有國內最具商業價值的海量數據。
按照數據的流向來劃分,可以把淘寶數據產品的技術架構分為五層,分別是數據源、計算層、存儲層、查詢層和產品層。位於架構頂端的是我們的數據來源層,這裏有淘寶主站的用戶、店鋪、商品和交易等數據庫,還有用戶的瀏覽、搜索等行為日誌等。這一系列的數據是數據產品最原始的生命力所在。
“雲梯”或者“銀河”並不適合直接向產品提供實時的數據查詢服務。這是因為,對於“雲梯”來說,它的定位只是做離線計算的,無法支持較高的性能和並發需求;而對於“銀河”而言,盡管所有的代碼都掌握在我們手中,但要完整地將數據接收、實時計算、存儲和查詢等功能集成在一個分布式系統中,避免不了分層,最終仍然落到了目前的架構上。
數據魔方設計上的特點:
(1)關系型數據庫仍然是王道。關系型數據庫在分區容忍性方面存在劣勢,但由於它強大的語義表達能力以及數據之間的關系表達能力,在數據產品中仍然占據著不可替代的作用。
(2)NoSQL是SQL的有益補充。
(3)用中間層隔離前後端。
(4)緩存是系統化的工程。緩存系統不得不考慮的一個問題是緩存穿透與失效時的雪崩效應。最常見的解決方法是采用布隆過濾器,將所有可能存在的數據哈希到一個足夠大的birmap中,一個一定不存在的數據會被這個bitmap攔截掉,從而避免了對底層存儲系統的查詢壓力。
數據魔方目前已經能夠提供壓縮前80TB的數據存儲空間,數據中間層gilder支持每天4000萬的查詢請求,平均響應時間在28毫秒,足以滿足未來一段時間內的業務增長需求。
淘寶數據魔方技術架構解析讀後感